ByteDance ने हाल ही में एक नया एआई टूल OmniHuman-1 पेश किया है, जो सिर्फ एक फोटो से रियल वीडियो बना सकता है।
ByteDance AI Tool: ByteDance ने एक नया AI टूल OmniHuman-1 पेश किया है, जो एक फोटो से रियल वीडियो बना सकता है। यह AI टूल इंसानों को बोलते हुए, संगीत बजाते हुए और दूसरी गतिविधियां करते हुए दिखाने में कैपेबल है। कंपनी का दावा है कि यह टूल सभी टेक्नोलॉजी से कहीं ज्यादा एडवांस है और ऑडियो इनपुट के आधार पर रियल इंसानी वीडियो बना सकता है।
क्या है OmniHuman-1 इसकी खासियत?
ByteDance ने एक रिसर्च पेपर में इस AI टूल की क्षमताओं के बारे में डिटेल बताया। OmniHuman-1 किसी भी इमेज के साथ काम कर सकता है। यह AI टूल किसी भी स्थिति में अत्यधिक सटीक और नेचुरल वीडियो बनाने में कैपेबल है, जो मौजूदा AI मॉडल की तुलना में कहीं अधिक एडवांस है, जबकि अन्य AI टूल केवल चेहरे के भाव बदलने या साधारण लिप-सिंकिंग तक ही सीमित हैं। OmniHuman-1 पूरे शरीर की हरकतों को भी कैप्चर कर सकता है।
रिसर्चर को क्या मिला
रिसर्चर ने इस टूल के कई डेमो वीडियो दिखाए है, जिसमें हाथ की हरकतें, पूरे शरीर की हरकतें और एनिमेटेड जानवरों की हरकतें शामिल हैं। इस AI ने फेमस साइंटिस अल्बर्ट आइंस्टीन का एक ब्लैक-एंड-व्हाइट वीडियो बनाया गया है, जिसमें वह ब्लैकबोर्ड के सामने लेक्चर देते हुए नजर आ रहे हैं। इस वीडियो में उनके चेहरे के हाव-भाव और हाथ की हरकतें पूरी तरह से स्वाभाविक लग रही हैं।
मानव वीडियो डेटा पर ट्रेंड किया गया
ByteDance के अनुसार, OmniHuman-1 को 18,700 घंटों से ज्यादा मानव वीडियो डेटा पर ट्रेंड किया गया है। इस मॉडल को टेक्स्ट प्रॉम्प्ट, ऑडियो क्लिप और बॉडी पोज डेटा जैसी कई इनपुट टेक्नोलजी विकसित किया गया है, जिससे यह मनुष्यों की प्राकृतिक हरकतों और भावों को सटीक रूप से दोहरा सकता है।
AI सिस्टम से बेहतर प्रदर्शन कर रहा
रिसर्चर का दावा है कि OmniHuman-1 मौजूदा AI सिस्टम से बेहतर प्रदर्शन कर रहा है और इमेज-टू-वीडियो जेनरेशन में एक नया मानक स्थापित कर रहा है। यह अपनी तरह का पहला टूल नहीं है, लेकिन यह TikTok जैसे प्लेटफॉर्म प्राप्त व्यापक डेटा प्रशिक्षण और विविध मानव आंदोलन पैटर्न के कारण अपने कॉम्पिटिटर से बेहतर प्रदर्शन कर सकता है।