Bagel का आना AI की दुनिया में एक नया मोड़ साबित हो सकता है। यह न केवल टेक्स्ट को समझता है, बल्कि इमेज के साथ इंटरैक्ट भी करता है।
ByteDance Bagel AI: ByteDance ने AI की दुनिया में बड़ा कदम उठाया है। कंपनी ने हाल ही में Bagel AI लॉन्च किया है। यह एक Visual Language Model (VLM) है, जो टेक्स्ट और इमेज, दोनों को एक साथ समझने, प्रोसेस करने और एडिट करने में कैपेबल है। ByteDance ने Bagel को ओपन-सोर्स बना दिया है। यानी कि अब कोई भी व्यक्ति या डेवलपर इसे फ्री में डाउनलोड करके अपने प्रोजेक्ट्स में यूज कर सकता है। यह GitHub और Hugging Face जैसे पॉपुलर AI प्लेटफॉर्म्स पर मौजूद है।
Bagel की खास खूबियां
- मल्टीमॉडल इनपुट: Bagel टेक्स्ट और इमेज दोनों को एक साथ समझ सकता है। यानी कि आप किसी भी फोटो को देखकर उस पर टेक्स्ट के जरिए सवाल पूछ सकते हैं, जिसका जवाब Bagel देगा।
- 14 बिलियन पैरामीटर्स: इस मॉडल में कुल 14 अरब पैरामीटर हैं, जिनमें से एक समय में 7 अरब एक्टिव रहते हैं। पैरामीटर AI मॉडल की ‘समझदारी’ को तय करते हैं। जितने ज्यादा पैरामीटर, उतनी ज्यादा कैपेसिटी।
- इंटरलीव्ड ट्रेनिंग डेटा: Bagel को खास तरीके से ट्रेन किया गया है, जिसमें टेक्स्ट और इमेज दोनों को एक साथ मिलाकर डाटा दिया गया। इससे मॉडल दोनों के बीच अच्छा संबंध बना पाता है और ज्यादा प्राकृतिक तरीके से जवाब देता है।
एडवांस इमेज एडिटिंग में माहिर
ByteDance का दावा है कि Bagel दूसरे ओपन-सोर्स विजुअल लैंग्वेज मॉडल्स के मुकाबले काफी बेहतर इमेज एडिटिंग करता है। इससे आप तस्वीर में किसी भी एलिमेंट को जोड़ सकते हैं या हटा सकते हैं, किसी के इमोशन तस्वीर में जोड़ सकते हैं, किसी फोटो का स्टाइल बदल सकते हैं और बिना किसी नियम या लिमिट फ्रेमवर्क के फ्री-फॉर्म एडिटिंग जैसे काम कर सकते हैं।
दुनिया को विजुअली समझने में कैपेबल
Bagel को ऐसा ट्रेन किया गया है कि वह न सिर्फ इमेज को पहचानता है, बल्कि दुनिया को विजुअल रूप से समझता है। यानी उसे यह भी पता होता है कि फोटो में कौन-कौन सी चीजें हैं, उनके बीच क्या संबंध है, रौशनी किस तरफ से आ रही है, ग्रेविटी कैसे काम कर रहा है।
दूसरी कंपनियों के AI मॉडल्स को दी टक्कर
ByteDance ने यह भी कहा है कि उनके इंटरनल टेस्ट में Bagel ने कई बड़े नामी AI मॉडल्स को पछाड़ दिया है। जैसे Qwen2.5-VL-7B को इमेज पहचानने में, Janus-Pro-7B और Flux-1-dev को इमेज जनरेशन में और Gemini-2-exp को इमेज एडिटिंग के GEdit-Bench टेस्ट में पीछे छोड़ दिया है।