Google ने अपने ब्लॉग में लिखा है कि भौतिक दुनिया में AI के उपयोगी और हेल्पफुल होने के लिए, इसमें embodied reasoning होना चाहिए।
Google AI Model: Google ने अपना पहला AI मॉडल Gemini 2023 में लॉन्च किया था। तब से लेकर अब तक कंपनी अपने मॉडल को और हाईटेक बनाने पर काम कर रही है। रीजनिंग से लेकर इमेज जेनरेशन तक, Google का Gemini कई क्षमताओं से लैस है। अब कंपनी ने अपने नए AI मॉडल का एलान किया है, जो रोबोट को इंसानों की तरह काम करने में सक्षम बनाएगा। ये मॉडल Gemini रोबोटिक्स और Gemini रोबोटिक्स ER हैं।
Google ने अपने ब्लॉग में लिखा है कि भौतिक दुनिया में AI के उपयोगी और मददगार होने के लिए, इसमें embodied reasoning होना चाहिए, ताकी कार्यों को सुरक्षित रूप से करने के लिए मनुष्यों की तरह समझने और प्रतिक्रिया करने की क्षमता होनी चाहिए।
कैसे काम करता है यह?
Google के अनुसार, Gemini Robotics एक vision-language-action मॉडल है, जिसे Gemini 2.0 पर बनाया गया है। इसमें एक नई क्षमता जोड़ी गई है। शारीरिक क्रियाएं करना, ताकि यह रोबोट को सीधे कंट्रोल कर सके। इस मॉडल में तीन इम्पोर्टेंट फीचर शामिल हैं, जो इसे खास बनाती हैं
- जनरलिटी- यह नए वातावरण और परिस्थितियों के अनुकूल ढल सकता है।
- इंटरैक्टिविटी- यह लोगों और अपने आस-पास के वातावरण के साथ प्रभावी ढंग से बातचीत कर सकता है।
- डेक्स्टेरिटी- यह नाजुक कामों को कुशलतापूर्वक कर सकता है, जैसे कागज़ को मोड़ना या बोतल का ढक्कन खोलना।
यह मॉडल इंसानी लैंग्वेज को बेहतर ढंग से समझता है और उसके अनुसार ही अपने कार्यों को एडजस्ट करता है। इसके अलावा, यह लगातार अपने वातावरण पर नजर रखता है और किसी भी बदलाव पर तेजी से रिएक्शन देता है। यह क्षमता इसे घरों से लेकर कार्यस्थलों तक कई जगहों पर उपयोगी बनाती है।
Google ने यह भी कहा कि रोबोट अलग-अलग शेप और डिजाइन में आते हैं, इसलिए Gemini रोबोटिक्स को उसी के अनुसार, विकसित किया गया है। इसे ALOHA 2 पर ट्रेनड किया गया है, लेकिन यह Franka arms जैसे दूसरे रोबोटिक प्लेटफॉर्म को भी नियंत्रित कर सकता है।
क्या है Gemini Robotics
Gemini Robotics के साथ Google ने Gemini Robotics ER भी दिखाया है। यह मॉडल स्पेशल रूप से Robotics के लिए स्थानिक तर्क को बेहतर बनाता है और Robotic इंजीनियरों को इसे आसानी से अपने मौजूदा सिस्टम में एकीकृत करने की अनुमति देता है।
Gemini Robotics ER, 3D डिटेक्शन और पॉइंटिंग पावर को जोड़ते हुए Gemini 2.0 की कैपेबिलिटी को और बढ़ाता है। यह मॉडल नई क्षमताओं को डेवलप करने के लिए Gemini के कोडिंग कौशल को स्थानिक तर्क के साथ जोड़ता है। उदारण के लिए, अगर उसे एक कॉफी मग दिखाया जाता है, तो वह जल्दी से यह तय कर सकता है कि उसे हैंडल से दो उंगलियों से पकड़ना है या नहीं और उस तक पहुँचने का सबसे सुरक्षित रास्ता कौन सा होगा।