Google डीपमाइंड ने गुरुवार को दो नए आर्टिफिशियल इंटेलिजेंस (एआई) मॉडल का अनावरण किया, जो रोबोट को नियंत्रित कर सकता है ताकि उन्हें वास्तविक दुनिया के वातावरण में कई प्रकार के कार्यों का प्रदर्शन किया जा सके। डब किए गए मिथुन रोबोटिक्स और मिथुन रोबोटिक्स-एर (सन्निहित तर्क), ये उन्नत दृष्टि भाषा मॉडल हैं जो स्थानिक खुफिया और प्रदर्शन करने वाले कार्यों को प्रदर्शित करने में सक्षम हैं। माउंटेन व्यू-आधारित टेक दिग्गज ने यह भी खुलासा किया कि यह जेमिनी 2.0-संचालित ह्यूमनॉइड रोबोट बनाने के लिए Apptronik के साथ साझेदारी कर रहा है। कंपनी भी इन मॉडलों का परीक्षण कर रही है ताकि उन्हें और मूल्यांकन किया जा सके, और समझा जा सके कि उन्हें बेहतर कैसे बनाया जाए।
Google डीपमाइंड ने मिथुन रोबोटिक्स एआई मॉडल का अनावरण किया
एक ब्लॉग पोस्ट में, डीपमाइंड ने रोबोट के लिए नए एआई मॉडल को विस्तृत किया। Google DeepMind में वरिष्ठ निदेशक और रोबोटिक्स के प्रमुख कैरोलिना परदा ने कहा कि एआई के लिए भौतिक दुनिया में लोगों के लिए सहायक होने के लिए, उन्हें “सन्निहित” तर्क का प्रदर्शन करना होगा – भौतिक दुनिया को बातचीत करने और समझने और कार्यों को पूरा करने के लिए कार्रवाई करने की क्षमता।
दो एआई मॉडल में से पहला मिथुन रोबोटिक्स, एक उन्नत दृष्टि-भाषा-एक्शन (वीएलए) मॉडल है जिसे मिथुन 2.0 मॉडल का उपयोग करके बनाया गया था। इसमें “भौतिक क्रियाओं” का एक नया आउटपुट मोडेलिटी है जो मॉडल को सीधे रोबोट को नियंत्रित करने की अनुमति देता है।
दीपमाइंड ने इस बात पर प्रकाश डाला कि भौतिक दुनिया में उपयोगी होने के लिए, रोबोटिक्स के लिए एआई मॉडल को तीन प्रमुख क्षमताओं – सामान्यता, अन्तरक्रियाशीलता और निपुणता की आवश्यकता होती है। सामान्यता एक मॉडल की विभिन्न स्थितियों के अनुकूल होने की क्षमता को संदर्भित करती है। मिथुन रोबोटिक्स “नई वस्तुओं, विविध निर्देशों और नए वातावरणों से निपटने में निपुण है,” कंपनी ने दावा किया। आंतरिक परीक्षण के आधार पर, शोधकर्ताओं ने एआई मॉडल को एक व्यापक सामान्यीकरण बेंचमार्क पर प्रदर्शन को दोगुना करने से अधिक पाया।
एआई मॉडल की अन्तरक्रियाशीलता मिथुन 2.0 की नींव पर बनाई गई है, और यह रोजमर्रा, संवादी भाषा और विभिन्न भाषाओं में लिखित कमांडों को समझ और प्रतिक्रिया कर सकता है। Google ने दावा किया कि मॉडल भी लगातार अपने परिवेश की निगरानी करता है, पर्यावरण या निर्देशों में परिवर्तन का पता लगाता है, और इनपुट के आधार पर अपने कार्यों को समायोजित करता है।
अंत में, दीपमाइंड ने दावा किया कि मिथुन रोबोटिक्स बेहद जटिल, बहु-चरणीय कार्यों का प्रदर्शन कर सकते हैं जिन्हें भौतिक वातावरण के सटीक हेरफेर की आवश्यकता होती है। शोधकर्ताओं ने कहा कि एआई मॉडल रोबोट को कागज के एक टुकड़े को मोड़ने या एक बैग में स्नैक पैक करने के लिए नियंत्रित कर सकता है।
दूसरा एआई मॉडल, मिथुन रोबोटिक्स-एर, एक विज़न लैंग्वेज मॉडल भी है, लेकिन यह स्थानिक तर्क पर केंद्रित है। मिथुन 2.0 के कोडिंग और 3 डी का पता लगाने से, एआई मॉडल को वास्तविक दुनिया में किसी वस्तु में हेरफेर करने के लिए सही कदमों को समझने की क्षमता प्रदर्शित करने के लिए कहा जाता है। एक उदाहरण पर प्रकाश डालते हुए, परदा ने कहा कि जब मॉडल को एक कॉफी मग दिखाया गया था, तो यह एक सुरक्षित प्रक्षेपवक्र के साथ हैंडल द्वारा इसे लेने के लिए दो-उंगली समझ के लिए एक कमांड उत्पन्न करने में सक्षम था।
एआई मॉडल भौतिक दुनिया में एक रोबोट को नियंत्रित करने के लिए आवश्यक बड़ी संख्या में कदम रखता है, जिसमें धारणा, राज्य अनुमान, स्थानिक समझ, योजना और कोड पीढ़ी शामिल हैं। विशेष रूप से, वर्तमान में दो एआई मॉडल में से कोई भी सार्वजनिक डोमेन में उपलब्ध नहीं है। DEEPMIND संभवतः AI मॉडल को एक ह्यूमनॉइड रोबोट में एकीकृत करेगा और प्रौद्योगिकी को जारी करने से पहले अपनी क्षमताओं का मूल्यांकन करेगा।
You may also like
-
Google क्लाउड अपने वर्टेक्स एआई प्लेटफॉर्म पर चिरप 3 ऑडियो जनरेशन मॉडल लाता है
-
POCO F7 अल्ट्रा, F7 प्रो प्रमुख विनिर्देशों की अपेक्षित वैश्विक लॉन्च से पहले ऑनलाइन
-
Apple ने कथित तौर पर 2026 की दूसरी छमाही में फोल्डेबल iPhone, iPad Pro का बड़े पैमाने पर उत्पादन शुरू किया
-
एचपी एलीटबुक अल्ट्रा, एलीटबुक फ्लिप, एलीटबुक एक्स वाणिज्यिक एआई पीसी फॉर बिजनेस इन इंडिया
-
सैमसंग गैलेक्सी Xcover 8 प्रो कथित तौर पर ऑनलाइन स्पॉटेड; स्नैपड्रैगन 7s जनरल 3 सोको पर चल सकता है