روبوت بارستا: ثورة جديدة في عالم الذكاء الاصطناعي!

نسيت الروبوتات غير الماهرة المحصورة في أرضيات المصانع. ذراع روبوتية جديدة مدعومة بالذكاء الاصطناعي يمكنها الآن إعداد قهوتك الصباحية بينما تتكيف بسلاسة مع فوضى مطبخك – حتى لو قمت عن طريق الخطأ بطرق الكوب أثناء صب القهوة.
طور الباحثون في جامعة إدنبرة نظامًا روبوتيًا متقدمًا يمكنه اتباع الأوامر الشفوية، والتنقل في بيئات غير مألوفة، وأداء مهام معقدة تتطلب لمسة دقيقة وتكيف سريع مع التغيرات غير المتوقعة.
تظهر الدراسة التي نُشرت يوم الأربعاء في مجلة “Nature Machine Intelligence” كيف أن دمج معالجة اللغة المتقدمة مع ردود الفعل الحسية الدقيقة يخلق آلات قادرة على العمل في بيئات غير متوقعة - وهو ما كان يمثل تحديًا طويل الأمد لمهندسي الروبوتات.
قال الباحث الرئيسي روريد مونس-ويليامز من كلية المعلوماتية بجامعة إدنبرة: “نحن نشهد لمحة عن مستقبل تصبح فيه الروبوتات ذات الذكاء المتزايد أمرًا شائعًا”. “الذكاء البشري ينبع من تكامل التفكير والحركة والإدراك، ومع ذلك غالبًا ما تقدم الذكاء الاصطناعي والروبوتات بشكل منفصل. عملنا يظهر قوة دمج هذه الأساليب ويؤكد الحاجة المتزايدة لمناقشة آثارها الاجتماعية.”
يمثل الروبوت الذي طورته مجموعة إدنبرة، والذي يُطلق عليه اسم ELLMER (روبوت مزود بنموذج لغة كبير)، تحولاً كبيراً في كيفية تصميم الآلات لفهم والتفاعل مع العالم. على عكس الروبوتات التقليدية التي تعتمد على استجابات مسبقة البرمجة، يجمع ELLMER بين نموذج لغة كبير مشابه لـ ChatGPT ومستشعرات متطورة توفر ردود فعل بصرية وملمسية مستمرة.
تتوافق هذه المقاربة مع توافق علمي متزايد بأن الذكاء البشري هو أساساً “إدراك مجسد”، حيث تكون عمليات تفكيرنا لا تنفصل عن كيفية تفاعل أجسادنا مع البيئة.
وأشار الباحثون في ورقتهم إلى أنه: “إذا كانت Deep Blue (أول كمبيوتر يفوز بمباراة شطرنج ضد بطل العالم) ذكي حقًا، فهل يجب ألا تكون قادرة على تحريك قطعها الخاصة عند لعب الشطرنج؟” مما يبرز قيود أنظمة الذكاء الاصطناعي المجردة.
يمكن للذراع الروبوتية ذات المفاصل السبعة الاستجابة لأوامر عالية المستوى مثل: “أنا متعب ولدي أصدقاء سيأتون لتناول الكعكة قريباً. هل يمكنك إعداد مشروب ساخن لي وتزيين الطبق بحيوان عشوائي من اختيارك؟” يقوم نموذج اللغة الخاص بالنظام بتفسير هذا الطلب ويقرر أن القهوة ستكون مناسبة لشخص متعب ثم يقسم المهمة إلى خطوات قابلة للإدارة.
ما وراء البرمجة الجامدة
تتفوق الروبوتات التقليدية في البيئات الخاضعة للتحكم مثل خطوط التجميع حيث يتم تحديد كل حركة مسبقًا وتظل العقبات ثابتة. لكنها عادةً ما تفشل في الإعداد الديناميكي مثل المطابخ حيث تتحرك الأشياء وتظهر تحديات غير متوقعة.
يتجاوز ELLMER هذه القيود من خلال ردود الفعل الحسية المستمرة. يكشف مستشعر القوة الموجود عند “معصم” الروبوت مقدار الضغط الذي يمارسه عند فتح الأدراج أو صب الماء أو الرسم على الأطباق. وفي الوقت نفسه، يوفر كاميرا العمق معلومات بصرية حول مواقع الأشياء وحركاتها.
تعود هذه المعلومات الحسية إلى النظام بشكل فوري، مما يسمح لـ ELLMER بتكييف أفعاله فوراً – مثل تعديل زاوية الصب إذا قام شخص بتحريك كوب أثناء صنع القهوة.
لاحظ الباحثون في دراستهم أنه: “تم العثور على دمج GPT-4 يمنح الروبوت القدرة المطلوبة للتفكير المجرد.” “كان نظامنا قادرًا على توليد التعليمات البرمجية وتنفيذ الإجراءات باستخدام ردود فعل القوة والرؤية ، مما يوفر فعليًا للروبوت شكل من أشكال الذكاء.”
المعرفة الثقافية والتعبير الفني
بعيداً عن المهام العملية ، يظهر ELLMER قدراته الإبداعية من خلال تقنية تُسمى توليد مدعوم بالاسترجاع (RAG). وهذا يسمح له بالوصول إلى أمثلة ذات صلة سياقية من قاعدة المعرفة – مماثل لكيفية استناد البشر إلى المعرفة الثقافية المكتسبة.
في إحدى العروض التوضيحية ، عندما طُلب منه تزيين طبق بحيوان “عشوائي” ، استخدم النظام نموذج توليد الصور لإنشاء صورة ظلية لحيوان ثم رسم بدقة الخط الخارجي على طبق باستخدام ضغط قلم ثابت يتم التحكم فيه بواسطة رد فعل القوة.
قيم الباحثون نهجهم مقارنة بأساليب أخرى ووجدوا أن استخدام RAG حسّن بشكل ملحوظ دقة أداء robot – قدرته على تنفيذ المهام بدقة دون “هلوسة” أو اختلاق حلول خاطئة.
التطبيقات المستقبلية والتحديات
بينما نجح ELLMER في تجاوز تحدي صنع القهوة ، يعترف الباحثون بعدة قيود. يتطلب النظام الحالي بيئات مرتبة نسبيًا وأحيانًا يواجه صعوبة مع المشاهد المعقدة بصريًّا أو الأشياء المحجوبة بشدة.
يمكن لنظام الرؤية التعرف بدقة 100%على كوب قهوة أبيض تحت ظروف مثالية ولكن الدقة انخفضت بشكل كبير – لتصل حوالي 20% – عندما كان الكوب محجبا بنسبة 80-90% بأشياء أخرى.
كانت دقة الصب المحققة حوالي 5.4 جرام لكل 100 جرام بسرعات معتدلة ولكن الأخطاء زادت بشكل ملحوظ عند سرعات الصب العالية ، لتصل حوالي 20 جرام لكل ثانية عند أقصى سرعة.
على الرغم من هذه التحديات ، تظهر التكنولوجيا إمكانياتها الواعدة التي قد تمتد بعيداً عن مهام المطبخ فقط.
قال الباحثون إن “إمكانات ELLMER تمتد لإنشاء حركات دقيقة وفنية”. “على سبيل المثال ، يسمح نموذج مثل DALL-E باشتقاق المسارات بناءً على المدخلات البصرية ويفتح آفاق جديدة لتوليد مسارات روبوتية . يمكن تطبيق هذه الطريقة بشكل واسع النطاق ضمن مهام مثل تزيين الكيك أو فن اللاتي.”
مع تحسن تقنيات الاستشعار وزيادة تعقيدات نماذج اللغة, قد تساعد روبوتهات مثل ELLMER قريباًفي مختلف البيئات المنزلية والمهنية – مما قد يحول طريقة تعاون البشر والآلات ضمن البيئات الغير قابلة للتنبؤ بها .
الدراسة, المدعومة بمجلس أبحاث الهندسة والعلوم الفيزيائية (EPSRC), كانت بقيادة مونس-ويليامز, طالب الدكتوراه المشترك بين جامعة إدنبرة ومعهد ماساشوستس للتكنولوجيا وجامعة برينستون, بالتعاون مع شركة مواد البناء العالمية Cemex .