التكنولوجيا

ما وراء ARC-AGI: GAIA والبحث عن معيار حقيقي للذكاء الاصطناعي

قياس الذكاء في الذكاء الاصطناعي: التحديات والمعايير⁤ الجديدة

الذكاء⁤ موجود في ⁤كل مكان، ومع ذلك يبدو ​أن قياسه أمرٌ ذاتي. في أفضل الأحوال، نقوم بتقريب ‍قياسه من خلال الاختبارات والمعايير. فكر⁤ في امتحانات القبول ‍الجامعي: كل عام، يسجل عدد لا يحصى من الطلاب، ويحفظون حيل التحضير للاختبار وأحيانًا يحصلون على ‌درجات كاملة. هل يعني رقم واحد، مثل ⁣100%، أن الذين حصلوا عليه‍ يتشاركون نفس مستوى الذكاء – أو⁤ أنهم قد بلغوا أقصى قدراتهم⁣ العقلية؟ بالطبع لا. المعايير هي تقريب⁣ وليس قياسات‌ دقيقة لقدرات شخص ‍ما – أو شيء ما – الحقيقية.

لقد اعتمدت​ مجتمع الذكاء الاصطناعي التوليدي لفترة طويلة على معايير مثل MMLU ‌(فهم‍ اللغة متعددة المهام الضخمة) لتقييم قدرات النماذج من خلال​ أسئلة اختيار من ⁣متعدد ‍عبر​ تخصصات أكاديمية مختلفة. يتيح هذا التنسيق مقارنات⁤ مباشرة ولكنه يفشل في التقاط القدرات​ الذكية⁤ بشكل حقيقي.

على ‌سبيل المثال، تحقق كل من ​Claude 3.5 Sonnet وGPT-4.5 درجات مشابهة على هذه المعيار. على الورق، يوحي هذا بقدرات متساوية. ومع ذلك، يعرف الأشخاص الذين يعملون مع هذه النماذج أن هناك اختلافات كبيرة في ⁤أدائها الفعلي.

ماذا​ يعني قياس “الذكاء” في الذكاء الاصطناعي؟

في أعقاب إصدار معيار ARC-AGI الجديد — وهو اختبار مصمم لدفع النماذج​ نحو التفكير العام وحل المشكلات الإبداعية — هناك نقاش متجدد حول ما يعنيه قياس “الذكاء” في الذكاء الاصطناعي. بينما لم ‌يختبر الجميع معيار ARC-AGI بعد،⁣ فإن الصناعة ترحب بهذه الجهود وغيرها لتطوير أطر الاختبار. لكل معيار ‌ميزته الخاصة ، ويعتبر ARC-AGI⁣ خطوة واعدة في ⁢تلك المحادثة الأوسع.

تطور آخر ⁢ملحوظ ‌مؤخرًا في⁤ تقييم الذكاء الاصطناعي هو ⁣”آخر امتحان ‍للبشرية” ، وهو معيار⁤ شامل يحتوي⁣ على 3000 سؤال تمت مراجعتها‌ من قبل​ الأقران عبر مجالات متنوعة متعددة ⁢الخطوات‌ . بينما يمثل هذا الاختبار محاولة طموحة لتحدي⁤ نظم الذكاء الاصطناعي عند مستوى الخبرة ، تظهر النتائج الأولية تقدمًا‌ سريعًا — حيث حققت OpenAI درجة تبلغ ⁤26,6% بعد شهر واحد فقط من ⁣إصداره . ومع ذلك ، مثل المعايير​ التقليدية⁢ الأخرى ، فإنه يقيم ⁢أساسًا المعرفة والتفكير بمعزل عن بعضهما البعض دون اختبار القدرات العملية التي أصبحت أكثر أهمية للتطبيقات​ الواقعية للذكاء الاصطناعي .

في أحد الأمثلة ، تفشل العديد من النماذج‍ المتطورة بشكل كبير في العد⁤ الصحيح لعدد “r” ​الموجودين بكلمة “fراولة”. وفي مثال آخر ، تحدد خطأً الرقم⁢ 3,8 بأنه ‌أصغر من الرقم 3,1111 . تكشف هذه الأنواع من الفشل — بشأن مهام يمكن‌ حتى لطفل صغير أو آلة حاسبة بسيطة حلها — عن عدم تطابق بين التقدم المدفوع بالمعيار والصلابة الواقعية للعالم الحقيقي ، ⁤مما يذكرنا بأن الذكاء ليس مجرد اجتياز الامتحانات‍ ولكن يتعلق بالتنقل بشكل موثوق عبر المنطق اليومي.

!Beyond ARC-AGI GAIA and the search for a real intelligence

المعيار الجديد لقياس قدرة الذكاء الاصطناعي

مع⁣ تقدم النماذج⁢ ،​ أظهرت هذه المعايير التقليدية حدودها – حيث حققت GPT-4 باستخدام الأدوات حوالي 15%‌ فقط ⁢على المهام‍ الأكثر تعقيداً والواقعية ضمن معيار GAIA، رغم​ الدرجات المثيرة للإعجاب التي⁢ حصلت عليها ضمن اختبارات اختيار متعدد .

أصبح هذا الانفصال بين أداء المعايير والقدرة العملية‍ مشكلة متزايدة مع انتقال⁢ نظم ذكاءات اصطناعية إلى تطبيقات الأعمال . تختبر المعايير التقليدية استرجاع المعرفة لكنها تفوت ‌جوانب مهمة للذكاء: القدرة ​على جمع المعلومات وتنفيذ التعليمات البرمجية وتحليل البيانات وتوليف ‌الحلول عبر مجالات متعددة .

GAIA هو التحول المطلوب منهجيًّا لتقييم ذكاءات اصطناعية . تم إنشاؤه بالتعاون بين فرق Meta-FAIR وMeta-GenAI وHuggingFace وAutoGPT ويشمل المقياس⁤ 466 سؤالاً مصاغة بعناية عبر ثلاث مستويات ⁢صعوبة . تختبر ‍هذه الأسئلة تصفح الويب والفهم متعدد الوسائط ⁣وتنفيذ التعليمات البرمجية والتعامل مع الملفات والتفكير المركب – وهي قدرات ضرورية للتطبيق ​العملي للذكاءات الإصطناعية‍ .

تتطلب أسئلة ⁤المستوى الأول حوالي خمس‍ خطوات وأداة واحدة ‌لحلها⁣ البشر . تتطلب أسئلة المستوى الثاني خمس إلى⁤ عشر خطوات وعددًا متعددًا من الأدوات بينما ​يمكن أن تتطلب أسئلة المستوى الثالث ما يصل إلى⁤ خمسين خطوة منفصلة ⁤وأي‍ عددٍ⁤ كانٍ للأدوات . ‍يعكس هذا الهيكل التعقيد الفعلي لمشاكل الأعمال حيث نادرًا ما تأتي‍ الحلول نتيجة إجراء واحد أو أداة واحدة .

من خلال إعطاء الأولوية ⁢للمرونة بدلاً عن التعقيد​ , حققت نموذج ذكائي دقة بنسبة %75 ضمن GAIA – متجاوزا عمالقة​ الصناعة Microsoft Magnetic–1 (38%) وGoogle Langfun Agent (49%). يعود نجاحهم إلى‌ استخدام مزيجٍ خاصٍّ للنماذج لفهم الصوت والصورة والتفكير , مع نموذج Anthropic ‌Sonnet 3,5 كنموذج⁢ رئيسي .

يعكس هذا التطور فى تقييم ذكاءات اصطناعيات تحولاً أوسع فى الصناعة : نحن ننتقل ​بعيداً عن⁣ تطبيقات⁢ SaaS ‍المستقلة ⁢نحو وكلاءِ ذكاءات إصطنائية يمكنهم تنسيق أدوات متعددة وسير العمل المختلفة‌ . ومع اعتماد الشركات بشكل متزايد على نظم ذكاءات إصطنائية للتعامل مع مهام مركبة ​ومتعددة الخطوات , توفر ⁤مقاييس مثل GAIA مقياسا أكثر ⁤معنىً للقدرة مقارنة باختبارات ‍اختيار متعددة تقليدية .

يكمن مستقبل ​تقييم⁣ ذكاءات الإصطناعيات ليس فى ⁣اختبارات المعرفة المنعزلة بل فى تقييم شامل لقدرة حل المشكلات​ . تضع GAIA معيارا جديدا لقياس قدرة ذكيّ الإصطناعات – وهو الذي يعكس بشكل أفضل التحديات والفرص لنشر⁣ ذكيّ ‍الإصطناعات بالعالم ⁤الحقيقي⁢ .

سري أمباتي هو مؤسس ومدير تنفيذي لشركة H2O.ai .

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى