هل كذبت xAI بشأن نتائج أداء Grok 3؟ اكتشف الحقيقة الآن!

تدور النقاشات حول معايير الذكاء الاصطناعي – وكيفية الإبلاغ عنها من قبل مختبرات الذكاء الاصطناعي - في العلن. هذا الأسبوع، اتهم أحد موظفي OpenAI شركة إيلون ماسك للذكاء الاصطناعي، xAI، بنشر نتائج معايير مضللة لنموذجها الأخير من الذكاء الاصطناعي، Grok 3. وأصر أحد مؤسسي xAI، إيغور بابوشكين، على أن الشركة كانت على حق.
الحقيقة تكمن في مكان ما بين ذلك.
في منشور على مدونة xAI، نشرت الشركة رسمًا بيانيًا يظهر أداء Grok 3 في اختبار AIME 2025، وهو مجموعة من الأسئلة الرياضية الصعبة من امتحان رياضيات دعوي حديث. وقد تساءل بعض الخبراء عن صحة AIME كمعيار للذكاء الاصطناعي. ومع ذلك، يتم استخدام AIME 2025 والإصدارات الأقدم من الاختبار بشكل شائع لاستقصاء قدرة النموذج الرياضية.
أظهر الرسم البياني لـ xAI نسختين من Grok 3: Grok 3 Reasoning Beta وGrok 3 mini Reasoning تتفوقان على أفضل نموذج متاح لدى OpenAI وهو o3-mini-high في اختبار AIME 2025. لكن موظفي OpenAI على منصة X كانوا سريعين للإشارة إلى أن الرسم البياني لـ xAI لم يتضمن نتيجة o3-mini-high في اختبار AIME 2025 عند “cons@64”.
قد تتساءل: ما هو cons@64؟ حسنًا، هو اختصار لـ “consensus@64″، ويعطي أساسًا للنموذج 64 محاولة للإجابة عن كل مشكلة في معيار معين ويأخذ الإجابات التي تم توليدها بشكل متكرر كالإجابات النهائية. كما يمكنك أن تتخيل، يميل cons@64 إلى تعزيز درجات النماذج بشكل كبير جدًا؛ وإغفاله عن الرسم البياني قد يجعل الأمر يبدو وكأن نموذجاً يتفوق على آخر بينما الحقيقة ليست كذلك.
تحتوي درجات Grok 3 Reasoning Beta وGrok 3 mini Reasoning لاختبار AIME 2025 عند “@1″ - مما يعني أول درجة حصل عليها النماذج في المعيار – أقل من درجة o3-mini-high. كما أن Grok 3 Reasoning Beta يتخلف قليلاً وراء نموذج OpenAI o1 الذي تم ضبطه للحوسبة “المتوسطة”. ومع ذلك ، فإن xAI تقوم بالترويج لـ Grok 3 باعتباره “أذكى ذكاء اصطناعي في العالم”.
جادَل بابوشكين عبر منصة X بأن OpenAI قد نشرت مخططات معيارية مضللة مماثلة في الماضي – وإن كانت المخططات تقارن أداء نماذجها الخاصة فقط. قام طرف أكثر حياديةً في النقاش بتجميع رسم بياني أكثر “دقة” يظهر أداء تقريباً كل نموذج عند cons@64:
لكن كما أشار الباحث Nathan Lambert ، ربما تظل أهم مقياس لغزاً: التكلفة الحاسوبية (والمالية) التي استغرقتها كل نموذج لتحقيق أفضل نتيجة له. وهذا يوضح مدى قلة المعلومات التي تنقلها معظم معايير الذكاء الاصطناعي حول قيود النماذج — وقوتها أيضاً.