البساطة تفتح الأبواب: كيف أطلقت جامعة بيركلي وجوجل إمكانيات نماذج اللغة الكبيرة من خلال تقنيات عينة بسيطة

انضم إلى نشراتنا اليومية والأسبوعية للحصول على آخر التحديثات والمحتوى الحصري حول تغطية الذكاء الاصطناعي الرائدة في الصناعة. تعرف على المزيد
تظهر ورقة جديدة من باحثين من Google Research وجامعة كاليفورنيا، بيركلي أن نهجًا بسيطًا بشكل مدهش لتوسيع نطاق الاختبار يمكن أن يعزز قدرات التفكير لنماذج اللغة الكبيرة (LLMs). المفتاح؟ توسيع البحث القائم على العينة، وهي تقنية تعتمد على توليد استجابات متعددة واستخدام النموذج نفسه للتحقق منها.
النتيجة الأساسية هي أنه حتى تنفيذ بسيط للغاية للبحث القائم على العينة، باستخدام العينة العشوائية والتحقق الذاتي، يمكن أن يرفع أداء التفكير لنماذج مثل Gemini 1.5 Pro إلى ما هو أبعد من نموذج o1-Preview في المعايير الشائعة. يمكن أن تكون النتائج لها تداعيات مهمة للتطبيقات التجارية وتحدي الافتراض بأن التدريب المتخصص للغاية أو الهياكل المعقدة ضرورية دائمًا لتحقيق أداء رفيع المستوى.
حدود توسيع نطاق الحساب الحالي أثناء الاختبار
الطريقة الشائعة الحالية لتوسيع النطاق أثناء الاختبار في LLMs هي تدريب النموذج من خلال التعلم المعزز لتوليد استجابات أطول مع تتبع سلسلة الأفكار (CoT). تُستخدم هذه الطريقة في نماذج مثل OpenAI o1 وDeepSeek-R1. وعلى الرغم من فوائدها، فإن هذه الطرق عادةً ما تتطلب استثمارًا كبيرًا في مرحلة التدريب.
هناك طريقة أخرى لتوسيع النطاق أثناء الاختبار وهي “الاتساق الذاتي”، حيث يقوم النموذج بتوليد استجابات متعددة للسؤال ويختار الإجابة التي تظهر أكثر تكراراً. يصل الاتساق الذاتي إلى حدوده عند التعامل مع مشاكل معقدة، حيث إن الإجابة الأكثر تكراراً ليست بالضرورة الصحيحة.
يوفر البحث القائم على العينة بديلاً أبسط وقابل للتوسع بشكل كبير لتوسيع النطاق أثناء الاختبار: دع النموذج يولد استجابات متعددة ويختار الأفضل منها عبر آلية تحقق. يمكن أن يكمل البحث القائم على العينة الاستراتيجيات الأخرى لتوسيع نطاق الحساب أثناء الاختبار وكما كتب الباحثون في ورقتهم: “لديه أيضًا الميزة الفريدة المتمثلة في كونه متوازيًا بشكل محرج ويسمح بالتوسع بشكل تعسفي: ببساطة عيّن المزيد من الاستجابات.”
الأهم من ذلك، يمكن تطبيق البحث القائم على العينة لأي LLM، بما في ذلك تلك التي لم يتم تدريبها صراحةً للتفكير.
كيف يعمل البحث القائم على العينة
يركز الباحثون على تنفيذ بسيط للبحث القائم على العينات باستخدام نموذج لغة لكلٍّ من توليد الاستجابة المرشحة والتحقق منها. هذه عملية “تحقق ذاتي”، حيث يقيم النموذج مخرجاته الخاصة دون الاعتماد على إجابات صحيحة خارجية أو نظم تحقق رمزية.
تعمل الخوارزمية بعدة خطوات بسيطة:
1— تبدأ الخوارزمية بتوليد مجموعة من الحلول المرشحة للمشكلة المحددة باستخدام نموذج لغة. يتم ذلك عن طريق إعطاء النموذج نفس الطلب عدة مرات واستخدام إعداد درجة حرارة غير صفرية لإنشاء مجموعة متنوعة من الاستجابات.
2— تخضع كل استجابة مرشحة لعملية تحقق يتم فيها تحفيز LLM عدة مرات لتحديد ما إذا كانت الاستجابة صحيحة أم لا. ثم يتم حساب متوسط نتائج التحقق لإنشاء درجة تحقق نهائية للاستجابة.
3— تختار الخوارزمية أعلى درجة كاستجابة نهائية. إذا كانت هناك عدة مرشحين ضمن نطاق قريب جدًا لبعضهم البعض، يُطلب من LLM مقارنتها زوجيًا واختيار الأفضل منها. تُختار الاستجابة التي تفوز بأكبر عدد ممكن من المقارنات الزوجية كإجابة نهائية.
اعتبر الباحثون محورين رئيسيين لتوسيع النطاق أثناء اختبار الوقت:
- العينات: عدد الاستجابات التي يولدها النموذج لكل مشكلة مدخلة.
- التحقق: عدد درجات التحقق المحسوبة لكل حل تم توليده.
كيف يقارن البحث القائم على العينات بالتقنيات الأخرى
أظهرت الدراسة أن أداء التفكير يستمر في التحسن مع البحث القائم على العينات حتى عندما يتجاوز حساب وقت الاختبار النقطة التي تشبع فيها الاتساق الذاتي.
على نطاق كافٍ ، يعزز هذا التنفيذ البسيط دقة التفكير بشكل كبير وفقاً لمعايير التفكير مثل AIME وMATH . فعلى سبيل المثال ، تجاوز أداء Gemini 1.5 Pro أداء o1-Preview الذي تم تدريبه صراحةً لحل مشكلات التفكير ، وتجاوز Gemini 1.5 Flash Gemini 1.5 Pro .
“هذا لا يسلط الضوء فقط أهمية البحث المستند إلى العينات لقدرة التوسع ولكن أيضًا يشير إلى فائدة هذا النوع كمقياس أساسي للمقارنة بين استراتيجيات توسيع نطاق الحساب الأخرى وقياس التحسين الحقيقي لقدرات بحث النماذج” كما كتب الباحثون .
من الجدير بالذكر أنه بينما تعتبر نتائج بحث العينات مثيرة للإعجاب ، إلا أن التكاليف قد تصبح أيضًا باهظة . فعلى سبيل المثال ، مع 200 عينة و50 خطوة تحقق لكل عينة ، ستولد طلب AIME حوالي 130 مليون رمز مما يكلف $650 باستخدام Gemini 1 .5 Pro . ومع ذلك ، فإن هذا هو النهج البسيط جداً للبحث المستند إلى العينات وهو متوافق مع تقنيات تحسين مقترحة دراسات أخرى .
مع طرق أخذ عينات وتحقيق أكثر ذكاءً ، يمكن تقليل تكاليف الاستنتاج بشكل كبير عن طريق استخدام نماذح أصغر وتوليد رموز أقل . فعلى سبيل المثال ، باستخدام Gemini 1 .5 Flash لإجراء التحقيق تنخفض التكلفة إلى $12 لكل سؤال .
استراتيجيات تحقيق ذاتي فعالة
هناك نقاش مستمر حول ما إذا كان بإمكان LLMs التحقق بأنفسهم عن إجابتهم أم لا . حدد الباحثون اثنين رئيسيين لتحسين التحقيق الذاتي باستخدام حساب وقت الاختبار :
- المقارنة المباشرة بين الحلول المرشحة: تشير الخلافات بين الحلول المرشحة بقوة إلى الأخطاء المحتملة . ومن خلال توفير العديد من الردود للمقارنة بها, يستطيع النموذج تحديد الأخطاء والهلاوس بصورة أفضل, مما يعالج نقطة ضعف أساسية لـLLMs .
- إعادة الكتابة الخاصة بالمهمة: يقترح الباحثون أن أسلوب الإخراج الأمثل لـLLM يعتمد علي المهمة المطلوبة منه , سلسلة الأفكار فعالة لحل مهام التفكير ولكن يسهل التحقق منها عندما تكون مكتوبة بأسلوب رسمي وأكثر تقليدية رياضياً .
“نتوقع تحسين قدراتهم الذاتية للتحقق بسرعة علي المدي القصير , حيث تتعلم النماذح كيفية استخدام مبادئ القياس الضمني ومدى ملائمة أسلوب الإخراج , ودفع معدلات تحسين أكبر لعمليات بحث قائمة علي عيناة,” كما كتب الباحثون .
تداعيات التطبيقات الواقعية
تظهر الدراسة أنه يمكن تحقيق نتائج مثيرة للإعجاب بتقنية بسيطة نسبيًا مما قد يقلل الحاجة لهياكل نمذجة معقدة ومكلفة أو نظم تدريب مكثفة .
هذه تقنية قابلة للتوسع أيضاً, تمكن الشركات لزيادة الأداء عن طريق تخصيص موارد حاسوبية أكبر لأخذ عينتين والتحقيق, كما أنها تمكن المطورين لدفع نماذح اللغة الحدود إلي ما وراء قيودها عند التعامل مع مهام مركبة أكثر تعقيدا
“نظرًا لأنها تكمل إستراتيجيات توسيع نطاق الحساب الأخرى, قابلة للتوازي وتسمح بالتوسع التعسفي , وتعترف بتنفيذ بسيط فعال يظهر تأثيره الواضح نتوقع ان يلعب بحث قائم علي عيناة دورا حيويا بينما تطلب نمذجة اللغة حل مشاكل متزايدة التعقيد بميزانياتها الحاسوبية المتزايدة,” كما كتب الباحثون .