تقنية جديدة تُحسن من طول سلسلة التفكير في نماذج اللغة الكبيرة دون زيادة تكاليف الحوسبة!

التحكم في طول سلسلة التفكير (CoT) في نماذج اللغة الكبيرة
انضم إلى نشراتنا اليومية والأسبوعية للحصول على آخر التحديثات والمحتوى الحصري حول تغطية الذكاء الاصطناعي الرائدة في الصناعة. تعرف على المزيد
أصبح التفكير من خلال سلسلة الأفكار (CoT) — العملية التي تقوم من خلالها النماذج بتقسيم المشكلات إلى “أفكار” قابلة للإدارة قبل استنتاج الإجابات — جزءًا لا يتجزأ من الجيل الأخير من نماذج اللغة الكبيرة المتقدمة (LLMs).
ومع ذلك، يمكن أن تتزايد تكاليف الاستدلال لنماذج التفكير بسرعة حيث تنتج النماذج عددًا زائدًا من رموز CoT. في ورقة جديدة، يقترح الباحثون في جامعة كارنيجي ميلون تقنية تدريب LLM تمنح المطورين مزيدًا من التحكم على طول CoT.
تسمى هذه التقنية تحسين السياسة المعتمد على الطول (LCPO)، حيث تشترط النموذج لتقديم إجابات صحيحة مع الحفاظ أيضًا على “أفكاره” ضمن ميزانية رمزية محددة مسبقًا. تظهر التجارب أن النماذج المدربة باستخدام LCPO توفر توازنًا سلسًا بين الدقة والتكاليف ويمكنها بشكل مدهش outperform نماذج أكبر عند أطوال تفكير متساوية. يمكن أن تساعد LCPO بشكل كبير في تقليل تكاليف الاستدلال في التطبيقات المؤسسية عن طريق توفير آلاف الرموز في كل جولة محادثة مع LLM.
أداء LLM يؤدي إلى أطوال CoTs أطول
تتم تدريب نماذج التفكير مثل OpenAI o1 وDeepSeek-R1 عبر التعلم المعزز (RL) لاستخدام توسيع وقت الاختبار وإنتاج آثار CoT قبل تقديم إجابة. تشير الأدلة التجريبية إلى أنه عندما “تفكر” النماذج لفترة أطول، فإنها تميل إلى الأداء بشكل أفضل في مهام التفكير.
على سبيل المثال، تم تدريب R1 أولاً باستخدام RL البحت دون أمثلة مصنفة بشرياً. كانت إحدى الرؤى هي أنه مع تحسن أداء النموذج، تعلم أيضًا إنتاج آثار CoT أطول.
بينما تؤدي سلاسل CoT الطويلة عمومًا إلى استجابة أكثر دقة، فإنها تخلق أيضًا عنق زجاجة حسابي عند تطبيق نماذج التفكير على نطاق واسع. حاليًا هناك القليل جدًا من التحكم فيما يتعلق بميزانية الحساب أثناء الاختبار، ويمكن أن تمتد التسلسلات بسهولة لتصل إلى عشرات الآلاف من الرموز دون تقديم مكاسب كبيرة. كانت هناك بعض الجهود للسيطرة على طول سلاسل التفكير، لكنها عادة ما تؤدي إلى تدهور أداء النموذج.
شرح تحسين السياسة المعتمد على الطول (LCPO)
تقوم الطريقة التقليدية للتعلم المعزز بتدريب LLMs فقط لتحقيق الاستجابة الصحيحة. تغير LCPO هذا النموذج بإدخال هدفين تدريبيين: 1) الحصول على النتيجة الصحيحة و2) الحفاظ على سلسلة CoT ضمن طول رمزي محدد مسبقاً. لذلك إذا أنتَجَ النموذج استجابة صحيحة ولكنه أنتَجَ عدد كبير جدًا من رموز CoT ، فسيتلقى عقوبة وسيضطر لوضع سلسلة تفكير تصل لنفس الإجابة ولكن بميزانية رمزية أصغر.
كتب الباحثون: “النماذج المدربة باستخدام LCPO تتعلم تلبية قيود الطول بينما تعظم أداء التفكير بدلاً من الاعتماد فقط على خوارزميات هندسية يدوية.”
يقترحون نوعين مختلفين لـ LCPO: 1) LCPO-exact ، الذي يتطلب أن تكون عملية التفكر الناتجة مساوية تماماً للطول المستهدف ، و2) LCPO-max ، الذي يتطلب ألا يكون الناتِـِـِـِـِــُوج أكبر مما هو مستهدف.
لاختبار التقنية ، قام الباحثون بضبط نموذج تفكير يحتوي علي 1.5 مليار بارامتر (Qwen-Distilled-R1-1.5B) وفق المخططين المقترحين لـ LCPO لإنشاء نموذجَي L1-max وL1-exact . كان التدريب قائمًَا علي مشاكل رياضية ذات نتائج متميزة وقابلة للتحقق منها . ومع ذلك ، شمل التقييم مشاكل رياضية بالإضافة إلي مهام خارج التوزيع مثل قياس فهم اللغة متعددة المهام الضخمة (MMLU) وتقنية معيار الأسئلة والأجوبة الخاصة بـ Google بمستوى الدراسات العليا (GPQA).
تشير النتائج التي توصلوا إليها إلي أن نمذجة L1 يمكنها تحقيق توازن دقيق بين ميزانية الرموز وأداء الفكر, مما يسمح بالتداخل بسلاسة بين عمليات تفكير قصيرة وكفء وأخرى طويلة وأكثر دقة عن طريق تحفيز النموذج بقيود مختلفة للطول . ومن المهم أنه بالنسبة لبعض المهام, يمكن لنموذجات L1 إعادة إنتاج أداء نموذج الفكر الأصلي بميزانية رمزية أقل .
!LCP0
نمذجات L1 تتفوق علي S1 والنمادح الأساسية بناءً علي أساس التكلفة والدقة
بالمقارنة مع S1 – الطريقة الوحيدة الأخرى التي تحدّ مِن طول الـCoTs – تُظهر موديلات الـL١ زيادة تصل حتى 150% بالأداء عبر ميزانيات رمزية مختلفة .
كتب الباحثون: “يمكن عزو هذا الفرق الكبير لسببين رئيسيين.” “(١) يقوم الـL١ بتكييف الـCoTs الخاصة به بذكاء لتناسب القيود المحددة للطول دون تعطيل عملية التفكر, بينما غالبا ما يقوم S١ بقص منتصف عملية التفكر؛ و(٢) يتم تدريب الـL١ صراحة لإنتاج سلاسل تفكير عالية الجودة بأطوال متنوعة, مما يتيح له استخراج الأنماط الفكرية مِن السلاسل الأطول للأقصر.”
كما يتفوق الــL۱ أيضاً علي نظيره غير المفكر بنسبة ٥% وعلي GPT-4o بنسبة ٢% عند نفس طول الإنتاج . كتب الباحثون :”حسب علمنا , هذه هي المرة الأولى التي يتم فيها إثبات قدرة نموذج بحجم ۱٫۵ مليار بارامتر للتفوق علي نمادح رائدة مثل GPT-4o , رغم استخدام نفس طول الإنتاج”.
من المثير للاهتمام ان يظهر طراز الــCOT الخاص به انه يتعلم ضبط عملية تفكيره بناءً علي ميزانيته الرمزية . فعلى سبيل المثال , عند الميزانيات الأطول , يكون أكثر احتمالاً لإنتاج الرموز المرتبطة بالتصحيح الذاتي والتحقق (“لكن” و“انتظر”) واستنتاج النتائج (“لذا” و“لذلك”).
!LCOP وأيضاً الأثقال الخاصة بنموذجات الــL۱.