مفاجأة ميدجورني: أبحاث جديدة لتحفيز الإبداع في كتابة نماذج اللغة الكبيرة!

ميدجورني: البحث الجديد حول كيفية جعل نماذج اللغة الكبيرة تكتب بشكل أكثر إبداعًا
انضم إلى نشراتنا اليومية والأسبوعية للحصول على آخر التحديثات والمحتوى الحصري حول تغطية الذكاء الاصطناعي الرائدة في الصناعة. تعرف على المزيد
تُعرف شركة blank” rel=”noreferrer noopener”>ميدجورني بأنها واحدة من أبرز مولدات الصور بالذكاء الاصطناعي، حيث تضم حوالي 20 مليون مستخدم على قناتها في ديسكورد، وفقًا لمتابعين خارجيين، ومن المحتمل أن يكون هناك المزيد من المستخدمين على موقعها الإلكتروني. لكن طموحات الشركة بدأت تتوسع.
بعد الأخبار التي ظهرت في أواخر صيف 2024 عن بناء ميدجورني لأجهزتها الخاصة بالذكاء الاصطناعي والحوسبة، أصدرت الشركة هذا الأسبوع ورقة بحثية جديدة بالتعاون مع خبراء التعلم الآلي في جامعة نيويورك (NYU) حول تدريب نماذج اللغة الكبيرة المعتمدة على النصوص مثل نموذج لاما المفتوح المصدر من ميتا ونموذج ميسترال لتكون أكثر إبداعًا.
تقدم هذه التعاون الذي تم توثيقه في blank” rel=”noreferrer noopener”>ورقة بحثية جديدة نُشرت على مجتمع كود الذكاء الاصطناعي “هوجينغ فايس”، تقنيتين جديدتين – تحسين تفضيل مباشر متنوع (DDPO) وتحسين نسبة الاحتمالات المتنوعة (DORPO) – مصممتين لتوسيع نطاق المخرجات الممكنة مع الحفاظ على التماسك والقراءة.
بالنسبة لشركة تُعرف بنماذجها لتوليد الصور باستخدام الذكاء الاصطناعي، فإن نهج ميدجورني الجديد لإعادة التفكير في الإبداع ضمن نماذج اللغة الكبيرة المعتمدة على النصوص يظهر أنها لا تحد طموحاتها بالصور فقط، وأن الصورة قد لا تكون فعلاً تعادل ألف كلمة.
هل يمكن أن يكون هناك نموذج لغة كبير خاص بميدجورني أو نسخة معدلة من نموذج موجود؟ تواصلت مع مؤسس ميدجورني ديفيد هولز ولكن لم أتلقَ ردًا بعد.
بغض النظر عن وجود عرض لنموذج لغة كبير خاص بميدجورني، فإن تداعيات بحثها الجديد تتجاوز التمارين الأكاديمية ويمكن استخدامها للمساعدة في تعزيز موجة جديدة من تدريب نماذج اللغة الكبيرة بين فرق الذكاء الاصطناعي المؤسسية ومطوري المنتجات وصناع المحتوى الذين يسعون لتحسين النصوص التي يتم إنشاؤها بواسطة الذكاء الاصطناعي.
كما يُظهر ذلك أنه رغم الاهتمام والاستثمار الأخير بين مزودي نماذج الذكاء الاصطناعي في النماذح متعددة الوسائط ونماذح التفكير الجديدة، لا يزال هناك الكثير مما يمكن استخراجه معرفيًا وأداءً من النماذح التقليدية المعتمدة على التحويل والتركيز النصي.
المشكلة: الكتابة الناتجة عن الذكاء الاصطناعي تنهار حول المخرجات المتجانسة
في مجالات مثل الأسئلة والأجابة المبنية على الحقائق أو مساعدة البرمجة، يُتوقع أن تولد نماذج اللغة الكبيرة استجابة واحدة هي الأفضل. ومع ذلك ، فإن الكتابة الإبداعية بطبيعتها مفتوحة النهاية ، مما يعني أنه يوجد العديد من الاستجابة الصحيحة لطلب واحد معين.
على سبيل المثال الذي قدمه باحثو ميدجروني ، إذا كان الطلب هو “اكتب قصة عن كلب على القمر” ، يمكن للنموذج استكشاف مسارات متنوعة متعددة مثل:
- كلب رائد فضائي تُرك خلفه بعد مهمة قمرية.
- كلب يجد نفسه في مستعمرة فضائية مستقبلية للكلاب.
- كلب عالق يصبح صديقاً لنوع غريب.
رغم هذا النطاق الواسع من الإمكانيات ، غالباً ما تتقارب النمذجة المدربة بتعليمات نحو خطوط قصص وموضوعات مشابهة. يحدث هذا لأن:
- تقنيات ما بعد التدريب تعطي الأولوية لتفضيلات المستخدم بدلاً من الأصالة ، مما يعزز الاستجابة الشائعة ولكن المتكررة.
- غالباً ما تعمل تعليمات الضبط بسلاسة خارج الاختلاف ، مما يجعل النمذجة تفضل الاستجابة “الآمنة” بدلاً من الفريدة.
- التقنيات الحالية لتعزيز التنوع (مثل ضبط درجة الحرارة) تعمل فقط أثناء وقت الاستنتاج وليس مدرجة ضمن عملية تعلم النموذج نفسها.
هذا يؤدي إلى سرد متجانس حيث تبدو الكتابة الإبداعية الناتجة عن الذكاء الصناعي متكررة وتفتقر إلى المفاجأة أو العمق.
الحل: تعديل طرق ما بعد التدريب لإعطاء الأولوية للتنوع
للتغلب على هذه القيود, قدم الباحثون DDPO و DORPO, وهما امتدادان لطرق تحسين التفضيل الموجودة بالفعل . الابتكار الأساسي لهذه الطرق هو استخدام الانحراف — وهو قياس مدى اختلاف استجابة معينة عن الأخرى — لتوجيه التدريب .
إليك كيف يعمل:
- خلال التدريب, يتم إعطاء النموذج طلب كتابة وعدد ممكن للاستجابـات .
- تتم مقارنة كل استجابة بالأخرى لنفس الطلب ويتم حساب درجة الانحراف .
- يتم وزن الاستجابـات النادرة ولكن عالية الجودة بشكل أكبر خلال التدريب , مما يشجع النموذج للتعلم من أمثلة متنوعة .
من خلال دمجم الانحراف ضمن تحسين التفضيل المباشر (DPO) وتحسين نسبة الاحتمالات (ORPO), يتعلم النموذج إنتاج استجابـات عالية الجودة ولكن أكثر تنوعًا .
تضمن هذه الطريقة ألا تتقارب القصص الناتجة بواسطة الذكاء الصناعي نحو هيكل قابل للتنبؤ به وحسب بل تستكشف مجموعة واسعة أكبر من الشخصيات والإعداد والموضوعات — تمامًا كما يفعل الكاتب البشري.
ماذا فعل باحثو ميدجروني لتحقيق ذلك
شملت الدراسة تدريب نماذ ج اللغات الكبرى عبر مهام الكتابة الإبداعية باستخدام مجموعة بيانات مأخوذة from subreddit r/writingPrompts, وهي مجتمع Reddit حيث ينشر المستخدمون مطالباتهم ويستجيبون بقصص قصيرة .
استخدم الباحثون نموذجي قاعدة لدراستهم :
- لما 3 .1 -8B (نموذج يحتوي علي 8 مليار بارامتر )
- ميسترال -7B-v0 .3 (نموذج يحتوي علي 7 مليار بارامتر )
ثم قاموا بإجراء العمليات التالية :
1 . التعديل الدقيق تحت إشراف(SFT): تم تعديل النمذ ج أولاً باستخدام LoRA(التكيف منخفض الرتبة ) لضبط البارامترات بكفاءة .
2 . تحسين التفضيل:
– تم استخدام DPO و ORPO كنقاط مرجع—هذه الطرق القياسية تركز علي تحسين جودة الاستجابة بناءً علي إشارات تفضيل المستخدم .
– ثم تم تطبيق DDPO و DORPO , مقدمة وزن قائم علي الانحراف لتعزيز المزيدمن الردود الفريدة .
3 . التقييم:
– تقييم تلقائي : قياس التنوع الدلالي والأسلوبي باستخدام تقنيات قائمة علي تضمينات البيانات .
– تقييم بشري : قام الحكام بتقييم ما إذا كانت النتائج متنوعة وجذابة مقارنة بـ GPT-4o و Claude 3 .5 .
النتائج الرئيسية للتدريب:
- تفوق DDPO بشكل ملحوظعلى DOP القياسي فيما يتعلق بتنوع المخرجات بينما حافظ أيضًا علی الجودة.
- حققت لما 3 .1 –8B مع DDOP أفضل توازن بين الجودة والتنوع , منتجا ردود كانت أكثر تنوعا مقارنة بـ GPT –4o بينما حافظ علی الترابط .
- عندما تم تقليل حجم مجموعة البيانات , حافظت موديلات DDOP علی التنوع رغم أنها تحتاج إلي عدد معينمن عينات التدرب المتنوعة لكي تكون فعالة بالكامل .
تداعيات المؤسسات: ماذا يعني ذلك لأولئک الذين يستخدمون AI لإنتاج ردود إبداعیّة؟
بالنسبة لفرق AI التي تدير نشر LLMs, يعد تعزيز تنوع المخرجات أثناء الحفاظ علی الجودة تحديًا حاسمًا . تحمل هذه النتائج تداعيات كبيرة للمنظمات التي تعتمد علی المحتوي المنتج بواسطة AI فِي التطبيقات مثل :
AI المحادثاتي والدردشة
أدوات تسويق المحتوي وسرد القصص
تطوير الألعاب وتصميم السرد
بالنسبة للمختصين المسؤولین عن ضبط وتطبيق الأنماطالتي تستخدم فِي بيئة مؤسسية, يوفر هذا البحث :
نهجا جديدا لـ LLMs بعد التدريب يعزز الإبداع دون التضحية بالجودة.
بدائل عملية لضبط تنوع وقت الاستنتاج(مثل تعديلات درجة الحرارة ) بدمجم التنوع داخل عملية التعلم نفسها.
إمكان تطوير تطبيقاتی ذكائی أكثر جذباً بدءً بأدوات كتابة مدعومة بالذكائ الصناعی وصولاً إلى مساعدین افتراضيین قادرین علَى تعديل ردودهُم ديناميكيًّا.
بالنسبة لأولئک الذين يتعاملون مع تنظيم وتشغيل موديلات AI يسلّطهذا البحث الضوء عَلَى :
أهمية ضبط الأنماطالتي تستخدم فِي مرحلة التدريبات وتقليل الحاجة إلي تعديلات معالجة لاحقة عند التطبيق.
طريقة لإضافة سرد مرونة داخل التطبيقات المدفوعة بالذكائ الصناعی وضمان وجود تغييرات بينما تبقي جودة المحتوی مرتفعة.
طريقة لجعل نتائج LLM تبدو أقرب للبشر وهو أمر حاسم بالنسبة للتطبيقاتی التي تحتاج إلي سردٍ تفاعلي أو مشاركة العملاء أو إنشاء محتوی ديناميكي.
مستقبل المشاريع الإبداعیّة المنتَجه بواسطة AI يبدو مشرقا
يثبت نجاح DDOP وDORO أن تدريب LLMs بأهداف مركزة علَى التنوع يمكن أن يؤدي إلَي تحسن ملحوظ فِي الكتابة الإبداعیّة بعض الأفكار تشمل:
دمجم التعلم القائم عَلَى الانحراف داخل موديلاتAI المؤسسية لتعزيز تنويع الردود فِي التطبيقات المواجهه للعملاءِ.
استقصاءِ كيفية تطبيق هذه الطرق عَلَى مهام توليديّة أخری مثل الشعر المدعوم بالذكائ الصناعی وسرد السيناريوهات.
تطوير أساليب تدريبیّة هجينة تحقق التوازن بين القدرات المتعلقة بالتعليم والتنوع لمساعديAI.
للمهتمين بتطبيق هذه التقنيات يخطّطط الباحثون لجعل شفراتهم متاحة للجمهور عبر هذا المستودع GitHub
سواء كنت تقوم بضبط LLMs للاستخدام التجاري أو تحسين تشغيل AI واسع النطاق توفر لك هذه الدراسة رؤى قابلة للتطبيق حول كيفية جعل الأنظمة أكثر ديناميكية وجذب وإستجابتها للمهام الإبداعیّة
من خلال اعتماد هذه التقنيات يمكن لفِرق الـAI تجاوز المخرجات الصارمة والصيغ الثابتة لبناء نظم ذكائی ليست ذكية فقط بل خياليتها حقّا أيضاً