التكنولوجيا

مفاجأة ميدجورني: أبحاث جديدة لتحفيز الإبداع في كتابة نماذج اللغة الكبيرة!

ميدجورني: البحث الجديد⁣ حول كيفية جعل⁤ نماذج اللغة الكبيرة تكتب بشكل ‌أكثر إبداعًا

انضم إلى نشراتنا اليومية​ والأسبوعية للحصول على آخر التحديثات والمحتوى الحصري ⁣حول ⁢تغطية الذكاء الاصطناعي الرائدة في الصناعة. تعرف على المزيد


تُعرف شركة blank” rel=”noreferrer noopener”>ميدجورني بأنها واحدة من أبرز مولدات الصور بالذكاء⁤ الاصطناعي، حيث تضم حوالي 20 مليون مستخدم على قناتها في ديسكورد،⁢ وفقًا لمتابعين خارجيين، ⁢ومن المحتمل أن يكون هناك المزيد من ⁣المستخدمين على موقعها الإلكتروني. لكن طموحات الشركة بدأت تتوسع.

بعد الأخبار التي ظهرت في أواخر صيف 2024 ​عن بناء ميدجورني لأجهزتها الخاصة بالذكاء الاصطناعي والحوسبة،⁣ أصدرت الشركة هذا الأسبوع ⁤ورقة‍ بحثية جديدة بالتعاون مع خبراء التعلم الآلي​ في جامعة نيويورك (NYU) حول تدريب ⁤نماذج اللغة الكبيرة المعتمدة على النصوص مثل نموذج لاما ‌المفتوح المصدر من ميتا ونموذج ميسترال لتكون أكثر إبداعًا.

تقدم هذه التعاون الذي تم ‌توثيقه في blank”‌ rel=”noreferrer noopener”>ورقة بحثية جديدة نُشرت على مجتمع⁤ كود الذكاء الاصطناعي “هوجينغ فايس”، تقنيتين‌ جديدتين – تحسين تفضيل مباشر متنوع⁢ (DDPO) وتحسين​ نسبة الاحتمالات المتنوعة (DORPO) – مصممتين لتوسيع نطاق المخرجات الممكنة مع الحفاظ على التماسك والقراءة.

بالنسبة لشركة تُعرف بنماذجها لتوليد الصور‍ باستخدام الذكاء الاصطناعي، فإن نهج ميدجورني الجديد‍ لإعادة التفكير​ في الإبداع ضمن نماذج اللغة الكبيرة⁢ المعتمدة على النصوص ​يظهر أنها لا​ تحد طموحاتها بالصور فقط، وأن الصورة⁣ قد لا تكون فعلاً تعادل ألف كلمة.

هل⁣ يمكن أن⁤ يكون هناك ‍نموذج لغة​ كبير خاص بميدجورني أو نسخة معدلة⁤ من نموذج موجود؟ تواصلت ⁢مع ⁢مؤسس ميدجورني ديفيد هولز ولكن⁤ لم أتلقَ ردًا بعد.

بغض النظر عن وجود عرض لنموذج ⁤لغة كبير خاص بميدجورني، فإن تداعيات⁤ بحثها الجديد تتجاوز التمارين الأكاديمية ويمكن استخدامها للمساعدة في تعزيز موجة‌ جديدة من تدريب ‍نماذج اللغة الكبيرة⁣ بين فرق الذكاء الاصطناعي المؤسسية ومطوري المنتجات وصناع المحتوى الذين يسعون لتحسين النصوص التي يتم إنشاؤها بواسطة الذكاء الاصطناعي.

كما يُظهر ذلك أنه رغم ​الاهتمام ‌والاستثمار الأخير​ بين مزودي نماذج الذكاء الاصطناعي في النماذح⁣ متعددة الوسائط ونماذح التفكير الجديدة، لا‌ يزال هناك‌ الكثير مما يمكن استخراجه معرفيًا وأداءً من النماذح التقليدية المعتمدة على⁣ التحويل والتركيز النصي.

المشكلة: ​الكتابة الناتجة⁤ عن الذكاء الاصطناعي ⁤تنهار حول المخرجات المتجانسة

في مجالات مثل الأسئلة والأجابة المبنية على الحقائق أو مساعدة البرمجة، يُتوقع أن تولد نماذج اللغة الكبيرة استجابة واحدة ⁣هي الأفضل. ومع ‍ذلك ، فإن الكتابة ⁣الإبداعية ​بطبيعتها مفتوحة النهاية ⁣، مما يعني أنه يوجد العديد من الاستجابة الصحيحة لطلب واحد معين.

على سبيل المثال الذي قدمه باحثو ميدجروني ، إذا كان الطلب هو “اكتب قصة عن كلب على القمر” ، ‌يمكن للنموذج استكشاف مسارات متنوعة‍ متعددة مثل:

  • كلب رائد فضائي تُرك خلفه بعد مهمة قمرية.
  • كلب يجد نفسه في مستعمرة فضائية مستقبلية للكلاب.
  • كلب عالق يصبح صديقاً لنوع غريب.

رغم هذا النطاق الواسع من ‍الإمكانيات ، غالباً ما تتقارب النمذجة المدربة بتعليمات نحو خطوط قصص وموضوعات مشابهة. يحدث هذا لأن:

  1. تقنيات ما بعد التدريب تعطي الأولوية لتفضيلات المستخدم بدلاً من الأصالة ، مما‍ يعزز ⁢الاستجابة الشائعة ولكن المتكررة.
  2. غالباً ما تعمل تعليمات الضبط بسلاسة خارج الاختلاف ، مما يجعل النمذجة تفضل ‌الاستجابة “الآمنة” بدلاً من الفريدة.
  3. التقنيات الحالية لتعزيز ‌التنوع (مثل ضبط درجة الحرارة) تعمل‍ فقط أثناء وقت الاستنتاج​ وليس مدرجة ضمن عملية تعلم ‍النموذج نفسها.

هذا يؤدي إلى سرد متجانس​ حيث ‌تبدو الكتابة الإبداعية الناتجة عن الذكاء الصناعي متكررة ​وتفتقر إلى المفاجأة أو‌ العمق.

الحل:‌ تعديل طرق ما ⁣بعد التدريب لإعطاء الأولوية للتنوع

للتغلب على ⁣هذه⁤ القيود, قدم الباحثون DDPO و DORPO, وهما امتدادان لطرق تحسين التفضيل الموجودة بالفعل . الابتكار الأساسي لهذه الطرق‌ هو استخدام الانحراف — وهو قياس مدى اختلاف استجابة معينة عن الأخرى — لتوجيه التدريب .

إليك كيف‍ يعمل:

  1. خلال التدريب, ⁣يتم إعطاء النموذج طلب ‌كتابة‍ وعدد ممكن للاستجابـات .
  2. تتم مقارنة كل استجابة ⁣بالأخرى لنفس الطلب ويتم حساب درجة الانحراف .
  3. يتم وزن الاستجابـات النادرة ولكن عالية الجودة بشكل أكبر خلال التدريب , مما يشجع النموذج⁣ للتعلم من أمثلة متنوعة .

من ⁣خلال دمجم الانحراف ضمن تحسين التفضيل المباشر‌ (DPO) وتحسين نسبة الاحتمالات (ORPO), يتعلم النموذج إنتاج استجابـات عالية الجودة ولكن أكثر تنوعًا .

تضمن هذه الطريقة ألا تتقارب القصص الناتجة بواسطة الذكاء الصناعي نحو ‌هيكل قابل للتنبؤ ⁢به وحسب بل تستكشف مجموعة واسعة أكبر من الشخصيات والإعداد والموضوعات — تمامًا كما يفعل الكاتب البشري.

ماذا فعل باحثو ميدجروني لتحقيق ذلك

شملت الدراسة تدريب نماذ ج اللغات الكبرى عبر مهام الكتابة الإبداعية باستخدام مجموعة بيانات مأخوذة from subreddit r/writingPrompts, ⁤وهي⁤ مجتمع Reddit حيث ينشر المستخدمون مطالباتهم ويستجيبون بقصص قصيرة​ .

استخدم الباحثون نموذجي قاعدة لدراستهم :

  • لما 3 ⁢.1 ⁣-8B (نموذج يحتوي علي 8 مليار‌ بارامتر )
  • ميسترال -7B-v0 .3 (نموذج يحتوي علي⁤ 7 ‌مليار ‍بارامتر ⁢ )

ثم قاموا بإجراء العمليات التالية :

1 . التعديل الدقيق تحت ‌إشراف(SFT): تم تعديل النمذ ج أولاً باستخدام LoRA(التكيف ​منخفض الرتبة ) لضبط​ البارامترات بكفاءة .

2⁢ . تحسين التفضيل:
– تم استخدام DPO و ORPO كنقاط مرجع—هذه الطرق القياسية تركز علي تحسين جودة الاستجابة بناءً ⁢علي إشارات‍ تفضيل المستخدم .
– ثم تم تطبيق DDPO و DORPO​ , مقدمة وزن قائم علي الانحراف لتعزيز المزيدمن‌ الردود الفريدة .

3 . التقييم:
– تقييم تلقائي : قياس التنوع⁣ الدلالي والأسلوبي باستخدام تقنيات قائمة علي تضمينات البيانات .
⁣ – تقييم بشري : قام ⁢الحكام بتقييم ما إذا كانت النتائج متنوعة وجذابة مقارنة ⁣بـ GPT-4o و Claude 3⁤ .5 .

النتائج الرئيسية⁢ للتدريب:

  • تفوق DDPO بشكل ملحوظعلى DOP ⁣القياسي فيما يتعلق‌ بتنوع المخرجات بينما حافظ ⁣أيضًا علی الجودة.
  • حققت لما 3 .1 ⁣–8B ⁤مع DDOP أفضل توازن بين الجودة والتنوع , منتجا ردود ‍كانت أكثر تنوعا مقارنة بـ⁢ GPT –4o⁣ بينما حافظ علی الترابط .
  • عندما تم تقليل حجم مجموعة البيانات ,‌ حافظت موديلات ⁣DDOP علی التنوع رغم‍ أنها تحتاج ‍إلي عدد‌ معينمن عينات التدرب المتنوعة ⁣لكي تكون فعالة بالكامل .

تداعيات المؤسسات: ⁤ماذا يعني ذلك لأولئک الذين يستخدمون AI لإنتاج ردود إبداعیّة؟

بالنسبة⁢ لفرق AI التي⁤ تدير نشر LLMs, يعد تعزيز تنوع المخرجات أثناء الحفاظ علی الجودة تحديًا⁣ حاسمًا . تحمل هذه النتائج تداعيات كبيرة للمنظمات التي تعتمد علی المحتوي​ المنتج بواسطة ‌AI⁢ فِي​ التطبيقات مثل :

AI المحادثاتي⁢ والدردشة

أدوات⁤ تسويق المحتوي​ وسرد القصص

تطوير الألعاب وتصميم السرد

بالنسبة للمختصين المسؤولین عن ضبط وتطبيق الأنماطالتي تستخدم فِي ⁣بيئة​ مؤسسية, يوفر هذا البحث :

نهجا جديدا لـ LLMs بعد التدريب يعزز الإبداع دون التضحية بالجودة.

بدائل عملية لضبط تنوع وقت الاستنتاج(مثل‍ تعديلات‌ درجة الحرارة ) بدمجم التنوع⁣ داخل عملية التعلم نفسها.

إمكان ⁣تطوير تطبيقاتی ذكائی أكثر⁣ جذباً ⁤بدءً بأدوات كتابة مدعومة بالذكائ الصناعی وصولاً إلى⁢ مساعدین افتراضيین​ قادرین علَى تعديل ردودهُم ديناميكيًّا.

بالنسبة لأولئک الذين يتعاملون مع​ تنظيم وتشغيل موديلات AI يسلّطهذا​ البحث ⁢الضوء عَلَى :

أهمية ضبط الأنماطالتي تستخدم فِي مرحلة التدريبات وتقليل الحاجة إلي تعديلات معالجة لاحقة عند التطبيق.

طريقة‌ لإضافة سرد مرونة داخل التطبيقات ⁤المدفوعة بالذكائ الصناعی وضمان ⁣وجود ​تغييرات بينما تبقي⁤ جودة المحتوی‌ مرتفعة.

طريقة‍ لجعل⁤ نتائج LLM تبدو⁢ أقرب للبشر وهو أمر حاسم بالنسبة ‍للتطبيقاتی التي تحتاج إلي سردٍ تفاعلي أو مشاركة العملاء أو إنشاء‌ محتوی ديناميكي.

مستقبل ⁤المشاريع الإبداعیّة المنتَجه بواسطة AI ‍يبدو مشرقا

يثبت نجاح‌ DDOP وDORO أن تدريب LLMs‌ بأهداف مركزة علَى التنوع يمكن أن يؤدي إلَي تحسن⁤ ملحوظ فِي الكتابة الإبداعیّة بعض الأفكار تشمل:
⁢ ⁤

دمجم التعلم القائم عَلَى الانحراف داخل موديلاتAI المؤسسية لتعزيز تنويع الردود فِي التطبيقات المواجهه للعملاءِ.

استقصاءِ كيفية ⁢تطبيق هذه الطرق عَلَى مهام توليديّة أخری مثل الشعر المدعوم بالذكائ الصناعی وسرد السيناريوهات.

تطوير⁢ أساليب تدريبیّة هجينة تحقق التوازن بين القدرات المتعلقة بالتعليم​ والتنوع لمساعديAI.

للمهتمين بتطبيق⁣ هذه التقنيات يخطّطط الباحثون لجعل شفراتهم متاحة ‍للجمهور عبر ⁢ هذا المستودع GitHub

سواء‌ كنت تقوم بضبط LLMs للاستخدام التجاري أو تحسين تشغيل ⁤AI واسع ‍النطاق ‍توفر لك هذه الدراسة‌ رؤى قابلة للتطبيق حول كيفية جعل الأنظمة أكثر ديناميكية وجذب وإستجابتها ⁤للمهام​ الإبداعیّة

من خلال اعتماد هذه⁣ التقنيات يمكن لفِرق الـAI تجاوز المخرجات ⁣الصارمة والصيغ الثابتة لبناء نظم ذكائی ليست‍ ذكية⁤ فقط بل خياليتها حقّا ⁤أيضاً

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى