العلوم

إليك لماذا قد يكون الاعتماد على الذكاء الاصطناعي لتدريب الذكاءات الاصطناعية المستقبلية فكرة سيئة!

تشات جي بي تي، ​جمني، كوبايلوت ⁤وغيرها⁢ من أدوات الذكاء الاصطناعي تنتج‌ جملًا ​وفقرات مثيرة للإعجاب انطلاقًا من سطر نصي بسيط. لتوليد ​هذه الكلمات، تم⁢ تدريب ‍النماذج اللغوية الكبيرة على كميات هائلة من النصوص ⁢التي كتبها ​البشر وتم ​جمعها ‍من الإنترنت. ولكن ⁢الآن، مع تدفق أدوات الذكاء الاصطناعي⁢ التوليدية إلى الإنترنت بكميات ⁢كبيرة من المحتوى الصناعي، ​يتم استخدام هذا ⁤المحتوى لتدريب الأجيال المستقبلية من تلك الأنظمة. إذا ⁢استمر هذا دون رقابة،⁣ فقد يكون لذلك ⁤عواقب وخيمة، كما يقول الباحثون.

أشار ‍عالم الحاسوب في جامعة أكسفورد إيليا شوميلوف⁣ وزملاؤه مؤخرًا في مجلة Nature إلى ⁣أن تدريب النماذج​ اللغوية الكبيرة⁢ على بياناتها⁣ الخاصة قد يؤدي إلى⁣ انهيار النموذج.

يبدو أن انهيار ‌النموذج أمر⁣ مقلق، لكنه‌ لا يعني أن الذكاءات الاصطناعية التوليدية ستتوقف⁣ عن العمل تمامًا.⁤ بدلاً من ذلك، ستبتعد استجابة الأدوات⁤ أكثر فأكثر عن بيانات التدريب​ الأصلية لها. وعلى الرغم من أنها قد تكون متحيزة أحيانًا، فإن تلك ‍البيانات‍ الأصلية​ تمثل واقعاً ​معقولاً. ولكن مع تدريب الأدوات⁤ على بياناتها المولدة بنفسها، ‌تتراكم الأخطاء الصغيرة التي ترتكبها وتفقد محتواها في‍ النهاية⁢ دقة وجهات النظر المتنوعة وتتحول إلى ‌هراء.

هذا ما ‌وجده​ شوميلوف وزملاؤه. أخذ الفريق نموذج لغة مدرب مسبقًا يسمى OPT-125m ‌وقدم له مجموعة من مقالات ويكيبيديا لتحسين استجاباته. ثم أعطى الفريق هذه الأداة⁤ نصًّا وطلب منها توقع ما سيأتي بعد ذلك. تم إدخال استجابتها مرة⁤ أخرى للنموذج ‌لمزيد من التحسين. ⁢عندما تم تدريب كل جيل‍ لاحق ببيانات مولدة ⁣بواسطة‌ الجيل السابق​ ، وجدوا أنه بحلول الجيل التاسع ، ⁤كان النموذج يخرج هراءً غير منطقي؛ حيث بدأ​ الأمر كنص‍ حول عمارة القرن الرابع عشر وانتهى بقائمة لأنواع الأرنب البري الأمريكي (جاكرابيت). وفي مجموعة أخرى من التجارب ، عندما احتفظ الفريق ببعض ⁣البيانات⁢ الأصلية ، ​كانت تدهور النموذج طفيفاً.

تظهر هذه الدراسة أن تدريب الذكاء الاصطناعي على ردوده الخاصة سيكون له⁢ عواقب خطيرة ⁢بما في ذلك‍ تفاقم التحيز وتحويل ​النصوص إلى‍ هراء إذا تُركت دون رقابة.⁢ تمتلك الشركات الكبرى⁣ للذكاء الاصطناعي طرقاً لمنع‍ هذا النوع من الانهيار ، لكن مع بدء المزيد والمزيد من​ الأشخاص باستخدام‌ نماذج اللغة ​لتدريب روبوتاتهم الدردشة‌ والذكاءات الأخرى ، قد تكون ‌هناك عواقب.

كيف يمكن⁢ أن تنهار ‌نماذج ‍الذكاء ⁤الاصطناعي التوليدية؟

كانت‌ نماذج اللغة‌ والذكاء الاصطناعي التوليدي موجودة منذ عقود ، معظم الوقت في مختبرات علوم الكمبيوتر. لكن⁤ هيمنة روبوتات​ الدردشة هي⁤ أكثر حداثة حيث بدأت في نوفمبر 2022 عند ⁢إصدار تشات‌ جي بي تي للاستخدام ‌العام⁣ . كانت مزيج الأجهزة الأفضل⁢ القادرة على معالجة المعلومات ⁢بشكل متوازي بالإضافة⁣ إلى ظهور المحولات ​(transformer) -‌ نوع معين من الشبكات العصبية ⁤- وتوفر تريليونات‍ النقاط البيانية عالية الجودة⁢ التي صنعها البشر مفتاحا لهذه الهيمنة.

“ما يشير إليه⁣ انهيار النموذج ‍هو أنه ربما ستكون جودة البيانات [التي تدخل وتخرج] آخذة في الانخفاض”، يقول ‍شوميلوف.

ما بدأ كنص‌ حول عمارة القرن​ الرابع عشر انتهى بقائمة لأنواع الأرنب البري الأمريكي (جاكرابيت).

لفهم السبب وراء ذلك, تخيل أنك تشرح لبرنامج كمبيوتر‍ ما ‍هو القط, كما ⁢يقول شوميلوف: “نحن لا نعرف حقا⁣ كيف [نفعل ذلك] … لذا ‌نقدم [لنموذج اللغة الكبير] عددًا كبيرا ًمن الأمثلة ‍ [الوصف النصي] لما هو ‍القط ثم نطلب منه تعلم تعريف هذا الكائن.” يقوم نموذج اللغة الكبير بذلك بدون إشراف أو تعليم صريح, عن طريق الاستنتاج مما قدم له.

لكن مثل هذا الاستنتاج ⁣يأتي بأخطاء دقيقة . يشبه‌ شوميلو ف الأمر بلعبة الهاتف, حيث⁣ يتم همس عبارة⁣ واحدة لشخص آخر حتى ⁣تصل للشخص الأخير الذي ينطق بها بصوت عالٍ . غالبا ما تنتهي العبارة الأصلية مشوهة بسبب الأخطاء المقدمة خلال الطريق . وهذا يجعل نماذج اللغة الكبيرة‍ تتوهم , مما ينتج ⁢محتوى مقنع ولكنه​ ليس صحيحا تماما (SN:‌ 2/1/24).

If such ‌erroneous​ content is used to ⁤train a ‌later ‌version‌ of the model or another model entirely, ⁣that content‍ is going to start influencing those models’ learning⁣ processes, and⁣ eventually “break” them in some way.

كيف سيبدو انهيار نماذج⁣ الذكاء الإصطناعى فى الحياة الواقعية؟

يشير انهيار النموذج أساساً ⁣الى تحول بعيد عن النص الأصلي المستخدم ⁣لتدريب النماذج , ⁤كما تقول ليكي ليو , باحثة ذكاء اصطناعى​ بجامعة⁣ تكساس فى⁤ أوستن .⁣ أحد الأسباب لذلك هو اختفاء ذيول توزيع البيانات — نص يمثل أحداث ذات ⁣احتمالية منخفضة .على سبيل ⁤المثال , باستخدام مثال القطط , قد يصبح ⁣النموذج جيد ⁣جداً فى وصف⁢ القطط الفرو ولكن يفشل فى الاحتفاظ بمعلومات حول القطط الخالية الشعر .

مثال آخر ⁣,⁤ تقول ليو ⁢إن الأشخاص الذين ينتمون لمجموعات ‌أقلية قد يعبرون عن ​الأشياء بشكل مختلف وأن نوع النص هذا سيظهر أقل ⁢وأقل مما يؤدي الى مزيدٍ إبعاد البيانات المتعلقة بالأشخاص المهمشين .هذا⁢ هو التغيير الذي نتوقع رؤيته​ كمستخدمين نهائيين . التأثير ⁤اللاحق ⁤سيكون محتوى⁣ مولّد بواسطة AI‌ ليس فقط < a href = " https://dl.acm.org/doi/10.1145/3630106.3659029 " target = "_ blank " rel = " noopener "> مضاعفة للتحيز كما تظهر ‍الدراسات ولكن⁣ أيضاً يبدأ بالظهور بنفس الشكل⁢ تقريباً .” بطبيعة الحال نحن نريد ⁢تعبيرات متنوعة ⁢عن أنفسنا ولكن إذا كُنّا نستخدم نفس مساعد الكتابة فقد يقلل ذلك‍ التنوع “.

⁣لمنع زيادة تحيز AIs ⁣أو انكسارهم وإطلاق الهراءات فمن المهم متابعة جميع البيانات ‍والتأكد بأن المعرفة‌ السابقة (بما فيها النصوص المُنتَجة بشريّاً) وكذلك​ المعرفة ⁢الجديدة (النص المُنتَجة بواسطة AI)⁢ تُستخدم للتدريب كما تقول ليو.” الفكرة الأساسية ستكون عدم تدريب⁢ نماذج جديدة فقط‌ باستخدام⁤ بيانات مُنتَجة بواسطة ​AI ⁢”. “يمكن⁣ أن يكون هناك نهجا ‍آخر وهو أننا نتأكد صراحةً التقاط⁣ ذيول توزيع البيانات”. تلك القطوط الخالية ​الشعر مثلاً.

بالنظر الى ​ان الشركات التى تسوق أدوات AI​ تتحقق بشدة بحثا عن انحراف البيانات فإن أي مشاكل ⁣سيتم ‍ملاحظتها مبكرًا ⁢ويمكن إصلاحها⁤ وبالتالي فإن احتمال حدوث انهيارات للنموذجات لن يؤثر بشكل كبير ⁢على المستخدمين⁢ النهائيين حسب قول شوميلو ف لكن الأفراد الذين يحاولون بناء ‌نماذجه بمقياس أصغر ⁣سيتأثرون بالتأكيد‍ ويحتاجون ليكونوا واعيين للمخاطر.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى