البيانات الاصطناعية لها حدودها: كيف يمكن للبيانات المستمدة من البشر أن تمنع انهيار نماذج الذكاء الاصطناعي؟
كيف تتدهور الذكاء الاصطناعي بسبب الاعتماد المفرط على البيانات الاصطناعية
انضم إلى نشراتنا اليومية والأسبوعية للحصول على آخر التحديثات والمحتوى الحصري حول تغطية الذكاء الاصطناعي الرائدة في الصناعة.
يا له من تحول سريع في عالم التكنولوجيا! قبل عامين فقط، كان يُشاد بالذكاء الاصطناعي باعتباره “التكنولوجيا التحويلية القادمة التي ستسيطر على الجميع”. والآن، بدلاً من الوصول إلى مستويات Skynet والسيطرة على العالم، يتدهور الذكاء الاصطناعي بشكل ساخر.
بعد أن كان herald of a new era of intelligence, أصبح الذكاء الاصطناعي الآن يتعثر بسبب برمجته الخاصة، ويجد صعوبة في الوفاء بالبراعة التي وعد بها. لكن لماذا يحدث هذا بالضبط؟ الحقيقة البسيطة هي أننا نجوع الذكاء الاصطناعي عن الشيء الوحيد الذي يجعله ذكيًا حقًا: البيانات التي ينتجها البشر.
لتغذية هذه النماذج الجائعة للبيانات، اتجه الباحثون والمنظمات بشكل متزايد نحو البيانات الاصطناعية. بينما كانت هذه الممارسة جزءًا أساسيًا من تطوير الذكاء الاصطناعي لفترة طويلة، فإن الاعتماد المفرط عليها قد يؤدي إلى تدهور تدريجي لنماذج الذكاء الاصطناعي. وهذه ليست مجرد مشكلة بسيطة تتعلق بإنتاج ChatGPT لنتائج دون المستوى — فالعواقب أكثر خطورة بكثير.
عندما يتم تدريب نماذج الذكاء الصناعي على مخرجات تم إنتاجها بواسطة تكرارات سابقة، فإنها تميل إلى نشر الأخطاء وإدخال الضوضاء، مما يؤدي إلى انخفاض جودة المخرجات. تتحول هذه العملية التكرارية لدورة “القمامة تدخل، القمامة تخرج” إلى مشكلة ذاتية الاستمرار تقلل بشكل كبير من فعالية النظام. ومع ابتعاد الذكاء الصناعي عن الفهم والدقة البشرية، فإنه لا يقوض الأداء فحسب بل يثير أيضًا مخاوف حاسمة بشأن الجدوى طويلة الأمد للاعتماد على البيانات الذاتية لتطوير مستمر للذكاء الصناعي.
لكن هذا ليس مجرد تدهور للتكنولوجيا؛ إنه تدهور للواقع والهوية وموثوقية البيانات — مما يشكل مخاطر جدية للبشر والمجتمع. يمكن أن تكون الآثار المتتالية عميقة وتؤدي إلى زيادة الأخطاء الحرجة. مع فقدان هذه النماذج للدقة والموثوقية ، قد تكون العواقب وخيمة – مثل التشخيص الطبي الخاطئ والخسائر المالية وحتى الحوادث التي تهدد الحياة.
تتمثل إحدى النتائج الرئيسية الأخرى في أن تطوير الذكاء الصناعي قد يتوقف تمامًا ، مما يجعل أنظمة AI غير قادرة على استيعاب بيانات جديدة وبالتالي تصبح “محاصرة في الزمن”. ستعرقل هذه الركود التقدم وتحبس AI في دورة من العوائد المتناقصة ، مع آثار كارثية محتملة على التكنولوجيا والمجتمع.
لكن عملياً ، ماذا يمكن للمؤسسات القيام به لضمان سلامة عملائها ومستخدميها؟ قبل الإجابة عن هذا السؤال ، نحتاج لفهم كيفية عمل كل ذلك.
عندما ينهار نموذج ما ، تختفي الموثوقية
كلما انتشر المحتوى الذي تم إنشاؤه بواسطة AI عبر الإنترنت بسرعة أكبر ، زادت سرعة تسربه إلى مجموعات البيانات ومن ثم النماذج نفسها. وهذا يحدث بمعدل متسارع يجعل الأمر أكثر صعوبة بالنسبة للمطورين لتصفية أي شيء ليس بيانات تدريب نقية ومُنتَجة بشرياً. الحقيقة هي أن استخدام المحتوى الإصطنائي أثناء التدريب يمكن أن يؤدي إلى ظاهرة ضارة تُعرف باسم “انهار النموذج” أو “اضطراب الالتهام الذاتى للنموذج”.
يعد انهيار النموذج عملية تنكس يفقد فيها نظام AI تدريجيًا فهمه للتوزيع الحقيقي للبيانات الأساسية التي يُفترض به نمذجةها . وغالباً ما يحدث ذلك عندما يتم تدريب AI بشكل متكرر باستخدام محتوى أنتجه هو نفسه مما يؤدي لعدد من المشكلات:
- فقدان الدقة: تبدأ النماذج بنسيان بيانات الشواذ أو المعلومات الأقل تمثيلاً والتي تعتبر ضرورية لفهم شامل لأي مجموعة بيانات.
- تقليل التنوع: هناك انخفاض ملحوظ في تنوع وجودة المخرجات الناتجة عن النماذج.
- تعزيز الانحيازات: قد تتفاقم الانحيازات الموجودة بالفعل ضد الفئات المهمشة حيث يغفل النموذج المعلومات الدقيقة التي يمكن أن تخفف تلك الانحيازات.
- إنتاج مخرجات غير ذات معنى: بمرور الوقت قد تبدأ النماذج بإنتاج مخرجات لا علاقة لها أو غير ذات معنى تماماً.
مثال واضح هو دراسة نشرت في Nature سلطت الضوء على التدهور السريع لنماذج اللغة المدربة بشكل متكرر باستخدام نصوص مولدة بواسطة AI . بحلول الدورة التاسعة, وُجدت تلك النماذج تنتِـِـِـِـِــَاج محتويات غير ذات صلة وغير مفيدة تماماً, مما يظهر الانخفاض السريع لجودة البيانات وفائدة النموذج .
حماية مستقبل الـAI : خطوات يمكن للمؤسسات اتخاذها اليوم
تقع المؤسسات الكبرى في موقع فريد يسمح لها بتشكيل مستقبل الـAI بطريقة مسؤولة وهناك خطوات واضحة وقابلة للتنفيذ يمكن اتخاذها للحفاظ على دقة وثقة نظم الـAI:
- استثمار أدوات تتبع مصدر البيانات: توفر الأدوات التي تحدد مصدر كل قطعة بيانات وكيف تغيرت بمرور الوقت ثقة للشركات فيما يتعلق بمدخلاتها الخاصة بـAI . مع وضوح مصادر البيانات, تستطيع المنظمات تجنب إمداد نماذجها بمعلومات غير موثوقة أو منحازة .
- نشر مرشحات مدفوعة بـAI للكشف عن المحتوى الإصطنائي: تساعد المرشحات المتقدمة الشركات علي اكتشاف المحتوي المُولد بواسطة الـAI او ذو الجودة المنخفضة قبل ان يدخل مجموعات التدريب . تساعد هذه المرشحات علي ضمان تعلم الأنظمة من معلومات أصيلة مُنتَجة بشرياً بدلاً من بيانات إصطنائية تفتقر إلي التعقيد الواقعي .
- الشراكة مع مزودي بيانات موثوقين: تمنح العلاقات القوية مع مزودي البيانت المعتمدين المنظمات إمدادات ثابتة من معلومات أصيلة وعالية الجودة . وهذا يعني حصول نماذج الـAI علي معلومات حقيقية ودقيقة تعكس السيناريوهات الفعلية , وهو ما يعزز الأداء والصلة .
- تعزيز الثقافة الرقمية والوعي: عبر تعليم الفرق والعملاءِ أهمية مصداقيه المعلومات , تستطيع المؤسسات مساعدة الناس علي التعرف علي المحتوي المُولد بواسطة الـAI وفهم المخاطر المرتبطة بالبيانات الإصطنائية . بناء الوعي حول الاستخدام المسؤول للبيانات يعزز ثقافة تقدّر الدقة والنزاهة خلال تطوير تقنيات الـAI .
يعتمد مستقبل الـAI علي العمل المسؤول . تمتلك المؤسسات فرصة حقيقية للحفاظ علي دقة ونزاهة تقنيات ّالذكاءِ الإصنانيّ باختيار مصادر بشرِّيّة حقيقية بدلاً مِن الاختصارات , وترتيب الأولويات للأدوات القادرة عَلَى اكتشاف وتصنيف المحتوي ذو الجودة المنخفضة وتعزيز الوعي حول الأصالة الرقمية , تستطيع المنظمات وضع تقنيات ّالذكاءِ الإصنانيّ عَلَى مسارٍ آمنٍ وأكثر ذكائًَا لمستقبلٍ أفضل حيث يكون فيه التقنيّة قويةً ومفيدًَا حقًّا للمُجمَعَة البشريّة .
ريك سونغ هو الرئيس التنفيذي والمؤسس الشريك لشركة Persona.