الذكاء الاصطناعي يحتاج إلى بيانات صناعية: كيف نبني الثقة في المستقبل الرقمي؟

تعتبر نماذج الذكاء الاصطناعي التوليدية اليوم، مثل تلك التي تقف وراء ChatGPT وGemini، مدربة على كميات هائلة من البيانات الواقعية. ومع ذلك، فإن كل المحتوى المتاح على الإنترنت لا يكفي لإعداد نموذج لمواجهة كل موقف محتمل. وللاستمرار في النمو، تحتاج هذه النماذج إلى التدريب على بيانات محاكاة أو بيانات اصطناعية، وهي سيناريوهات قد تكون معقولة ولكنها ليست حقيقية. وأكد الخبراء خلال ندوة في مهرجان South by Southwest أن مطوري الذكاء الاصطناعي بحاجة إلى القيام بذلك بشكل مسؤول، وإلا فقد تسير الأمور بشكل خاطئ بسرعة.
لقد اكتسب استخدام البيانات المحاكية في تدريب نماذج الذكاء الاصطناعي اهتمامًا جديدًا هذا العام منذ إطلاق DeepSeek AI، وهو نموذج جديد تم إنتاجه في الصين وتم تدريبه باستخدام المزيد من البيانات الاصطناعية مقارنة بالنماذج الأخرى مما يوفر المال وقوة المعالجة. لكن الخبراء يقولون إن الأمر يتجاوز مجرد توفير تكاليف جمع ومعالجة البيانات. يمكن أن تعلم البيانات الاصطناعية - التي يتم توليدها بواسطة الكمبيوتر وغالبًا ما تكون بواسطة الذكاء الاصطناعي نفسه - النموذج حول سيناريوهات لا توجد في المعلومات الواقعية المقدمة له ولكن يمكن أن يواجهها في المستقبل. تلك الاحتمالية النادرة لا يجب أن تأتي كمفاجأة لنموذج ذكاء اصطناعي إذا كان قد شهد محاكاة لها.
قال أوجي أوديزوي، الذي قاد فرق المنتجات في تويتر وأتلانتيان ومايكروسوفت وغيرها من الشركات: “مع البيانات المحاكية يمكنك التخلص من فكرة الحالات الحدودية طالما يمكنك الوثوق بها”. وكان هو والآخرون يتحدثون يوم الأحد خلال مؤتمر SXSW في أوستن بولاية تكساس. “يمكننا بناء منتج يعمل لـ 8 مليارات شخص نظريًا طالما يمكننا الوثوق به”.
لكن الجزء الصعب هو التأكد من أنه يمكن الوثوق به.
المشكلة مع البيانات المحاكية
تتمتع البيانات المحاكية بالعديد من الفوائد. أولاً، تكلفتها أقل للإنتاج. يمكنك اختبار تحطم آلاف السيارات المحاكية باستخدام بعض البرمجيات، لكن للحصول على نفس النتائج في الحياة الواقعية عليك فعلاً تحطيم السيارات - وهو ما يكلف الكثير من المال – كما قال أوديزوي.
إذا كنت تقوم بتدريب سيارة ذاتية القيادة مثلاً، ستحتاج إلى التقاط بعض السيناريوهات الأقل شيوعًا التي قد تواجهها السيارة على الطرقات حتى لو لم تكن موجودة ضمن بيانات التدريب ، كما قال طاهر إكين ، أستاذ تحليل الأعمال بجامعة ولاية تكساس . استخدم حالة الخفافيش التي تظهر بشكل مذهل من جسر كونغرس بأوستن كمثال؛ قد لا تظهر هذه الحالة ضمن بيانات التدريب ، لكن السيارة ذاتية القيادة ستحتاج إلى فهم كيفية الاستجابة لزخات الخفافيش.
تأتي المخاطر من كيفية استجابة الآلة المدربة باستخدام بيانات اصطناعية للتغيرات الحقيقية؛ فلا يمكن أن توجد في واقع بديل وإلا تصبح أقل فائدة أو حتى خطيرة ، كما قال إكين . “كيف ستشعر” سأل “عندما تدخل سيارة ذاتية القيادة لم يتم تدريبها على الطريق بل تم تدريبها فقط على بيانات محاكاة؟” أي نظام يستخدم بيانات محاكية يحتاج إلى “أن يكون مرتبطاً بالعالم الحقيقي”، بما يشمل التغذية الراجعة حول كيفية توافق تفكيرها المحاكي مع ما يحدث فعلياً .
قارن أوديزوي المشكلة بإنشاء وسائل التواصل الاجتماعي التي بدأت كوسيلة لتوسيع التواصل عالميًا وقد حققت هذا الهدف . لكنه ذكر أيضًا أنه تم إساءة استخدام وسائل التواصل الاجتماعي حيث أصبح الطغاة يستخدمونها للسيطرة على الناس بينما يستخدم الناس نفس الوسائل لإلقاء النكات .
مع نمو أدوات الذكاء الاصطناعي وزيادة شعبيتها – وهو سيناريو يسهل تحقيقه باستخدام بيانات التدريب الاصطلاحية – تزداد التأثيرات المحتملة للعالم الحقيقي الناتجة عن عدم موثوقية التدريب وفصل النماذج عن الواقع أهميةً أكبر . وقال أوديزوي: “العبء يقع علينا نحن البناة والعلماء لنكون متأكدين مرتين وثلاث مرات بأن النظام موثوق”. “ليس خيالاً”.
كيف نحافظ على ضبط البيانات المحاكية
إحدى الطرق لضمان موثوقية النماذج هي جعل تدريبهم شفافًا بحيث يستطيع المستخدمون اختيار النموذج الذي يريدونه بناءً على تقييمهم لتلك المعلومات . استخدم المشاركون مراراً تشبيه ملصق التغذية الذي يسهل فهمه للمستخدم .
هناك بعض الشفافية الموجودة مثل بطاقات النموذج المتاحة عبر منصة المطورين Hugging Face والتي توضح تفاصيل الأنظمة المختلفة . ويجب أن تكون تلك المعلومات واضحة وشفافة قدر الإمكان ، كما قال مايك هولينجر مدير إدارة المنتجات للذكاء الصناعي التوليدي لدى شركة نفيديا لصناعة الرقائق الإلكترونية . وأضاف: “يجب وضع هذه الأنواع من الأشياء”.
قال هولينجر إنه سيكون ليس فقط مطوري الذكاء الصناعي بل أيضًا مستخدميه هم الذين سيحددون أفضل الممارسات للصناعة .
كما تحتاج الصناعة أيضاً إلى مراعاة الأخلاق والمخاطر ، وفقاً لأوديزوي . وقال: “ستسهل البيانات الإصطلاحية القيام بالكثير من الأشياء”. “سوف تخفض تكلفة بناء الأشياء ولكن بعض هذه الأمور ستغير المجتمع”.
أشار أوديزوي إلى ضرورة تضمين القابل للرصد والشفافية والثقة داخل النماذج لضمان موثوقيتهم؛ وهذا يشمل تحديث نماذج التدريب بحيث تعكس معلومات دقيقة ولا تضخم الأخطاء الموجودة بالبيانات الإصطنائية. إحدى المخاطر هي انهيار النموذج عندما يصبح نموذج ذكائي مدربٌ اعتماداًعلى معلومات أنتَجهَا نماذِيج أخرى بعيدة عن الواقع لدرجة تجعله عديم الفائدة.
وقال: “كلما ابتعدت عن التقاط تنوع العالم الحقيقي كانت الاستجابة غير صحِّيّة”. الحل هو تصحيح الأخطاء حسب قوله : “هذه المشاكل لا تبدو غير قابلة للحل إذا دمَجنَا فكرة الثقة والشفافية وتصحيح الأخطاء فيها”.