OpenScholar: الذكاء الاصطناعي مفتوح المصدر الذي يتفوق على GPT-4o في الأبحاث العلمية!

العلماء غارقون في البيانات. مع نشر ملايين الأوراق البحثية كل عام، حتى أكثر الخبراء تفانيًا يجدون صعوبة في متابعة أحدث النتائج في مجالاتهم.
نظام ذكاء اصطناعي جديد، يسمى OpenScholar، يعد بإعادة كتابة القواعد حول كيفية وصول الباحثين إلى الأدبيات العلمية وتقييمها ودمجها. تم تطويره بواسطة معهد ألين للذكاء الاصطناعي (Ai2) وجامعة واشنطن، يجمع OpenScholar بين أنظمة الاسترجاع المتطورة ونموذج لغوي مُحسّن لتقديم إجابات شاملة مدعومة بالاستشهادات على أسئلة بحثية معقدة.
“التقدم العلمي يعتمد على قدرة الباحثين على دمج الكمية المتزايدة من الأدبيات”، كتب باحثو OpenScholar في ورقتهم البحثية. لكن هذه القدرة مقيدة بشكل متزايد بحجم المعلومات الهائل. يجادلون بأن OpenScholar يقدم مسارًا للمضي قدمًا - ليس فقط لمساعدة الباحثين على التنقل عبر سيل الأوراق، ولكن أيضًا لتحدي هيمنة أنظمة الذكاء الاصطناعي المملوكة مثل GPT-4o من OpenAI.
كيف يعالج دماغ OpenScholar الذكي 45 مليون ورقة بحثية في ثوانٍ
في جوهر OpenScholar يوجد نموذج لغوي مدعوم بالاسترجاع يستفيد من قاعدة بيانات تضم أكثر من 45 مليون ورقة أكاديمية مفتوحة الوصول. عندما يطرح باحث سؤالاً، لا يقوم OpenScholar ببساطة بتوليد استجابة بناءً على المعرفة المدربة مسبقًا كما تفعل نماذج مثل GPT-4o غالبًا. بدلاً من ذلك، يقوم بنشاط باسترجاع الأوراق ذات الصلة ودمج نتائجها وتوليد إجابة مستندة إلى تلك المصادر.
تعتبر هذه القدرة على البقاء “مستندة” إلى الأدبيات الحقيقية ميزة رئيسية. في اختبارات باستخدام معيار جديد يسمى ScholarQABench، المصمم خصيصًا لتقييم أنظمة الذكاء الاصطناعي بشأن الأسئلة العلمية المفتوحة، تألق OpenScholar. أظهر النظام أداءً متفوقاً فيما يتعلق بالدقة والموثوقية حتى أنه تفوق على نماذج مملوكة أكبر بكثير مثل GPT-4o.
وجدت إحدى النتائج المثيرة للقلق ميل GPT-4o إلى توليد استشهادات مزيفة – ما يُعرف بـ “الهلاوس” في مصطلحات الذكاء الاصطناعي. عند تكليفه بالإجابة عن أسئلة بحث بيولوجي طبي، استشهد GPT-4o بأوراق غير موجودة في أكثر من 90% من الحالات. بالمقابل، ظل OpenScholar مثبتاً بقوة عند المصادر القابلة للتحقق.
الارتباط بالأوراق المسترجعة الحقيقية أمر أساسي. يستخدم النظام ما يصفه الباحثون بـ “حلقة الاستدلال الذاتية” الخاصة بهم ويقوم ”بتحسين مخرجاته بشكل تكراري عبر تغذية راجعة باللغة الطبيعية مما يحسن الجودة ويضيف معلومات إضافية بشكل تكيفي”.
داخل معركة داود وجليات: هل يمكن للذكاء الاصطناعي مفتوح المصدر المنافسة مع التكنولوجيا الكبرى؟
تأتي انطلاقة OpenScholar في وقت تهيمن فيه الأنظمة المغلقة والمملوكة بشكل متزايد على نظام الذكاء الاصطناعي البيئي. تقدم نماذج مثل GPT-4o وClaude قدرات مثيرة للإعجاب لكنها مكلفة وغير شفافة وغير متاحة للكثير من الباحثين. يقلب OpenScholar هذا النموذج رأساً على عقب بكونه مفتوح المصدر بالكامل.
أطلق فريق عمل Open Scholar ليس فقط الكود الخاص بالنموذج اللغوي ولكن أيضًا كامل خط أنابيب الاسترجاع، وهو نموذج متخصص يحتوي على 8 مليارات بارامتر مُحسن للمهام العلمية وقاعدة بيانات للأبحاث العلمية (datastore). كتب الباحثون: “حسب علمنا، هذه هي أول إصدار مفتوح لخط أنابيب كامل لمساعد علمي LM – بدءًا من البيانات ووصفات التدريب إلى نقاط التحقق للنموذج”.
هذه الانفتاح ليست مجرد موقف فلسفي؛ بل هي أيضًا ميزة عملية كبيرة جدًا حيث تجعل حجم ومكونات نظام open scholar أقل تكلفة بكثير مقارنة بالأنظمة المملوكة الأخرى.
الطريقة العلمية الجديدة: عندما يصبح الذكاء الاصطناعي شريك بحثك
يرفع مشروع Open Scholar تساؤلات مهمة حول دور الذكاء الاصطناعي في العلم . بينما تعتبر قدرة النظام علي دمج الأدب مثيرة للإعجاب ، إلا أنها ليست خالية تماماً من العيوب .
تشير الأرقام إلى قصة مثيرة للاهتمام حيث يتفوق نموذج الـ 8 مليارات بارامتر الخاص بـOpen Scholar علي الـGPT_40 بينما يكون أصغر بمئات المرات .
تمثل هذه الإنجازات علامة فارقة جديدة لعصر الأبحاث المدعومة بالذكاء الصناعى ، حيث قد لا تكون العقبة الرئيسية أمام التقدم العلمي قدرتتنا علي معالجة المعرفة الموجودة ، بل قدرتتنا علي طرح الأسئلة الصحيحة .
لقد أجابوا بذلك عن أحد أهم الأسئلة الملحة المتعلقة بتطوير الذكاء الصناعى : هل يمكن للحلول المفتوحة المصدر منافسة الصناديق السودا ء للتكنولوجيا الكبرى؟
الإجابة تبدو واضحة بين 45 مليون ورقة.