نماذج Molmo المفتوحة المصدر من Ai2 تتفوق على GPT-4o وClaude: اكتشف السر وراء النجاح!
معهد ألين للذكاء الاصطناعي يكشف عن مولمو: عائلة مفتوحة المصدر من نماذج الذكاء الاصطناعي متعددة الوسائط
أعلن معهد ألين للذكاء الاصطناعي (Ai2) اليوم عن إطلاق مولمو، وهي عائلة مفتوحة المصدر من نماذج الذكاء الاصطناعي متعددة الوسائط المتطورة التي تتفوق على المنافسين الرئيسيين مثل GPT-4o من OpenAI وClaude 3.5 Sonnet من Anthropic وGemini 1.5 من Google في عدة معايير خارجية.
تستطيع هذه النماذج قبول وتحليل الصور التي يرفعها المستخدمون، مشابهة للنماذج الأساسية الرائدة المملوكة. ومع ذلك، أشار Ai2 أيضًا في منشور على منصة X إلى أن مولمو تستخدم “بيانات أقل بمقدار 1000 مرة” مقارنة بالمنافسين المملوكين، وذلك بفضل بعض تقنيات التدريب الجديدة الذكية الموضحة بتفصيل أكبر أدناه وفي تقرير فني نشرته الشركة التي أسسها بول ألين ويقودها علي فرهدي.
يقول Ai2 إن هذا الإصدار يؤكد التزامه بالبحث المفتوح من خلال تقديم نماذج عالية الأداء مزودة بأوزان وبيانات مفتوحة للمجتمع الأوسع – وبالطبع للشركات التي تبحث عن حلول يمكنها امتلاكها والتحكم فيها وتخصيصها بالكامل.
يأتي هذا بعد إصدار Ai2 قبل أسبوعين لنموذج آخر مفتوح هو OLMoE، الذي يعد “خليطًا من الخبراء” أو مجموعة من النماذج الأصغر المصممة لتحقيق فعالية التكلفة.
سد الفجوة بين الذكاء الاصطناعي المفتوح والمملوك
يتكون مولمو من أربعة نماذج رئيسية بأحجام وقدرات مختلفة:
- مولمو-72B (72 مليار معلمة – النموذج الرائد المستند إلى نموذج Alibaba Cloud Qwen2-72B المفتوح المصدر)
- مولمو-7B-D (“نموذج تجريبي” مستند إلى نموذج Qwen2-7B الخاص بـ Alibaba)
- مولمو-7B-O (استنادًا إلى نموذج OLMo-7B الخاص بـ Ai2)
- مولموE-1B (استنادًا إلى خليط الخبراء OLMoE-1B-7B والذي يقول Ai2 إنه “يتساوى تقريبًا مع أداء GPT-4V في كلٍّ من المعايير الأكاديمية وتفضيلات المستخدم.”)
تحقق هذه النماذج أداءً عاليًا عبر مجموعة متنوعة من المعايير الخارجية، متفوقةً على العديد من البدائل المملوكة الأخرى. وجميعها متاحة بموجب تراخيص Apache 2.0 المرنة، مما يتيح استخدامات متنوعة لأغراض البحث والتجارة (مثل الاستخدامات التجارية).
من الجدير بالذكر أن مولمو-72B يتصدر التقييمات الأكاديمية محققاً أعلى درجة في 11 معياراً رئيسياً ويحتل المرتبة الثانية في تفضيل المستخدمين بعد GPT-4o مباشرةً.
علق Vaibhav Srivastav، مهندس دعم مطوري التعلم الآلي لدى شركة Hugging Face الخاصة بمستودع الشيفرة البرمجية للذكاء الاصطناعي على الإصدار عبر منصة X مشيداً بأن مولمو يقدم بديلاً قوياً للأنظمة المغلقة ويضع معياراً جديداً للذكاء الاصطناعي متعدد الوسائط المفتوح.
بالإضافة إلى ذلك، أشاد الباحث Ted Xiao المتخصص في الروبوتات لدى Google DeepMind بإدراج بيانات الإشارة ضمن مولmo والتي يعتبر أنها تمثل نقطة تحول لتأسيس رؤية بصرية قوية في مجال الروبوتات.
تتيح هذه القدرة لمولmo تقديم تفسيرات بصرية والتفاعل بشكل أكثر فعالية مع البيئات الفيزيائية وهو ما ينقص معظم النماذج متعددة الوسائط الأخرى حاليًا.
بنية النموذج المتقدمة واستراتيجية التدريب
تم تصميم بنية مولmo لتعظيم الكفاءة والأداء حيث تستخدم جميع النماذج نموذج OpenAI ViT-L/14 CLIP كمرمز بصري يقوم بمعالجة الصور متعددة المقاييس والقصص لتحويلها إلى رموز بصرية.
ثم يتم إسقاط هذه الرموز داخل فضاء إدخال النموذج اللغوي عبر موصل متعدد الطبقات ويتم تجميع البيانات لتقليل الأبعاد.
المكون اللغوي هو Transformer يعتمد فقط على فك الشفرة ويتضمن خيارات تتراوح بين سلسلة OLMo وسلسلة Qwen وموديلات Mistral المختلفة كل منها يقدم قدرات ومستويات انفتاح مختلفة.
تشمل استراتيجية تدريب Molmo مرحلتين رئيسيتين:
- التدريب المسبق متعدد الوسائط: خلال هذه المرحلة يتم تدريب النماذج لإنشاء تسميات باستخدام أوصاف صور مفصلة جديدة تم جمعها بواسطة مُعِدّي البيانات البشريين.
تعتبر مجموعة البيانات عالية الجودة المسماة PixMo عاملاً حاسماً وراء الأداء القوي لمولmo.
التفوق على المعايير الرئيسية
أظهرت نماذج Molmo نتائج مثيرة للإعجاب عبر عدة معايير خاصة عند مقارنتها بالنم modelos m ملكة .
على سبيل المثال ، سجلت Molmo -72 B درجة 96 .3 على DocVQA و85 .5على TextVQA ، متفوقةً بذلك على Gemini 1 .5 Pro وClaude 3 .5 Sonnetفي هذين المجالين .
كما تفوقت أيضًا على GPT -4 oفي AI ٢ D(معيار خاص بـ AI٢ مختصر لـ “A Diagram Is Worth A Dozen Images” ، وهي مجموعة بيانات تحتوي أكثرمن5000رسم بياني علمي لمدارس ابتدائية وأكثرمن150000تعليق غني).
الوصول المفتوح والإصدارات المستقبلية
لقد جعلت Ai٢هذه النمذجة ومجموعاتها البيانية متاحة للجمهور عبر مساحتها الخاصة بهاموقع Hugging Face ، مما يوفر توافق كامل مع إطر العمل الشهيرة مثل Transformers .
هذا الوصول المفتوح جزءٌ م ن رؤيةAi٢الأوسع لتعزيز الابتكار والتعاون داخل مجتمع الذكاء الصناعي .
خلال الأشهر القليلة المقبلة ، تخططAi٢لإصدار المزيد م نالن م ا ذ ج وكود التدريب وإصدار موسع لتقريرهم الفني مما يزيد الموارد المتاحة للباحثين .
بالنسبة لأولئك المهتمين باستكشاف قدراتMol mo فإن عرضا عاما وعدة نقاط تفتيش للنمودجات متاحة الآن عبر الصفحة الرسمية لمول mo .