ديب سيك V3: الذكاء الاصطناعي مفتوح المصدر الذي يتفوق على لاما وكوين عند الإطلاق!
إطلاق نموذج DeepSeek-V3 من شركة DeepSeek الصينية
أطلقت شركة DeepSeek الصينية الناشئة في مجال الذكاء الاصطناعي، والمعروفة بتحدي الشركات الرائدة في هذا المجال من خلال تقنياتها المبتكرة مفتوحة المصدر، نموذجها الجديد العملاق: DeepSeek-V3.
النموذج متاح عبر Hugging Face بموجب اتفاقية ترخيص الشركة، ويأتي مع 671 مليار معلمة ولكنه يستخدم بنية مختلطة من الخبراء لتفعيل مجموعة مختارة فقط من المعلمات، وذلك للتعامل مع المهام المحددة بدقة وكفاءة. وفقًا لمعايير الأداء التي شاركتها DeepSeek، فإن النموذج يتصدر بالفعل المخططات ويتفوق على النماذج الرائدة مفتوحة المصدر بما في ذلك Llama 3.1-405B من Meta، ويقترب بشكل كبير من أداء النماذج المغلقة مثل تلك الخاصة بشركتي Anthropic وOpenAI.
يمثل هذا الإصدار تطورًا كبيرًا آخر يقرب الفجوة بين الذكاء الاصطناعي المغلق ومفتوح المصدر. تأمل شركة DeepSeek التي بدأت كفرع لصندوق التحوط الكمي الصيني High-Flyer Capital Management أن تمهد هذه التطورات الطريق نحو الذكاء الاصطناعي العام (AGI)، حيث سيكون للنماذج القدرة على فهم أو تعلم أي مهمة فكرية يمكن للإنسان القيام بها.
ما الذي يقدمه نموذج DeepSeek-V3؟
مثل سلفه DeepSeek-V2، يستخدم النموذج الجديد نفس البنية الأساسية التي تدور حول الاهتمام المتعدد الرأس (MLA) وDeepSeekMoE. تضمن هذه الطريقة الحفاظ على تدريب واستدلال فعالين – حيث يتم تفعيل 37 مليار معلمة فقط من أصل 671 مليار لكل رمز بواسطة “خبراء” متخصصين ومشتركين (شبكات عصبية أصغر داخل النموذج الأكبر).
بينما تضمن البنية الأساسية أداءً قويًا لنموذج DeepSeek-V3، قدمت الشركة أيضًا ابتكارين لدفع الحدود أكثر.
الأول هو استراتيجية تحميل متوازنة خالية من الخسائر المساعدة. تقوم هذه الاستراتيجية بمراقبة وتحسين الحمل على الخبراء بشكل ديناميكي لاستخدامهم بطريقة متوازنة دون التأثير على أداء النموذج العام. الثاني هو التنبؤ متعدد الرموز (MTP)، الذي يسمح للنموذج بالتنبؤ بعدة رموز مستقبلية في وقت واحد. يعزز هذا الابتكار كفاءة التدريب ويسمح للنموذج بالعمل ثلاث مرات أسرع، مما ينتج عنه 60 رمزًا في الثانية.
“خلال مرحلة التدريب الأولي، قمنا بتدريب نموذج DeepSeek-V3 باستخدام 14.8 تيرابايت من الرموز عالية الجودة والمتنوعة… بعد ذلك أجرينا تمديد طول السياق على مرحلتين لنموذج DeepSeek-V3″، كتبت الشركة في ورقة تقنية توضح النموذج الجديد. “في المرحلة الأولى، تم تمديد الحد الأقصى لطول السياق إلى 32K وفي المرحلة الثانية تم تمديده إلى 128K.” بعد ذلك أجرينا تدريباً إضافياً يشمل تحسين دقيق تحت إشراف وتعلم تعزيز لضبطه وفقاً لتفضيلات البشر وإطلاق إمكانياته بشكل أكبر.
من الجدير بالذكر أنه خلال مرحلة التدريب استخدمت شركة Deep Seek عدة تحسينات للأجهزة والخوارزميات بما في ذلك إطار تدريب الدقة المختلطة FP8 وخوارزمية DualPipe للتوازي بين الأنابيب لتقليل تكاليف العملية.
بشكل عام ، تدعي أنها أكملت تدريب نموذج Deep Seek V-3 بالكامل بحوالي 2788K ساعة GPU H800 ، أو حوالي $5,57 مليون دولار ، بافتراض سعر إيجار قدره $2 لكل ساعة GPU . وهذا أقل بكثير مقارنة بالمئات الملايين عادة ما تنفق على التدريب الأولي لنماذج اللغة الكبيرة .
على سبيل المثال ، يُقدر أن Llama-3 .1 قد تم تدريبه باستثمار يزيد عن $500 مليون .
أقوى نموذج مفتوح المصدر متاح حاليًا
على الرغم من التكلفة الاقتصادية للتدريب ، برزت ديب سيك V – ٣ كنموذح الأقوى المفتوح المصدر المتاح حاليًا .
أجرت الشركة العديد من المعايير لمقارنة أداء الذكاء الاصطناعي ولاحظت أنه يتفوق بشكل مقنع على النماذج المفتوحة الرائدة بما فيها Llama -٣ .١ -٤٠٥ B و Qwen -٢ .٥ -٧٢ B . كما أنه يتفوق حتى على GPT-4o المغلق معظم المعايير باستثناء SimpleQA و FRAMES اللتين كانتا تتقدم فيهما OpenAI بنتائج بلغت38,2 و80,5 مقابل24,9 و73,٣على التوالي .
من الجدير بالذكر أن أداء ديب سيك V –٣ برز بشكل خاص ضمن المعايير المتعلقة بالصينية والرياضيات حيث سجل نتائج أفضل مقارنة بجميع النظائر الأخرى . ففي اختبار Math –500 حصلت النتائج فيه90 ,٢ بينما كانت نتيجة Qwen هي80 وهي الأفضل التالية .
النموذجان الوحيدان اللذان تمكنوا تحدي ديب سيك V –٣ هما Claude –۳ ,۵ Sonnet التابعة لشركة Anthropic والتي تفوقت عليه بنتائج أعلى ضمن MMLU-Pro ,IF-Eval ,GPQA-Diamond ,SWE Verified وأيضاً Aider-Edit .
هذا العمل يظهر أن المصادر المفتوحة تتقارب بسرعة نحو نماذج المصادر المغلقة مما يعد بأداء شبه مكافئ عبر مهام مختلفة . إن تطوير مثل هذه الأنظمة مفيد للغاية للصناعة لأنه يقلل فرص وجود لاعب رئيسي واحد يسيطر عليها كما يمنح المؤسسات خيارات متعددة للاختيار منها والعمل معها أثناء تنظيم مجموعاتها التقنية .
حالياً ، الشيفرة الخاصة بـ Deeep Seek V –۳ متاحة عبر GitHub بموجب ترخيص MIT بينما يتم توفير النموذج بموجب ترخيص نموذجي للشركة . يمكن للمؤسسات أيضًا تجربة النموذج الجديد عبر Deep Seek Chat وهو منصة مشابهة لـ ChatGPT والوصول إلى واجهة برمجة التطبيقات للاستخدام التجاري . تقدم Deeep Seek واجهة برمجة التطبيقات بنفس سعر Deeep Seek V–۲ حتى الثامن فبراير وبعد ذلك ستفرض رسوم قدرها$0,27 / مليون رموز إدخال ($0,07 / مليون رموز عند وجود ضربات ذاكرة التخزين المؤقت ) و$1,10 / مليون رموز إخراج .