التكنولوجيا

3 استراتيجيات حاسمة لضغط نماذج اللغة الكبيرة لتعزيز أداء الذكاء الاصطناعي بشكل مذهل!

في عالم​ اليوم الرقمي السريع، تواجه الشركات التي تعتمد على الذكاء الاصطناعي تحديات جديدة: التأخير، واستخدام الذاكرة، وتكاليف القدرة الحاسوبية لتشغيل نموذج الذكاء الاصطناعي. مع ⁣تقدم الذكاء ⁤الاصطناعي ⁤بسرعة، أصبحت النماذج التي تدعم هذه⁣ الابتكارات أكثر تعقيدًا ⁣واحتياجًا للموارد. بينما حققت هذه النماذج الكبيرة أداءً ملحوظًا عبر مهام متنوعة، غالبًا ما تكون ‌مصحوبة بمتطلبات حسابية ‌وذاكرة كبيرة.

بالنسبة لتطبيقات⁢ الذكاء‌ الاصطناعي في الوقت الحقيقي مثل اكتشاف التهديدات وكشف الاحتيال و<أ href="https://thepointsguy.com/airline/biometric-boarding-us/" target="_blank" rel="noreferrer noopener">الصعود‍ البيومتري ⁣إلى ⁢الطائرة والعديد من التطبيقات ‌الأخرى، يصبح تقديم نتائج سريعة ودقيقة أمرًا⁣ بالغ‍ الأهمية. الدافع‍ الحقيقي للشركات لتسريع تنفيذات الذكاء الاصطناعي ⁢لا يأتي فقط من توفير تكاليف البنية التحتية وتكاليف الحوسبة، ولكن أيضًا لتحقيق كفاءة تشغيلية أعلى وأوقات استجابة أسرع وتجارب مستخدم سلسة، مما يترجم​ إلى نتائج تجارية ملموسة مثل تحسين رضا العملاء وتقليل أوقات الانتظار.

تأتي إلى الأذهان حلان للتغلب على ‍هذه التحديات فوراً،⁤ لكنهما ليسا خاليين من العيوب. الحل الأول‌ هو تدريب نماذج ⁢أصغر حجمًا مع التضحية بالدقة والأداء مقابل السرعة. الحل الآخر هو الاستثمار في أجهزة أفضل مثل وحدات معالجة الرسوميات (GPUs)، والتي يمكن أن⁢ تشغل نماذج ذكاء اصطناعي معقدة وعالية الأداء بتأخير منخفض. ومع ذلك، فإن ⁣الطلب على وحدات معالجة الرسوميات يتجاوز بكثير العرض مما سيؤدي سريعاً إلى زيادة التكاليف. كما أنه لا يحل حالة​ استخدام حيث يحتاج نموذج الذكاء الاصطناعي للعمل على أجهزة حافة مثل الهواتف⁣ الذكية.

هنا تأتي تقنيات ضغط النموذج: مجموعة من الأساليب المصممة لتقليل حجم​ ومتطلبات‌ الحوسبة لنماذج الذكاء الاصطناعي مع الحفاظ على أدائها. في هذا المقال ⁤سنستكشف بعض استراتيجيات ضغط ‌النموذج ⁤التي ستساعد ⁤المطورين في نشر نماذج‌ ذكاء اصطناعي حتى في ⁤أكثر البيئات المحدودة بالموارد.

### كيف يساعد ضغط ⁣النموذج

هناك عدة أسباب تجعل نماذج التعلم الآلي (ML) بحاجة إلى⁣ الضغط. أولاً ، غالباً ما توفر النماذج الأكبر دقة ‌أفضل ‍ولكنها تتطلب موارد حسابية كبيرة لتنفيذ التنبؤات. العديد‌ من النماذج المتطورة ، مثل نماذج اللغة الكبيرة ⁢(LLMs) والشبكات العصبية العميقة ، مكلفة حسابياً وكثيفة الذاكرة أيضاً . عندما ‍يتم نشر هذه ⁢النماذج في‌ تطبيقات الوقت الحقيقي ، مثل محركات​ التوصية أو أنظمة اكتشاف التهديدات ، فإن حاجتها لوحدات معالجة⁢ رسومية​ عالية الأداء أو بنى تحتية سحابية تزيد من التكلفة.

ثانيًا ، تضيف​ متطلبات التأخير لبعض التطبيقات المزيد إلى التكلفة . تعتمد العديد ​من تطبيقات ​الذكاء الاصطناعي على تنبؤات الوقت⁢ الحقيقي أو ذات ⁢التأخير المنخفض ، مما ⁢يتطلب أجهزة قوية‌ للحفاظ على انخفاض أوقات الاستجابة . كلما زاد عدد⁢ التنبؤات المطلوبة زادت تكلفة تشغيل هذه النماذج بشكل مستمر .

بالإضافة لذلك ، يمكن أن يؤدي⁤ الحجم الهائل لطلبات الاستدلال في الخدمات الموجهة للمستهلكين إلى ارتفاع كبير في ⁣التكلفة . فعلى سبيل المثال, الحلول المنتشرة في المطارات والبنوك أو مواقع البيع بالتجزئة ستتضمن عدد كبير جداً من​ طلبات الاستدلال ⁢يومياً,‍ حيث تستهلك كل​ طلب موارد حاسوبية .⁣ هذا الحمل التشغيلي يتطلب ​إدارة دقيقة للتأخير والتكاليف لضمان عدم استنزاف الموارد عند⁤ توسيع⁤ نطاق ‌استخدام تقنيات AI .

ومع ذلك, فإن ضغط النموذج ليس مجرد مسألة تكاليف . فالنماذج الأصغر تستهلك طاقة أقل ⁤, مما يترجم الى عمر بطارية أطول للأجهزة المحمولة وتقليل ​استهلاك الطاقة داخل مراكز البيانات . وهذا لا يقلل فقط من تكاليف التشغيل ولكنه يتماشى أيضًا‌ مع ⁢أهداف التنمية المستدامة ​البيئية عن طريق خفض انبعاث الكربون . ومن خلال معالجة هذه القضايا ⁣, تمهد⁢ تقنيات ضغط النموذج الطريق لحلول ذكاء اصطناعى أكثر عملية وفعالية وقابلة للنشر بشكل واسع .

###‍ أهم تقنيات ضغط النموذج

يمكن للنمذجة المضغوطة إجراء تنبؤاتها بسرعة ‍وكفاءة أكبر, مما يمّكن التطبيقات الزمن الحقيقي‍ التي تعزز تجارب المستخدم عبر مجالات متعددة, بدءً بفحص الأمن الأسرع عند المطارات وصولا⁤ الى تحقق⁢ الهوية الزمن الحقيقي هنا بعض التقنيات الشائعة المستخدمة لضغط نمذجات AI .

#### قطع نموذج

قطع النموذج هي ​تقنية تقلل حجم الشبكة ‌العصبية عن طريق إزالة المعلمات التي ⁣لها تأثير ضئيل​ على مخرجات النموذج ​ عن طريق القضاء علي الأوزان الزائدة أو غير المهمة , يتم تقليل التعقيد الحسابي للنموذج ,‌ مما يؤدي إلي أوقات استدلال أسرع واستخدام ذاكرة أقل والنتيجة هي نموذج أخف وزناً ⁣لا يزال يعمل بشكل جيد‍ ولكنه يحتاج لموارد أقل للتشغيل ⁢ بالنسبة للشركات ,‌ يعتبر ‍القطع مفيداً بشكل خاص لأنه يمكن أن يقلل​ كلٍّ مِن‍ الوقت والتكاليف اللازمة لإجراء توقعاته دون التضحية بالكثير فيما⁤ يتعلق بالدقة يمكن إعادة تدريب نموذج مقطع لاستعادة أي دقة ​مفقودة ويمكن إجراء قطع نموذجي بصورة متكررة حتى يتم⁤ تحقيق الأداء المطلوب وحجم وسرعة معينة تساعد التقنيات كقطع تدريجي علي تخفيض ⁢حجم النموذج بفاعلية​ بينما تحافظ علي أدائه‍

#### تقدير نموذجي

التقدير هو طريقة قوية أخرى⁢ لتحسين ⁤نمادجة ML ‌ حيث تقلل دقة الأرقام المستخدمة ⁣لتمثيل معاملات ونشاط ⁢نموذجا عادةً ما يكون ذلك​ بتخفيضها​ مِن أرقام عائمة بدقة 32 بت إلي أعداد صحيحة بدقة 8 بت وهذا ​يقلل كثيراً مِن بصمة الذاكرة الخاصة ‌بالنموذج ويزيد سرعة⁣ الاستدلال⁣ عن طريق ​تمكينه للعمل علي أجهزة أقل قوة ⁤ قد تصل تحسيناته للذاكرة والسرعة الي 4x. وفي بيئات محدودة⁢ الموارد الحسابيه كالأجهزة الطرفيه ‌او‍ الهواتف المحمولة يسمح تقدير⁣ الأعمال بنشر الأنماط بكفاءة أكبر كما أنه يخفض‍ إستهلاك ‌الطاقة لخدمات AI الأمر الذي يترجم الي تخفيض تكاليف السحابة او الأجهزة

عادةً​ ما يُجرى تقدير بعد تدريب نموذج AI ويستخدم مجموعة⁣ بيانات معايرة ‍لتقليل ​فقد الأداء وفي الحالات التي يكون فيها‍ فقد الأداء ‍مرتفع ‌للغاية تُساعد ⁣التقنيات كـالتدريب‌ المدرك ‌للتقدير في الحفاظ‍ علي الدقه بالسماح للنموذجان بالتكيف مع ⁢هذا الضغط أثناء عملية التعلم ⁢نفسها ⁤بالإضافة لذلك يمكن تطبيق ‌تقديرات بعد قطع ⁣نموذجي لتحسين زمن الوصول ⁣بينما نحافظ علي الادء

#### استخراج المعرفة

هذه التقنية تتضمن تدريب نموذج ⁣أصغر (طالب) لمحاكاة سلوك نموذج أكبر وأكثر تعقيدًا (معلم). وغالبا ما تشمل العملية تدريب الطالب⁤ باستخدام بيانات التدريب الأصلية والمخرجات الناعمة (توزيعات الاحتمالات) للمعلم وهذا يساعد⁢ ليس فقط نقل القرارات النهائية ولكن أيضا “التفكير” الدقيق للنموذج الأكبر إلي الأصغر

يتعلم الطالب تقريب أداء المعلم بالتركيز علي الجوانب الحرجة للبيانات وينتُجه ذلك لنموذجا⁢ خفيف الوزن يحتفظ ⁤بالكثير ‌مِن دقتهم الأصلية ولكن ​بمطالب حسابيه اقل بكثير بالنسبة للشركات ⁣يمَكن استخراج المعرفة نشر موديلات أصغر وأسرع تقدم ⁤نتائج⁤ مماثلة بجزء بسيط مِن تكلفة​ الاستنتاج وهي قيمة خاصة جداً فِي التطبيقات الزمن الحقيقة حيث⁣ السرعة والكفاءة هما أمران ⁣حاسمان

يمكن مزيدٌ⁣ الضغط​ لنموذجا الطالب باستخدام أساليب القطع والتقدير ليصبح لدينا موديل أخف وأسرع والذي يعمل ⁤بنفس الطريقة كنموذر أكبر وأكثر ‍تعقيدا

### الخلاصة

بينما تسعى الشركات​ لتوسيع عملياتها المتعلقة بالذكاء الإصتناعى ‌يصبح تنفيذ حلول ذكائية زمن الحقيقة ​أمراً بالغ الأهمية توفر تقنيّـآت كالقطع والنظر والتقطيع والمعرفة حلول عملية لهذه المشكلة عن طريق تحسين ⁣الأنماط للحصول علی توقعاتی أسرعت وأرخص دون خسارة كبيرة فِي الأداء وباعتماد هذة الإستراتيجيات تستطيع ‌الشركات الحد مِن اعتمادها علی الأجهزة المكلفّة ⁣ونشر الأنماطا⁤ بصورة اوسَع عبر خدماتهم وضمان استمرار كون‍ الـAI جزء اقتصادي قابل للاستمرار ضمن عملياتهم⁢ ففي مشهدٍ يُمكن فيه للكفاءة‍ التشغيلیّة ان ‍تُحدد قدرة الشركة علی الابتكار تصبح تحسين إستنتاج ML ضرورة وليست خيارا

*تشينمي جوج هو مهندس تعلم آلي أول بشركة [بانجام](https://pangiam.com/)*

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى