الذكاء الاصطناعي الذي ينقر من أجلك: أبحاث مايكروسوفت تكشف مستقبل أتمتة واجهات المستخدم!
تقرير شامل يكشف عن تطور وكالات الذكاء الاصطناعي في التحكم بواجهات المستخدم الرسومية
كشف تقرير جديد من باحثي مايكروسوفت وشركائهم الأكاديميين أن الوكلاء المدعومين بنماذج اللغة الكبيرة (LLMs) أصبحوا أكثر قدرة على التحكم في واجهات المستخدم الرسومية (GUIs)، مما قد يغير كيفية تفاعل البشر مع البرمجيات.
تتيح هذه التقنية لأنظمة الذكاء الاصطناعي رؤية والتلاعب بواجهات الكمبيوتر تمامًا كما يفعل البشر — من خلال النقر على الأزرار، وملء النماذج، والتنقل بين التطبيقات. بدلاً من الحاجة إلى تعلم أوامر برمجية معقدة، يمكن لهؤلاء “الوكلاء” تفسير الطلبات بلغة طبيعية وتنفيذ الإجراءات اللازمة تلقائيًا.
كتب الباحثون: “تمثل هذه الوكالات تحولاً نموذجياً، حيث تمكّن المستخدمين من أداء مهام معقدة ومتعددة الخطوات عبر أوامر محادثة بسيطة”. وأضافوا: “تشمل تطبيقاتها التنقل عبر الويب، وتفاعلات تطبيقات الهواتف المحمولة، وأتمتة سطح المكتب، مما يوفر تجربة مستخدم تحويلية تعيد تعريف كيفية تفاعل الأفراد مع البرمجيات”.
يمكن اعتبارها كوجود مساعد تنفيذي ماهر للغاية يمكنه تشغيل أي برنامج برمجي نيابة عنك. كل ما عليك هو إخبار المساعد بما تريد تحقيقه، وهو يتولى جميع التفاصيل الفنية لجعل ذلك يحدث.
صعود مساعدي الذكاء الاصطناعي في المؤسسات يغير كل شيء
تتنافس الشركات التكنولوجية الكبرى بالفعل لدمج هذه القدرات في منتجاتها. تستخدم مايكروسوفت خدمة Power Automate لمساعدة المستخدمين على إنشاء سير عمل آلي عبر التطبيقات. يمكن لمساعد Copilot AI الخاص بالشركة التحكم مباشرةً في البرمجيات بناءً على أوامر نصية. كما تمكن وظيفة استخدام الكمبيوتر لـ Claude التابعة لشركة Anthropic الذكاء الاصطناعي من التفاعل مع واجهات الويب وأداء مهام معقدة. ومن المتوقع أن تقوم جوجل بتطوير مشروع Jarvis الذي سيستخدم متصفح كروم لتنفيذ المهام المستندة إلى الويب مثل البحث والتسوق وحجز السفر.
تشير الورقة إلى أن “ظهور نماذج اللغة الكبيرة، وخاصة النماذج متعددة الوسائط، قد أدخل عصرًا جديدًا لأتمتة واجهات المستخدم”. وقد أظهرت قدرات استثنائية في فهم اللغة الطبيعية وتوليد الشفرات وتعميم المهام والمعالجة البصرية.
يمثل هذا فرصة سوقية محتملة بقيمة 68.9 مليار دولار بحلول عام 2028 وفقًا للمحللين في BCC Research ، حيث تسعى المؤسسات لأتمتة المهام المتكررة وجعل برامجها أكثر سهولة للمستخدمين غير التقنيين. ومن المتوقع أن ينمو السوق من 8.3 مليار دولار في عام 2022 إلى هذا الرقم بمعدل نمو سنوي مركب يبلغ 43.9% خلال فترة التوقعات.
أثر المؤسسات: التحديات والفرص في أتمتة الذكاء الاصطناعي
ومع ذلك ، لا تزال هناك عقبات كبيرة قبل أن تشهد التكنولوجيا اعتماداً واسع النطاق داخل المؤسسات. حدد الباحثون عدة قيود رئيسية تشمل مخاوف الخصوصية عند التعامل مع البيانات الحساسة وقيود الأداء الحاسوبي والحاجة إلى ضمان سلامة وموثوقية أفضل.
ذكرت الورقة أنه “بينما تكون فعالة لسير العمل المحددة مسبقاً ، فإن هذه الأساليب تفتقر إلى المرونة والقدرة على التكيف المطلوبة للتطبيقات الديناميكية الواقعية”.
يوفر فريق البحث خارطة طريق مفصلة لمعالجة هذه التحديات ، مشددًا على أهمية تطوير نماذج أكثر كفاءة يمكن تشغيلها محلياً على الأجهزة وتنفيذ تدابير أمن قوية وإنشاء أطر تقييم موحدة.
وأشار الباحثون إلى أنه “من خلال دمج تدابير الأمان والإجراءات القابلة للتخصيص ، تضمن هذه الوكلات الكفاءة والأمان عند التعامل مع الأوامر المعقدة”، مبرزين التقدم الأخير نحو جعل التكنولوجيا جاهزة للاستخدام المؤسسي.
بالنسبة لقادة التكنولوجيا المؤسسية ، يمثل ظهور وكلاء واجهة المستخدم المدعومين بنماذج LLM فرصة وكذلك اعتبارات استراتيجية. بينما تعد التكنولوجيا بتحقيق مكاسب إنتاجية كبيرة من خلال الأتمتة ، ستحتاج المنظمات لتقييم الآثار الأمنية ومتطلبات البنية التحتية لنشر هذه الأنظمة الذكية بشكل دقيق.
وأوضح التقرير أن ”مجال وكلاء واجهة المستخدم يتحرك نحو هياكل متعددة الوكلاء وقدرات متعددة الوسائط ومجموعات إجراءات متنوعة واستراتيجيات اتخاذ قرارات جديدة”. وتشير الابتكارات الجديدة إلى خطوات مهمة نحو إنشاء وكلاء ذكيين وقابلين للتكيف قادرين على الأداء العالي عبر بيئات متنوعة وديناميكية.”
يتوقع الخبراء الصناعيون أنه بحلول عام 2025 سيكون حوالي 60% من الشركات الكبرى تختبر شكلًا ما من وكلاءات أتمتة واجهة الاستخدام مما قد يؤدي لتحقيق مكاسب هائلة ولكن أيضًا يثير أسئلة مهمة حول خصوصية البيانات وفقدان الوظائف المحتملة.
يشير الاستطلاع الشامل أننا عند نقطة تحول حيث يمكن لواجهات المحادثاة للذكاء الاصطناعي تغيير كيفية تفاعل البشر بشكل جذري مع البرمجيات - رغم أن تحقيق هذا الإمكان سيتطلب تقدم مستمر سواءً فيما يتعلق بالتكنولوجيا الأساسية أو ممارسات نشرها داخل المؤسسات.
اختتم الباحثون بالقول إن “هذه التطورات تمهد الطريق لوكلاءات أكثر تنوعا وقوة قادرة على التعامل مع بيئات ديناميكية ومعقدّة”.