العامل البشري: كيف يمكن للشركات تجنب كوارث السحابة بذكاء؟

انضم إلى نشراتنا اليومية والأسبوعية للحصول على آخر التحديثات والمحتوى الحصري حول تغطية الذكاء الاصطناعي الرائدة في الصناعة. تعرف على المزيد
تعمل الشركات الكبيرة بجد لضمان عدم تعطل خدماتها، والسبب بسيط – فالتعطلات الكبيرة ستؤذي علامتك التجارية وتدفع العملاء إلى المنتجات المنافسة التي تتمتع بسجل أفضل.
بناء خدمة إنترنت موثوقة هو مشكلة تقنية صعبة، ولكن بالنسبة لقادة الشركات، فإنه يمثل أيضًا تحديًا إنسانيًا. تحفيز فرق الهندسة لديك للاستثمار في أعمال الموثوقية يمكن أن يكون صعبًا، لأنه غالبًا ما يُنظر إليه على أنه أقل إثارة من تطوير ميزات جديدة.
على نطاق واسع، تهيمن الحوافز. توظف أكبر شركات التكنولوجيا آلاف الموظفين وتدير مئات من خدمات الإنترنت. على مر السنين، ابتكرت طرقًا ذكية لضمان بناء مهندسيها لأنظمة موثوقة. تناقش هذه المقالة تقنيات الهندسة البشرية التي نجحت على نطاق واسع عبر أنجح شركات التكنولوجيا في التاريخ. يمكنك تطبيق هذه التقنيات في شركتك سواء كنت موظفًا أو قائدًا.
قم بتدوير العجلة
مراجعة العمليات الخاصة بـ AWS هي اجتماع أسبوعي مفتوح لجميع أعضاء الشركة. في كل اجتماع، يتم تدوير “عجلة الحظ” لاختيار خدمة AWS عشوائية من بين المئات للمراجعة المباشرة. يجب على الفريق الذي يتم مراجعته الإجابة عن أسئلة دقيقة من قادة العمليات ذوي الخبرة حول لوحات المعلومات والقياسات الخاصة بهم. يحضر الاجتماع مئات الموظفين وعشرات المديرين وعدد من نواب الرئيس.
هذا يحفز كل فريق للحفاظ على مستوى أساسي من الكفاءة التشغيلية. حتى إذا كانت احتمالية اختيار فريق معين منخفضة (في AWS أقل من 1%)، كمدير أو قائد تقني للفريق، لا تريد حقاً أن تبدو جاهلاً أمام نصف الشركة يوم نفاد حظك.
من المهم أن تقوم بمراجعة قياسات الموثوقية لديك بانتظام. القادة الذين يهتمون بنشاط بالصحة التشغيلية يحددون هذا النمط لكامل المنظمة. تدوير العجلة هو مجرد أداة واحدة لتحقيق ذلك.
لكن ماذا تفعل خلال هذه المراجعات التشغيلية؟ هذا يقودنا إلى النقطة التالية.
حدد أهداف موثوقية قابلة للقياس
You would like to have a ‘high up-time’ or ‘five nines’, but what does that really mean for your customers? The latency tolerance of live interactions (chat) is much lower than that of asynchronous workloads (training a machine learning model, uploading a video). Your goals should reflect what your customers care about. عليك أن تسعى لتحقيق “وقت تشغيل مرتفع” أو “خمسة تسعات”، لكن ماذا يعني ذلك حقاً لعملائك؟ تحمل التأخير في التفاعلات المباشرة (الدردشة) أقل بكثير مما هو عليه بالنسبة للأعمال غير المتزامنة (تدريب نموذج تعلم الآلة ، تحميل فيديو). يجب أن تعكس أهدافك ما يهتم به عملاؤك.
عند مراجعة قياسات فريق ما ، اطلب منهم وصف أهداف موثوقية قابلة للقياس . تأكد أنك تفهم – وأنهم يفهمون - لماذا تم اختيار تلك الأهداف . ثم اجعلهم يستخدمون لوحات المعلومات لإثبات تحقيق تلك الأهداف . سيساعد وجود أهداف قابلة للقياس في تحديد أولويات العمل المتعلق بالموثوقية بطريقة مدفوعة بالبيانات . p > < p > إنه لفكرة جيدة التركيز على اكتشاف المشكلات . إذا رأيت شذوذًا في لوحات معلوماتهم ، اطلب منهم شرح المشكلة ، ولكن أيضًا اسألهم عما إذا تم إبلاغ الشخص المناوب بالمشكلة . بشكل مثالي ، يجب عليك إدراك وجود خطأ ما قبل عملائك . p >
احتضان الفوضى
< p > واحدة من أكثر التحولات الثورية للعقلset in cloud resiliency هي مفهوم إدخال الفشل إلى الإنتاج . قامت Netflix بتشكيل هذا المفهوم كـ “هندسة الفوضى ” – والفكرة رائعة كما يوحي الاسم . p > < p > أرادت Netflix تحفيز مهندسيها لبناء نظم مقاومة للأخطاء دون اللجوء إلى الإدارة الدقيقة . وقد استنتجوا أنه إذا أصبح الفشل النظامي هو القاعدة بدلاً من الاستثناء ، فلا خيار أمام المهندسين سوى بناء نظم مقاومة للأخطاء . استغرق الأمر وقتا للوصول إلى هناك ، ولكن لدى Netflix يتم تعطيل أي شيء بدءا من الخوادم الفردية وصولا إلى مناطق التوفر بالكامل بشكل روتيني أثناء الإنتاج . ومن المتوقع أن تستوعب كل خدمة مثل هذه الإخفاقات تلقائيًا دون تأثير على توفر الخدمة . p > < p > تعتبر هذه الاستراتيجية مكلفة ومعقدة . لكن إذا كنت تشحن منتج حيث يعتبر وقت التشغيل العالي ضرورة مطلقة ، فإن إدخال الفشل أثناء الإنتاج يعد وسيلة فعالة جدًا للحصول على شيء يشبه “إثبات الصحة”. إذا كان منتجك يحتاج لذلك ، قدمه بأسرع ما يمكن ممكنً؛ فلن يكون الأمر أسهل أو أرخص مما هو عليه اليوم. p > < h 2 class = " wp-block-heading " id = " h-have-a-rigorous-post-mortem-process "> لديك عملية تشريح جثة صارمة < / h 2 > < p > تكشف عملية التشريح الجثماني لشركة الكثير عن ثقافتها . تتطلب كل شركة تكنولوجيا رائدة كتابة فرق لتشريحات جثمانيه للحوادث الهامة و ينبغي ان تصف التقرير الحادث واستكشاف أسبابه الجذر و تحديد الإجراءات الوقائية ويجب ان تكون التشريحات صارمة وتحمل معايير عالية ولكن العملية لا ينبغي أبدا ان تستهدف الأفراد لإلقاء اللوم عليهم ويجب ان تكون الكتابة التصحيحيه وليست عقابية فإذا ارتكب مهندس خطأ فهناك قضايا تحت سطح ذلك سمحت لهذا الخطأ بأن يحدث ربما تحتاج الى اختبار أفضل او حواجز أفضل حول الأنظمة الحرجة الخاصة بك احفر عميقا لتلك الثغرات النظاميه وقم بإصلاحها P > < P > تصميم عملية تشريح جثة قوية قد يكون موضوع مقال خاص به ولكنه آمن القول بأن وجود واحد سيقطع شوطا طويلا نحو منع التعطل التالي P >بينما قد يبدو هذا الاقتراح واضحاً إلا أنه سهل جداً التغاضي عنه
استكشفنا بعض الأدوات الأساسية التي تدمج الموثوقيات ضمن ثقافة شركتك عادةً لا تجعل الشركات الناشئة والشركات الصغيرة الأولوية للموثقين وهذا مفهوم تماماً حيث يتعين عليك التركيز بشغف لإظهار ملائمة المنتج للسوق لضمان البقاء ومع ذلك بمجرد حصولكم علي قاعدة عملاء متكررة يعتمد مستقبل شركتك علي الحفاظ علي الثقة يكسب البشر الثقة عبر كونهم موثقين نفس الشيء ينطبق علي خدمات الإنترنت
Aditiya Visweswaran هو مهندس برمجيات أول ضمن فريق منصة الأمن لـGoogle Cloud’s security platform team em >