প্রথম অগ্রাধিকার হলো সেবা পুনরুদ্ধার, তারপর কারণ খোঁজা — রোগনির্ণয়ের আগে প্রশমন। আমি একটি incident ঘোষণা করব, স্পষ্ট ভূমিকা নির্ধারণ করব, এবং দ্রুততম নিরাপদ পুনরুদ্ধারের দিকে এগিয়ে যাব, পুরো পথ জুড়ে যোগাযোগ রেখে।
প্রথম অগ্রাধিকার হলো সেবা পুনরুদ্ধার, তারপর কারণ খোঁজা — রোগনির্ণয়ের আগে প্রশমন। আমি একটি incident ঘোষণা করব, স্পষ্ট ভূমিকা নির্ধারণ করব, এবং দ্রুততম নিরাপদ পুনরুদ্ধারের দিকে এগিয়ে যাব, পুরো পথ জুড়ে যোগাযোগ রেখে।
নীরবতা আতঙ্ক জন্ম দেয়। খবর না থাকলেও আমি একটি স্থির ছন্দে আপডেট পাঠাই:
[14:05] তদন্ত চলছে — checkout বন্ধ, ~৪০% ব্যবহারকারী প্রভাবিত। পরবর্তী আপডেট 14:20।
[14:20] চিহ্নিত: খারাপ deploy। এখনই rollback করছি। ETA ১০ মিনিট।
[14:35] সেবা পুনরুদ্ধার হয়েছে। মনিটরিং চলছে। postmortem আসবে।
Outage অনিবার্য; আপনি সেগুলো কীভাবে সামলান তা দলের বিশ্বাস ও গ্রাহকের আস্থা নির্ধারণ করে। শান্ত, ভূমিকা-ভিত্তিক সমন্বয় এবং blameless ফলো-আপ একটি খারাপ দিনকে একটি শক্তিশালী সিস্টেমে রূপান্তরিত করে — এবং আপনার ইঞ্জিনিয়ারদের সংকেত দেয় যে দ্রুত এগোনো নিরাপদ, কারণ ব্যর্থতা একটি প্রক্রিয়া হিসেবে সামলানো হয়, ডাইনি-শিকার হিসেবে নয়।