আপনার production ওয়েবসাইট এইমাত্র বন্ধ হয়ে গেছে। আপনি এটি কীভাবে সামলাবেন?

Question

Accepted Answer

প্রথম অগ্রাধিকার হলো **সেবা পুনরুদ্ধার, তারপর কারণ খোঁজা** — রোগনির্ণয়ের আগে প্রশমন। আমি একটি incident ঘোষণা করব, স্পষ্ট ভূমিকা নির্ধারণ করব, এবং দ্রুততম নিরাপদ পুনরুদ্ধারের দিকে এগিয়ে যাব, পুরো পথ জুড়ে যোগাযোগ রেখে।

## আগে স্থিতিশীল করুন

- **একটি incident ঘোষণা করুন** এবং একটি একক চ্যানেল (war room / Slack thread) খুলুন যাতে সমন্বয় ছড়িয়ে না পড়ে।
- **ভূমিকা নির্ধারণ করুন**: সিদ্ধান্ত নেওয়ার জন্য একজন **Incident Commander**, stakeholder-দের আপডেট দেওয়ার জন্য একজন **comms owner**, এবং তদন্তের জন্য **responder**-রা। Tech Lead হিসেবে আমি প্রায়ই IC-এর দায়িত্ব নিই যাতে ইঞ্জিনিয়াররা সমস্যায় মনোযোগ দিতে পারে।
- **দ্রুততম প্রত্যাবর্তনযোগ্য সমাধানের দিকে যান।** যদি কোনো deploy outage-এর সাথে সম্পর্কিত হয়, আগে **rollback** করুন, প্রশ্ন পরে করুন — ব্যবহারকারীদের পুনরুদ্ধার করা সঠিক হওয়ার চেয়ে গুরুত্বপূর্ণ।

## সমান্তরালে রোগনির্ণয়

- **স্পষ্ট সংকেত** পরীক্ষা করুন: dashboard, error rate, সাম্প্রতিক deploy, infra পরিবর্তন, traffic spike, মেয়াদোত্তীর্ণ cert।
- একটি অনুমান গড়ুন, সবচেয়ে সস্তাটি আগে পরীক্ষা করুন, এবং **একসাথে পাঁচটি জিনিস পরিবর্তন করা এড়িয়ে চলুন** — কোনটি কাজ করল তা আপনি জানবেন না।

## ক্রমাগত যোগাযোগ করুন

নীরবতা আতঙ্ক জন্ম দেয়। খবর না থাকলেও আমি একটি স্থির ছন্দে আপডেট পাঠাই:

```
[14:05] তদন্ত চলছে — checkout বন্ধ, ~৪০% ব্যবহারকারী প্রভাবিত। পরবর্তী আপডেট 14:20।
[14:20] চিহ্নিত: খারাপ deploy। এখনই rollback করছি। ETA ১০ মিনিট।
[14:35] সেবা পুনরুদ্ধার হয়েছে। মনিটরিং চলছে। postmortem আসবে।
```

## পুনরুদ্ধারের পরে

- শুধু "এটি ভালো দেখাচ্ছে" নয়, পূর্ণ পুনরুদ্ধার নিশ্চিত করুন।
- কয়েকদিনের মধ্যে একটি **blameless postmortem** চালান: timeline, root cause, কোন কারণে শনাক্ত/সমাধান ধীর হয়েছিল, এবং **মালিকসহ সুনির্দিষ্ট action item**।
- ফলাফল হলো সিস্টেমিক উন্নতি (ভালো alert, guardrail, rollback automation) — দোষ দেওয়ার মতো কোনো নাম নয়।

## ভুলত্রুটি

- ব্যবহারকারীরা ভোগান্তিতে থাকা অবস্থায় **প্রশমনের আগে debugging করা**।
- **একক সিদ্ধান্তগ্রহণকারী না থাকা**, ফলে পাঁচজন সমান্তরালে অনুমান করে।
- stakeholder-দের কাছ থেকে **যোগাযোগ বন্ধ করে দেওয়া**।
- **ব্যক্তিদের দোষারোপ করা**, যা ভবিষ্যৎ incident যে সততার ওপর নির্ভর করে তাকে হত্যা করে।

## এটি কেন গুরুত্বপূর্ণ

Outage অনিবার্য; আপনি সেগুলো কীভাবে সামলান তা দলের বিশ্বাস ও গ্রাহকের আস্থা নির্ধারণ করে। শান্ত, ভূমিকা-ভিত্তিক সমন্বয় এবং blameless ফলো-আপ একটি খারাপ দিনকে একটি শক্তিশালী সিস্টেমে রূপান্তরিত করে — এবং আপনার ইঞ্জিনিয়ারদের সংকেত দেয় যে দ্রুত এগোনো নিরাপদ, কারণ ব্যর্থতা একটি প্রক্রিয়া হিসেবে সামলানো হয়, ডাইনি-শিকার হিসেবে নয়।