เว็บไซต์ production ของคุณเพิ่งล่ม คุณจะจัดการอย่างไร?

Question

Accepted Answer

ความสำคัญอันดับแรกคือ **กู้คืนบริการ แล้วค่อยหาสาเหตุ** — การบรรเทาความเสียหายมาก่อนการวินิจฉัย ผมจะประกาศ incident มอบหมายบทบาทให้ชัดเจน และขับเคลื่อนไปสู่การกู้คืนที่ปลอดภัยและเร็วที่สุด พร้อมสื่อสารตลอดทาง

## ทำให้เสถียรก่อน

- **ประกาศ incident** และเปิดช่องทางเดียว (war room / Slack thread) เพื่อไม่ให้การประสานงานกระจัดกระจาย
- **มอบหมายบทบาท**: **Incident Commander** เพื่อตัดสินใจ **เจ้าของการสื่อสาร** เพื่ออัปเดต stakeholder และ **responder** เพื่อสืบสวน ในฐานะ Tech Lead ผมมักรับบทเป็น IC เพื่อให้วิศวกรโฟกัสที่ปัญหาได้
- **เอื้อมไปหาการแก้ที่ย้อนกลับได้และเร็วที่สุด** หาก deploy สัมพันธ์กับเหตุล่ม ให้ **rollback** ก่อนแล้วค่อยถามคำถามทีหลัง — การกู้คืนผู้ใช้สำคัญกว่าการเป็นฝ่ายถูก

## วินิจฉัยควบคู่กันไป

- ตรวจ **สัญญาณที่ชัดเจน**: dashboard, อัตรา error, deploy ล่าสุด, การเปลี่ยนแปลง infra, traffic พุ่ง, cert หมดอายุ
- ตั้งสมมติฐาน ทดสอบอันที่ถูกที่สุดก่อน และ **หลีกเลี่ยงการเปลี่ยนห้าอย่างพร้อมกัน** — คุณจะไม่รู้ว่าอะไรได้ผล

## สื่อสารอย่างต่อเนื่อง

ความเงียบก่อให้เกิดความตื่นตระหนก ผมส่งอัปเดตตามจังหวะที่สม่ำเสมอแม้ไม่มีข่าวใหม่:

```
[14:05] กำลังตรวจสอบ — checkout ล่ม ผู้ใช้ได้รับผลกระทบ ~40% อัปเดตครั้งถัดไป 14:20
[14:20] ระบุได้แล้ว: deploy เสีย กำลัง rollback ETA 10 นาที
[14:35] บริการกู้คืนแล้ว กำลัง monitor postmortem จะตามมา
```

## หลังการกู้คืน

- ยืนยันการกู้คืนเต็มที่ ไม่ใช่แค่ "ดูเหมือนจะดีขึ้น"
- ทำ **blameless postmortem** ภายในไม่กี่วัน: timeline, root cause, อะไรทำให้ตรวจจับ/แก้ได้ช้า และ **action item ที่เป็นรูปธรรมพร้อมเจ้าของ**
- ผลลัพธ์คือการปรับปรุงเชิงระบบ (alert ที่ดีขึ้น, guardrail, การ rollback อัตโนมัติ) — ไม่ใช่ชื่อคนที่จะถูกตำหนิ

## กับดัก

- **debug ก่อนบรรเทา** ในขณะที่ผู้ใช้กำลังเดือดร้อน
- **ไม่มีผู้ตัดสินใจคนเดียว** ทำให้ห้าคนเดาไปพร้อมกัน
- **เงียบหาย** ต่อ stakeholder
- **ตำหนิรายบุคคล** ซึ่งทำลายความซื่อสัตย์ที่ incident ในอนาคตต้องพึ่งพา

## ทำไมจึงสำคัญ

เหตุล่มเป็นสิ่งที่หลีกเลี่ยงไม่ได้ วิธีที่คุณจัดการมันต่างหากที่นิยามความไว้วางใจของทีมและความเชื่อมั่นของลูกค้า การประสานงานอย่างสงบตามบทบาทบวกกับการติดตามแบบ blameless เปลี่ยนวันเลวร้ายให้เป็นระบบที่แข็งแกร่งขึ้น — และส่งสัญญาณให้วิศวกรของคุณว่าปลอดภัยที่จะเคลื่อนที่เร็ว เพราะความล้มเหลวถูกจัดการเป็นกระบวนการ ไม่ใช่การล่าแม่มด