আপনি কীভাবে একটি অ্যাপ্লিকেশনের জন্য স্ক্র্যাচ থেকে নিরীক্ষণ ডিজাইন করবেন?

Question

Accepted Answer

**ব্যবহারকারীরা কী অনুভব করে তার থেকে শুরু করুন**, অবকাঠামো থেকে নয়। সবচেয়ে নির্ভরযোগ্য হোস্ট ফ্লিট বেকার হয়ে যায় যদি অনুরোধগুলি ব্যর্থ হয়, তাই ব্যবহারকারী-মুখী **SLIs** দিয়ে শুরু করুন — **লেটেন্সি**, **ত্রুটির হার**, **উপলব্ধতা** — তারপর চার সোনালী সংকেত যোগ করুন, তারপর অবকাঠামো মেট্রিক্স শেষে।

## স্তরগত বিন্যাস, ব্যবহারকারী থেকে ভিতরের দিকে

```text
1. USER-FACING SLIs   → what the user experiences (latency, errors, availability)
2. GOLDEN SIGNALS     → latency, traffic, errors, saturation per service
3. INFRA METRICS      → CPU, memory, disk, network (causes, not symptoms)
```

যদি আপনি শুধুমাত্র CPU এবং ডিস্ক দেখেন (নীচ থেকে উপরে), আপনি সম্পূর্ণরূপে সবুজ থাকতে পারেন যখন ব্যবহারকারীরা 500s পান। প্রথমে SLIs দেখা (উপরে থেকে নীচে) মানে আপনি সতর্ক করেন **ব্যবহারকারীরা যা আসলে অনুভব করে**, তারপর সোনালী সংকেত এবং অবকাঠামোতে ড্রিল করুন কারণ খুঁজতে।

## পাইপলাইন: যন্ত্র → সংগ্রহ → ড্যাশবোর্ড → সতর্ক

```text
INSTRUMENT  app emits metrics/logs/traces (e.g. request_duration_seconds histogram)
   ↓
COLLECT     a TSDB scrapes/ingests them (Prometheus, Datadog agent)
   ↓
DASHBOARD   visualize SLIs + golden signals (Grafana) for humans to read
   ↓
ALERT       fire on SLO violations / burn rate, routed to on-call
```

## একটি সুনির্দিষ্ট শুরুর বিন্দু

```promql
# Availability SLI: fraction of requests that succeed
sum(rate(http_requests_total{status!~"5.."}[5m]))
  / sum(rate(http_requests_total[5m]))

# Latency SLI: p99 request latency
histogram_quantile(0.99, sum by (le) (rate(http_request_duration_seconds_bucket[5m])))
```

প্রতিটি SLI-তে একটি **SLO** সংজ্ঞায়িত করুন (যেমন 99.9% উপলব্ধতা, p99 < 300ms), সেগুলি ড্যাশবোর্ড করুন, এবং সতর্ক করুন যখন SLO ঝুঁকিতে থাকে — প্রতিটি দোলার উপর নয়।

## কেন এটি গুরুত্বপূর্ণ

নীচ থেকে উপরে নির্মিত নিরীক্ষণ আপনাকে বলে যে একটি ডিস্ক 80% পূর্ণ কিন্তু গ্রাহকরা চেকআউট করতে পারে না। ব্যবহারকারী-মুখী SLIs থেকে শুরু করা প্রতিটি ড্যাশবোর্ড এবং সতর্কতাকে আসল ব্যবহারকারীর প্রভাবের সাথে সংযুক্ত করে, শব্দ কম রাখে, এবং একটি স্পষ্ট ড্রিল-ডাউন পথ প্রদান করে (উপসর্গ → সোনালী সংকেত → অবকাঠামো কারণ) যখন কিছু ভেঙে যায়।