লগ, মেট্রিক্স এবং ট্রেসের জন্য স্কেলে কী পর্যবেক্ষণযোগ্যতা কৌশল রয়েছে?

Question

Accepted Answer

পর্যবেক্ষণযোগ্যতা **তিনটি স্তম্ভের** উপর নির্ভর করে — **লগস**, **মেট্রিক্স**, এবং **ট্রেসেস** — এবং লক্ষ্য হল একটি এত বড় সিস্টেমের জন্য "কী ভুল এবং কেন" উত্তর দেওয়া যা হাতে-কলমে পরিদর্শন করা যায় না। স্কেলে, কৌশলটি সম্পর্ক, নমুনা এবং খরচ সম্পর্কে।

## তিনটি স্তম্ভ

| Pillar | উত্তর দেয় | টুলিং |
|---|---|---|
| Metrics | কোনো কিছু ভুল আছে? (rates, latency) | Prometheus, Grafana |
| Traces | প্রবাহে কোথায়? | OpenTelemetry, Jaeger |
| Logs | ঠিক কী ঘটেছে? | ELK, Loki |

```text
Metrics alert ─▶ trace pinpoints the slow service ─▶ logs explain the cause
   (broad)              (path)                          (detail)
```

## তাদের সম্পর্কিত করুন

ট্রেস/সম্পর্ক আইডি মেট্রিক্স লেবেল, লগ লাইন এবং স্প্যানের মধ্য দিয়ে যেতে হবে, যাতে আপনি তাদের মধ্যে পিভট করতে পারেন।

```text
log line:  level=error trace_id=abc123 service=payments msg="gateway timeout"
                       ^^^^^^^^^^^^^^^ same id appears in the trace + metrics
```

## স্কেল-এ উদ্বেগ

```text
✓ Standardize: OpenTelemetry across all services
✓ Use structured (JSON) logs — queryable, not grep-only
✓ Sample traces (e.g. keep all errors + 1% of success) to control cost
✓ Define SLOs and alert on symptoms (latency/error rate), not noise
✓ RED/USE method for dashboards (Rate, Errors, Duration)
```

## ত্রুটি

100% এ সবকিছু লগ করা সাশ্রয়ী নয় এবং সংকেত ডুবিয়ে দেয়। পরিবর্তে নমুনা, কাঠামো এবং SLOs এ সতর্ক করুন।

## কেন এটি গুরুত্বপূর্ণ

শত শত সেবা সহ, আপনি SSH করতে এবং দেখতে পারবেন না — পর্যবেক্ষণযোগ্যতা হল উৎপাদন আচরণ বোঝার একমাত্র উপায়।

জয়ী কৌশল সম্পর্কিত, নমুনাযুক্ত এবং SLO-চালিত: এটি টেলিমেট্রি সংরক্ষণে আপনাকে দেউলিয়া না করে এবং শব্দে অন-কল ডুবিয়ে না রেখে প্রকৃত সমস্যা দ্রুত নিয়ে আসে।

Metrics	কোনো কিছু ভুল আছে? (rates, latency)	Prometheus, Grafana
Traces	প্রবাহে কোথায়?	OpenTelemetry, Jaeger
Logs	ঠিক কী ঘটেছে?	ELK, Loki