পর্যবেক্ষণযোগ্যতা তিনটি স্তম্ভের উপর নির্ভর করে — লগস, মেট্রিক্স, এবং ট্রেসেস — এবং লক্ষ্য হল একটি এত বড় সিস্টেমের জন্য "কী ভুল এবং কেন" উত্তর দেওয়া যা হাতে-কলমে পরিদর্শন করা যায় না। স্কেলে, কৌশলটি সম্পর্ক, নমুনা এবং খরচ সম্পর্কে।
পর্যবেক্ষণযোগ্যতা তিনটি স্তম্ভের উপর নির্ভর করে — লগস, মেট্রিক্স, এবং ট্রেসেস — এবং লক্ষ্য হল একটি এত বড় সিস্টেমের জন্য "কী ভুল এবং কেন" উত্তর দেওয়া যা হাতে-কলমে পরিদর্শন করা যায় না। স্কেলে, কৌশলটি সম্পর্ক, নমুনা এবং খরচ সম্পর্কে।
| Pillar | উত্তর দেয় | টুলিং |
|---|
| Metrics | কোনো কিছু ভুল আছে? (rates, latency) | Prometheus, Grafana |
| Traces | প্রবাহে কোথায়? | OpenTelemetry, Jaeger |
| Logs | ঠিক কী ঘটেছে? | ELK, Loki |
Metrics alert ─▶ trace pinpoints the slow service ─▶ logs explain the cause
(broad) (path) (detail)
ট্রেস/সম্পর্ক আইডি মেট্রিক্স লেবেল, লগ লাইন এবং স্প্যানের মধ্য দিয়ে যেতে হবে, যাতে আপনি তাদের মধ্যে পিভট করতে পারেন।
log line: level=error trace_id=abc123 service=payments msg="gateway timeout"
^^^^^^^^^^^^^^^ same id appears in the trace + metrics
✓ Standardize: OpenTelemetry across all services
✓ Use structured (JSON) logs — queryable, not grep-only
✓ Sample traces (e.g. keep all errors + 1% of success) to control cost
✓ Define SLOs and alert on symptoms (latency/error rate), not noise
✓ RED/USE method for dashboards (Rate, Errors, Duration)
100% এ সবকিছু লগ করা সাশ্রয়ী নয় এবং সংকেত ডুবিয়ে দেয়। পরিবর্তে নমুনা, কাঠামো এবং SLOs এ সতর্ক করুন।
শত শত সেবা সহ, আপনি SSH করতে এবং দেখতে পারবেন না — পর্যবেক্ষণযোগ্যতা হল উৎপাদন আচরণ বোঝার একমাত্র উপায়।
জয়ী কৌশল সম্পর্কিত, নমুনাযুক্ত এবং SLO-চালিত: এটি টেলিমেট্রি সংরক্ষণে আপনাকে দেউলিয়া না করে এবং শব্দে অন-কল ডুবিয়ে না রেখে প্রকৃত সমস্যা দ্রুত নিয়ে আসে।