அবজர்வেबिलिटी என்றால் என்ன மற்றும் சिस्टम்ற்റ் ডிজाইনில் அது ஏன் முக்கியமாக உள்ளது?

Question

Accepted Answer

**Observability** என்பது ஒரு சிஸ்டேமின் உள் நிலையை அதன் வெளிப்புற வெளிப்பাடுகள் மூலம் புரிந்துகொள்ளும் திறமை — **logs**, **metrics**, மற்றும் **traces**-ன் மூலம். இது சிஸ்டேம்களை இயக்க, பிழைதிருத்த, மற்றும் பராமரிக்க அவசியம் (குறிப்பாக விநியோகிக்கப்பட்ட சிஸ்டேம்களில்), நீங்கள் என்ன பார்க்க முடியாதவற்றை நிர்வகிக்க முடியாது.

## Observability-ன் மூன்று நெடுவரிசைகள்

```text
LOGS → timestamped records of events (what happened) → detailed, for debugging specific issues
METRICS → numerical measurements over time (CPU, latency, request rate, error rate) →
  aggregate health/performance; dashboards; alerting
TRACES → follow a request's path through the system (across services) → understand flows,
  find bottlenecks/failures in DISTRIBUTED systems (which service was slow?)
→ together: understand WHAT happened, the OVERALL state, and the PATH of requests.
```

## Observability ஏன் முக்கியமாக உள்ளது

```text
✓ You can't operate/debug what you can't SEE → essential for understanding system behavior
✓ DETECT problems → metrics + alerting catch issues (before/as users hit them)
✓ DEBUG → logs and traces find root causes (especially in distributed systems where a
  request crosses many services — hard to debug without tracing)
✓ UNDERSTAND performance → find bottlenecks, optimize
✓ Maintain RELIABILITY → observability enables fast detection and resolution (lower MTTR)
```

## Observability மற்றும் monitoring

```text
MONITORING → watching KNOWN metrics/conditions (predefined dashboards, alerts) → "is it
  working?"
OBSERVABILITY → ability to ASK NEW questions / explore the unknown → "WHY is it behaving
  this way?" (debug novel/unexpected issues)
→ observability is broader → understand system behavior, including unforeseen problems
✓ practices: structured logging, distributed tracing (OpenTelemetry), good metrics, alerting
```

## ஏன் இது முக்கியமாக உள்ளது

Observability-ஐ புரிந்துகொள்ளுதல் முக்கியமான மூத்த-நிலை அறிவாக உள்ளது, ஏனெனில் **சிஸ்டேம்களை இயக்குதல் மற்றும் பராமரிக்குதல் அவற்றின் நடத்தையை புரிந்துகொள்வதை கோருகிறது**, மற்றும் observability இதற்கு அவசியம் (குறிப்பாக விநியோகிக்கப்பட்ட சிஸ்டேம்களில்), எனவே இது இயக்கக்கூடிய சிஸ்டேம்கள் ডிజাইன் செய்வதের ஒரு முக்கியமான அம்சமாக உள்ளது.

Observability — ஒரு சிஸ்டேமின் உள் நிலையை அதன் வெளிப்புற வெளிப்பாடுகள் மூலம் புரிந்துகொள்ளுதல் — முக்கியமாக உள்ளது, ஏனெனில் **நீங்கள் பார்க்க முடியாதவற்றை நிர்வகிக்க, இயக்க, அல்லது பிழைதிருத்த முடியாது**, இது சிஸ்டேம்களை நம்பகமாக இயக்குவதற்கு முக்கியமாக மாற்றுகிறது.

**மூன்று நெடுவரிசைகளை** புரிந்துகொள்ளுதல் — **logs** (விস்தாரிত பிழைதிருத்தலுக்கான ஈவண்ட் பதிவுகள்), **metrics** (மொத்த ஆரோக்கியம், டாஷ்போர்டுகள், மற்றும் alerting-க்கான எண்ணியல் அளவீடுகள்), மற்றும் **traces** (சேவைகள் முழுவதும் ஒரு கோரிக்கையின் பாதையைப் பின்தொடர்ந்து) — மற்றும் அவை ஒன்றாகமாக நீங்கள் என்ன நடந்தது, மொத்த நிலை, மற்றும் கோரிக்கை ஓட்டங்கள் என்பதை புரிந்துகொள்ள அனுமதிக்கும் விதம் என்பது அடிப்படை அறிவாக உள்ளது. **Traces** விநியோகிக்கப்பட்ட சிஸ்டேம்களில் குறிப்பாக முக்கியமாக உள்ளது, அங்கு ஒரு கோரிக்கை பல சேவைகளை கடந்து செல்கிறது மற்றும் பிழைதிருத்தல் பாதையை கண்டுபிடிக்க குறிப்பாக எந்த சேவை மெதுவாக அல்லது தோல்வியுற்றது என்பதை தெரிய வேண்டியிருக்கிறது.

**ஏன் observability முக்கியமாக உள்ளது** என்பதை புரிந்துகொள்ளுதல் — சிஸ்டேம்களை இயக்க மற்றும் பிழைதிருத்த அவசியம், சிக்கல்களை கண்டறிதல் (metrics மற்றும் alerting சிக்கல்களைப் பிடிப்பது), வேர் காரணம் பிழைதிருத்தல் (logs மற்றும் traces, குறிப்பாக விநியோகிக்கப்பட்ட சிஸ்டேம்களில்), செயல்திறனைப் புரிந்துகொள்ளுதல், மற்றும் வேகமான கண்டறிதல் மற்றும் தீர்வு செய்தல் (நம்பகத்தன்மைக்கான குறைந்த MTTR) — அதன் முக்கியமான இயக்க பாத்திரத்தை தெளிவுபடுத்துகிறது.

**Observability vs monitoring** ஐ புரிந்துகொள்ளுதல் — monitoring அறிந்த நிபந்தனைகளை பார்ப்பது ("இது வேலை செய்கிறதா?") எதிரான observability புதிய கேள்விகளைக் கேட்க மற்றும் அறிந்திலாமவற்றை ஆராய்ந்து ("இது ஏன் இப்படி நடந்துகொண்டிருக்கிறது?", புதிய சிக்கல்களை பிழைதிருத்தல்) — சிக்கலான சிஸ்டேம்களுக்கு முக்கியமான, அপ்படிக்கப்படாத சிக்கல்களை புரிந்துகொள்ள முடிந்த இருக்கும் என்ற গভீர ধারணையை பிரதிபலிக்கிறது.

Observability-ஐ மனதில் கொண்டு சிஸ்டேம்களை ডிজாइன் செய்தல் (structured logging, distributed tracing, நல்ல metrics, alerting) இயக்கக்கூடிய, பராமரிக்கக்கூடிய சிஸ்டேம்களுக்கு அவசியமாக உள்ளது.

சிஸ்டேம்களை இயக்குதல் மற்றும் பராமரிக்குதல் அவற்றின் நடத்தையை புரிந்துகொள்வது கோருகிறது என்பதாலும் observability (logs, metrics, traces) இதற்கு அவசியம் — குறிப்பாக விநியோகிக்கப்பட்ட சிஸ்டேம்களில் அங்கு இதுவிலாமல் பிழைதிருத்தல் கடினமாக உள்ளது — மற்றும் இது சிக்கல்களை வேகமாக கண்டறிய, பிழைதிருத்த, மற்றும் தீர்க்க உதவுகிறது, observability-ஐ புரிந்துகொள்ளுதல் முக்கியமான மூத்த-நிலை அறிவாக உள்ளது — சிஸ்டேம்களை நம்பகமாக இயக்க மற்றும் பராமரிக்க அவசியம், இயக்கக்கூடிய சிஸ்டேம்களை ডிজாइன் செய்வதின் ஒரு முக்கியமான அம்சம் (குறிப்பாக விநியோகிக்கப்பட்ட சிஸ்டேம்களில் அங்கு tracing முக்கியமாக உள்ளது), மற்றும் உற்பத்தியில் புரிந்து, பிழைதிருத்த, மற்றும் நம்பகமாக வைக்கப்பட வேண்டிய சிஸ்டேம்களை ডிজாइன் செய்யும் மூத்த பாத்திரங்களுக்கு என்பேக்ஷன் செய்யும் இயக்க முதிர்ப்பை பிரதிபலிக்கிறது.