フレーキーテスト（Flaky Tests）とは何か、どう対処するか？

Question

Accepted Answer

**フレーキーテスト**は、コード変更なしに**不安定に合格したり失敗したりするテスト**です。同じコードでも時には合格し、時には失敗します。テストスイート全体への信頼を損なうため、深刻な問題です。その原因と修正方法を理解することが重要です。

## フレーキーテストとは何か、なぜ有害か

```text
A FLAKY test gives INCONSISTENT results (pass sometimes, fail other times) on the SAME code:
  → harmful: ERODES TRUST — people start ignoring failures ("oh, it's just flaky") →
    real failures get missed too
  → waste time on false alarms / re-runs; break CI; reduce confidence in the whole suite
→ Flaky tests are worse than no test if they make people distrust all tests.
```

## 一般的な原因

```text
✗ TIMING / async → race conditions; not waiting properly for async operations (a top cause
  in UI/E2E tests); arbitrary sleeps
✗ ORDER DEPENDENCE → tests depending on each other / shared mutable state
✗ EXTERNAL dependencies → real network/services (network blips, rate limits, downtime)
✗ NON-DETERMINISM → time/dates, randomness, timezone, locale
✗ Test ENVIRONMENT → leftover state, uncleaned data, concurrency/parallelism issues
```

## フレーキーテストの修正と管理

```text
✓ Fix the ROOT CAUSE: wait for conditions (not sleeps); make tests INDEPENDENT and clean
  up state; MOCK external dependencies; control time/randomness (inject them)
✓ Ensure proper isolation (no shared state, no order dependence)
✓ Don't just RETRY blindly (it hides the problem) — investigate and fix
✓ QUARANTINE persistently flaky tests (isolate so they don't block) WHILE fixing them
✓ Treat flakiness seriously — track and address it (it degrades the whole suite)
```

## なぜ重要なのか

フレーキーテストとその対処方法を理解することが重要である理由は、**フレーキーテストは一般的で深刻な問題であり、テストスイート全体の価値を損なうものであるため**、実用的で有意義な知識です。

フレーキーテスト（同じコード上で不安定に合格または失敗する）は特に有害です。なぜなら**信頼を損なう**ためです。テストが予測不可能に失敗すると、人々はテスト失敗を無視し始めます（「ただのフレーキーだ」）。そのため**本当の失敗も見逃される**ようになります。つまり、不安定性はスイート全体への信頼を低下させ、場合によっては何もないより悪い状況になる可能性があります。

この害を理解することは、フレーキー性に真摯に向き合う動機付けになります。

**一般的な原因**を理解することは重要です。**タイミング・非同期の問題**（競合状態、非同期操作の適切な待機不足、任意のスリープ — 特にUI/E2Eテストで一般的な原因）、**実行順序への依存**（テスト同士の依存関係や共有状態）、**外部依存**（実ネットワーク・サービスの不安定性やダウンタイム）、**非決定性**（時間、ランダム性、タイムゾーン、ロケール）、**環境の問題**（残存状態、並行実行）。これらはフレーキー性を診断するために必要です。

**修正と管理方法**を理解することは重要です。根本原因の修正（スリープの代わりに条件を待機する、テストを独立させてきれいにする、外部依存をモック化する、時間とランダム性を制御する）、隔離の確保、**盲目的な再試行をしない**（問題を隠すだけ）、永続的にフレーキーなテストを分離しながら修正する、フレーキー性を追跡・対処すべき深刻な問題として扱う — これは正しいアプローチを反映しています。

フレーキーテストは一般的で深刻な問題（多くの実プロジェクトで実際に起きている）であり、テストスイートへの信頼と価値を損なうものであり、その原因と適切な対処法（根本原因の修正、隔離、単なる再試行ではない）を理解することがテストスイートの信頼性と信頼を維持するために必要です。したがって、フレーキーテストの理解は有用で実用的に重要な知識です — 実世界の重要なテスト問題に対処し、テストスイートの信頼性と信頼を維持するために重要であり、テストにおける最も厄介で有害な問題の1つに対処する実務的な成熟度を反映しています。