DevOps/クラウド 可観測性/Lesson 04
クラウド + モニタリング — AWS · Prometheus · Grafana
45分·theory
クラウド + モニタリング — AWS · Prometheus · Grafana
🎯 このレッスンを読み終えたら
このレッスンをすべて読み終えると、以下の3つを自信を持って実践できるようになります。
- ▸✅ AWS / GCP / Azure のコアサービスのマッピング
- ▸✅ OpenTelemetry (Trace · Metrics · Logs) のセットアップ
- ▸✅ SLO/SLI/SLA + Prometheus + Grafana
学習目標をチェックリストとして手元に置き、すべてに答えられるようになったらレッスンを閉じてください。
AWS の主要サービス + クラウドの選び方
AWS (市場シェア1位、2006年〜):
クラウド比較:
コスト削減のヒント:
- ▸Reserved Instance / Savings Plan — 1年・3年契約 (~60% 割引)
- ▸Spot Instance — 中断可能 (~90% 割引) · バッチ処理
- ▸S3 Glacier — 過去データのアーカイブ (~$0.004/GB)
- ▸Auto Scaling — トラフィックに応じて自動スケール
- ▸CloudWatch Billing Alarm — 閾値超過時にアラート通知
可観測性 — Metrics · Logs · Traces
可観測性の3本柱:
Prometheus + Grafana (オープンソースの標準):
- ▸Prometheus = メトリクスの収集・保存 (プル方式)
- ▸Grafana = 可視化 (ダッシュボード)
- ▸Alertmanager = アラート通知 (Slack · PagerDuty)
4つのゴールデンシグナル (Google SRE):
1. Latency — レスポンスタイム (p50 · p95 · p99)
2. Traffic — リクエスト数 (QPS)
3. Errors — 5xx · 例外率
4. Saturation — CPU · メモリ · ディスク · DB接続数
SLO · SLI · SLA:
- ▸SLI (Indicator) — 測定可能な指標 (例: 可用性 %)
- ▸SLO (Objective) — 目標値 (例: 99.9% の可用性)
- ▸SLA (Agreement) — 契約 (違反時に補償が発生)
- ▸Error Budget — 100% - SLO。0.1% = 月間43分のダウンタイムが許容範囲
eBPFベースのツール (2024年以降のトレンド):
- ▸Cilium (ネットワーク)、Falco (セキュリティ)、Pixie (アプリ観測)
- ▸カーネル内で安全にコードを実行 → コードの変更不要
🤖 AI にこう依頼してみてください
このレッスンの概念を理解すれば、AI に具体的な指示ができるようになります。漠然とした「直して」ではなく、語彙を持ったリクエスト — それがトークン節約の出発点です。
- ▸「このアプリに OpenTelemetry の trace + metrics + logs をセットアップして」
- ▸「この SLO (可用性 99.9%) のモニタリングを Prometheus + Grafana で構成して」
なぜこれがトークンを削減するのか
概念を知らないまま AI の回答を受け取っても、「それは何ですか?」と再度質問しなければなりません。その「再質問」がトークンを消費します。概念を一度しっかり学んでおけば、会話が一度で完結します。
次のおすすめ: コラボレーション & Git