Chaos Engineering
本番システムに意図的に障害を注入し、システムの回復力(レジリエンシー)を検証する実践手法。Netflixが提唱しChaos Monkeyで有名。「障害は必ず起きる」という前提のもと、弱点を事前に発見する。
Chaos Engineeringとは?
本番システムに意図的に障害を注入し、システムの回復力(レジリエンシー)を検証する実践手法。Netflixが提唱しChaos Monkeyで有名。「障害は必ず起きる」という前提のもと、弱点を事前に発見する。
Chaos Engineeringが重要な理由
DevOpsエンジニアにとって Chaos Engineering は現代のインフラ・開発運用において核心的な技術です。クラウドネイティブな環境では、この概念と実装スキルを持つことが標準的に求められるようになっています。
主要なポイント
- 自動化: Chaos Engineeringを活用することで、繰り返し作業をコード化・自動化できます
- スケーラビリティ: 大規模システムの運用・管理が効率化されます
- 信頼性: 人的ミスを減らし、一貫した品質を保つことができます
実務での活用場面
Chaos Engineeringは以下のような場面で使われます:
- CI/CDパイプラインの構築・改善
- インフラのコード化(IaC)
- コンテナ環境・クラウドサービスの管理
まとめ
Chaos Engineering は現代のDevOps・SRE業務に不可欠な技術です。各種ITツールも活用しながら、実践的なスキルを積み上げていきましょう。
関連用語
- SRE
- レジリエンシー
- 可用性
- 障害
関連する用語 (DevOps)
全58件を見るSLO
Service Level Objective(サービスレベル目標)の略。システムの可用性・応答時間などの目標値を定量的に設定したもの。SRE文化における運用品質の指標。例:月間稼働率99.9%。
Lambda
AWSのサーバーレス関数実行サービス(Function as a Service)。コードをアップロードするだけで実行環境を自動管理し、実行時間のみの課金。イベントドリブンな処理やAPIバックエンドに多用される。
Terraform
HashiCorpが開発するIaC(Infrastructure as Code)ツール。HCL(HashiCorp Configuration Language)でインフラをコードとして記述し、AWS・GCP・Azureなどのクラウドリソ
フィーチャーフラグ(機能フラグ)
コードのデプロイとは独立して機能のオン/オフを切り替えられる仕組み。段階的ロールアウト・A/Bテスト・カナリアリリース・緊急無効化をコードの再デプロイなしに実現する。
ECR
Amazon Elastic Container Registryの略。AWSが提供するフルマネージドなDockerコンテナレジストリ。ECSやEKSと密に統合されており、IAMポリシーでアクセス管理できる。
IT用語: カナリアリリースとは|一部ユーザーへ先行公開する安全なデプロイ手法
新バージョンを全ユーザーの5〜10%に先行公開し問題がなければ徐々に拡大するカナリアリリースの仕組みを解説。