SOA-1.2モニタリングと可用性のメトリクスに基づいて問題を修復する。

採点する

3問中 0問が回答されています

質問:

You have already completed the テスト before. Hence you can not start it again.

問題を読み込んでいます…

You must sign in or sign up to start the テスト.

まず、次の操作を完了する必要があります:

結果

採点中です。しばらくお待ちください。

結果

正解数 0/問題数3

回答にかかった時間:

回答お疲れ様でした。

カテゴリー

SOA-1.2モニタリングと可用性のメトリクスに基づいて問題を修復する。 0%

選択中
後で確認
回答済み
正解
不正解

質問 1 of 3

1. 質問

カテゴリ: SOA-1.2モニタリングと可用性のメトリクスに基づいて問題を修復する。
- 1
- 2
- 3
【SOA-35】EC サイトを運営する企業は、3 ノード構成 (cache.m5.large) の Amazon ElastiCache for Memcached クラスターを使用している。
CloudWatch の Evictions が 2,000/分を 30 分間超過するとアプリケーション遅延が発生するため、運用チームは
①キャッシュの命中率を維持しつつ
②手作業をなくし
③コストを必要最低限に抑えたい。
最も適切な対処方法はどれか。
- Evictions がしきい値を超えたら CloudWatch アラームで Amazon SNS を発行し、AWS Lambda を起動して ModifyCacheCluster API でノード数を 2 つ追加し、完了後に通知するワークフローを構築する
- CloudWatch アラームで Auto Scaling グループをトリガーし、EC2 上に Memcached を 2 台起動してクラスターに手動で追加する運用手順書を配布する
- Evictions に基づき同一ノード数で cache.r6g.large にリサイズするイベントブリッジルールを設定し、その後ピーク終了時に元のインスタンスサイズへ手動で戻す
- Evictions の急増を検知したら Systems Manager Automation で全ノードを再起動し、オプションでスワップ領域を拡張するランブックを実行する
正解

不正解

ヒントボタン

Evictions メトリクスが増えるのはメモリ不足によるキー追い出しですから、Amazon ElastiCache for Memcached ではノードを追加して水平スケールするとキャッシュ容量だけを伸ばせますし、CloudWatch アラームと Amazon SNS でしきい値越えを検知して AWS Lambda から ModifyCacheCluster API を呼び出す方式なら数分でクラスターにノードを組み込みつつアプリケーション側の DNS を変えずに遅延を抑えたまま処理できます。
インスタンスサイズを r6g.large などにリサイズするスケールアップは一時的なピークのために常時高い料金を払い続けるリスクがあり、さらに変更時は全ノードの再起動が伴うためキャッシュのウォームアップ期間が発生しますが、水平スケールアウトならピーク後に逆方向の CloudWatch アラームでノード削減も自動化できるので、手作業が不要で費用効率も高く保てます。
運用自動化、キャッシュ命中率維持、そして最低限コストという三つの要件を同時に満たす解は、ElastiCache のオンラインスケールアウト機能を EventBridge や SNS・Lambda などイベント駆動で制御し、必要なときだけ容量を増減させる構成が総合的に最も合理的だと判断できます。
質問 2 of 3

2. 質問

カテゴリ: SOA-1.2モニタリングと可用性のメトリクスに基づいて問題を修復する。
- 1
- 2
- 3
【SOA-36】広告配信APIを単一AZの m5.large EC2 (root EBS gp3 100 GB, パブリック固定IP) で24時間365日提供している。
サードパーティライセンスの都合でインスタンスID変更不可、Auto ScalingやマルチAZ配置は許容されない。
月間稼働率99.9%以上、想定ハードウェア障害時もRTO 2分・RPO 0 を満たしながら追加コストと運用負荷を最小化したい。
OS障害時には自動復旧し、復旧後はアプリケーションが systemd で自動起動する設計である。
現在はCloudWatchエージェントを導入済みで詳細メトリクスが収集されているが、追加のLambda開発や定期メンテナンス工数は避けたい。
要件を満たす構成はどれか。
- CloudWatchで StatusCheckFailed_System メトリクスの1分アラームを作成し、アクションにEC2リカバリを設定して同一インスタンスIDで別ホストへ自動移行させる
- 対象インスタンスを最小・最大1のAuto Scalingグループに登録し、ヘルスチェック失敗時に新規インスタンスを起動しElastic IPを再関連付ける
- CloudWatch AgentのCPUUtilizationが5％未満を2回検知したらEventBridgeでLambdaを呼び出し、stop-instancesとstart-instances APIを順に実行する
- Systems Manager AutomationドキュメントAWSSupport-ExecuteEC2Rescueを1分毎のEventBridgeスケジュールで実行し、OS修復不能時は手動で再作成する運用とする
正解

不正解

ヒントボタン

CloudWatch の StatusCheckFailed_System メトリクスに 1 分間隔のアラームを設定しアクションで EC2 Auto Recovery を選ぶと、ハイパーバイザ障害を検知した直後に同一 AZ 内の健全ホストへインスタンスを移行できます。EBS ルートボリュームや Elastic IP、ライセンスに紐づくインスタンス ID は保持され、systemd による自動起動でアプリも即時復帰するため RTO 2 分・RPO 0・稼働率 99.9% を追加コストなく達成できます。

Auto Scaling グループに最小最大 1 台で組み込む方法は、ヘルスチェック失敗時に既存 EC2 を Terminate して新規 m5.large を Launch するためインスタンス ID が変わります。Elastic IP の再関連付けには Lambda や EventBridge の運用が伴い、復旧が数分を超えるとライセンス制約や RTO 2 分要件を満たしにくくなります。コストと手間を抑えながら ID 固定を維持する観点でこの挙動を整理しておきましょう。

Systems Manager Automation や CPUUtilization を使った stop/start スクリプトはハードウェア障害を即時検知しづらく誤動作の恐れもあり、RTO 約 2 分の保証や Lambda・EventBridge の保守コストが課題になります。単一 AZ、インスタンス ID 固定、追加コスト最小という複数要件を満たすには、CloudWatch アラームと EC2 自動復旧で EBS と Elastic IP を維持し 99.9% 稼働と RPO 0 を同時に実現する構成が総合的に最適と判断できます。
質問 3 of 3

3. 質問

カテゴリ: SOA-1.2モニタリングと可用性のメトリクスに基づいて問題を修復する。
- 1
- 2
- 3
【SOA-37】動画配信企業A社は、東京リージョンで Auto Scaling グループを用いて Web サーバー (t3.medium) 3 台を 24 時間運用している。
18:00〜23:00 JST は同時接続が 5 倍に増え、開始直後 15 分間は CPU 使用率が 80% を超え SLA を逸脱する。
現在は CPU>60% のステップスケーリングのみだが、運用負荷を増やさずに 18:00 直前には 10 台へ、23:10 には自動で 3 台へ戻したい。
最も適切な対応はどれか。
- EventBridge の cron ルールで毎日 17:55 と 23:10 に Lambda を起動し、UpdateAutoScalingGroup API で DesiredCapacity を 10 台と 3 台に変更する
- Auto Scaling グループに 17:55 と 23:10 の cron 式を指定したスケジュールされたスケーリングアクションを追加し、それぞれ Min/Desired/Max を 10/10/15 と 1/3/15 に設定する
- Predictive Scaling ポリシーを有効化し、需要予測から 18:00〜23:00 の CPU 使用率上昇を学習させ、ウォームアップ時間を 300 秒に設定する
- オンデマンドキャパシティ不足を防ぐためにリザーブドインスタンスを 10 台分購入し、既存のステップスケーリングのみを継続運用する
正解

不正解

ヒントボタン

日次で 18 時に視聴者が急増するなら、Auto Scaling のスケジュールされたスケーリングを使い、cron 式で 17:55 に Min と Desired を 10 台へ設定して事前に t3.medium をウォームアップさせると CloudWatch の CPU アラームを待たずにピークを迎えられます。cron は UTC 指定なので JST との差を考慮し 08:55 を入力し、ステップスケーリングとの干渉を避けて安定的に余裕キャパシティを確保しましょう。

運用負荷を増やさないという条件を満たすには EventBridge や Lambda を新規導入せず、Auto Scaling グループ自身のスケジュールアクションで DesiredCapacity を変更するのが最小構成です。CLI やコンソールで一度 cron を登録するだけで IAM ロールや関数エラー監視の手間が消え、さらに MaxSize を 15 台程度に広げておけば想定外スパイク時にステップスケーリングが連動し、コストと可用性のバランスを取れます。

Predictive Scaling は EC2 や Application Auto Scaling の履歴を機械学習で予測しますが、数日分のデータ学習が必要で 15 分間だけ跳ね上がる負荷を正確に当てるとは限りません。今回は 18:00 と 23:10 という明確なビジネスルールがあるため cron ベースで Min/Desired/Max を宣言する方がシンプルかつ確実です。需要パターンが読める場面では、複雑なアルゴリズムより組み込みの時間指定機能で台数を固定化するという総合判断が最適と言えます。

SOA-1.2モニタリングと可用性のメトリクスに基づいて問題を修復する。

SOA-1.2モニタリングと可用性のメトリクスに基づいて問題を修復する。

採点する

インフォメーション

結果

結果

カテゴリー

1. 質問

ヒントボタン

2. 質問

ヒントボタン

3. 質問

ヒントボタン

改善リクエスト