🦈
JAWS-UG SRE支部 #11 レポート ~ちょっと遅いけど、SREにおけるre:Inventのお話しよ?~
公開
2025-03-30
更新
2025-03-30
文章量
約4169字
2025年3月18日、JAWS-UG SRE支部の第11回勉強会が目黒にて開催されました。今回のテーマは「ちょっと遅いけど、SREにおけるre:Inventのお話しよ?」で、やや時期は過ぎたものの、re:Invent 2024をSREの観点から振り返る濃い内容となりました。
AWSのソリューションアーキテクトによる特別セッションを中心に、運営メンバーや外部スピーカーのLTも交え、オブザーバビリティ、信頼性向上、そしてAWSならではのサービスアップデートが幅広く紹介されました。
以下、当日の各セッションを時系列に沿って振り返ります。
オープニング
まずはSRE支部の新体制が紹介されました。これまでの5人に加え、4名の新メンバーが運営に参加するとのことで、「より多様な視点でSREを盛り上げたい」という意気込みが伝わってきました。さらに、JAWS-UG自体の紹介や勉強会のお約束(ノーセル・ノージョブ、ポジティブな意見交換など)を確認。いつも通り和やかながら、運営の気配りを感じるスタートでした。
特別セッション:「Observability による高可用性最後の難関Gray Failureの突破と実践」
登壇者: 津郷 光明(アマゾンウェブサービスジャパン合同会社)
イベント冒頭のメインコンテンツとして、AWSのソリューションアーキテクトである津郷さんによるセッションが行われました。re:Invent 2024のStripe社セッションを参考に、**高可用性の壁「Gray Failure(グレー障害)」**をどう突破するか、そして観測(オブザーバビリティ)の重要性を中心に語られました。
Gray Failure(グレー障害)の定義 部分的・断続的に発生する問題で、従来の死活監視などでは捉えにくい。ディスクの高いレイテンシやノイジーネイバー問題など、ユーザ体験に悪影響を及ぼすが検知しづらい障害をどう観測し、対処すべきかが大きなテーマ。
Stripe社が目指す可用性 99.9999% 1ヶ月あたりのダウンタイムは13秒に相当するという驚異的な目標値を例に、可用性の極限を追求するためには 「まずはオブザーバビリティ」 が必須と強調。セルベースアーキテクチャやカオスエンジニアリングなども有効だが、最終的には観測がすべてを支える。
AWSで実現する観測 CloudWatchを軸にEBSのIOエラー、レイテンシ異常(Anomaly Detection)、そしてログ相関分析(Contributor Insights)などを組み合わせてグレー障害を見抜く事例を紹介。複数メトリックスを束ねる 「複合アラーム」 や機械学習によるアノマリ検知が有効とのこと。
まとめ 障害対策はアーキテクチャ強化やカオステストなど多岐にわたるが、あらゆる活動を支えるのは 「見えないと始まらない」→オブザーバビリティ という核心メッセージが印象的でした。「まずは小さな範囲から段階的に観測を整え、習熟度を上げることが大切」という助言は、会場からも深い共感を得ていました。
1. 「RDS関連のアップデートまとめ」
登壇者: これなが(SRE支部運営)
RDSにまつわる最新アップデート(2024年前後)を5点紹介。
CloudWatch Database Insights RDSやPerformance Insightsなど、データベース周辺の監視を一元化して見られる新ダッシュボード。スタンダードモードとアドバンスドモードがあり、後者ではログ連携なども可能とのこと。
RDS Blue/Green Deploymentでのストレージ縮小 RDSインスタンス再作成不要でストレージサイズを小さくできるように。コスト管理に便利。
Aurora Serverless V2の0キャパシティ化 利用していないときはコンピュートコストが0になるため、よりサーバレス的な運用が可能に。
Aurora DSI (Distributed SQL for PostgreSQL) NewSQLアーキテクチャを備えたAurora拡張で、ポストグレ互換を持ちながら大規模分散を実現。
Resource Access Managerプライベートリンク拡張 VPC間接続がシンプルになり、ネットワークコスト面でのメリットが期待できそう。
こうしたアップデートがさらにRDSのオブザーバビリティやコスト最適化を後押しするというまとめが印象的でした。
2. 「RCPと宣言型ポリシーについてのお話」
登壇者: たむら(SRE支部運営)
AWS Organizationsの新機能としてリリースされたリソースコントロールポリシー(RCP)と宣言型ポリシーの特徴を解説。
RCP (Resource Control Policy) リソースベースの制御が可能になり、組織内外からのリソースアクセスをまとめて縛れる。SCPのようにOUやアカウント単位で適用可能だが、管理アカウントには制限をかけられない点に注意。
宣言型ポリシー サービスごとに使用可否を一括で制御できる。将来的に新APIが追加されても自動でブロックできるなど、統制面でのメリットが大きい。 ただしサービスリンクロールもブロックされる可能性があるなど、適用には慎重さが必要。
「後から統制をかけると既存リソースに影響が及びやすいので、テスト環境→本番環境の順に適用するなど段階的導入が望ましい」とのアドバイスは、会場からも頷きが多かったです。
3. 「EKS Auto Mode をやりたい」
登壇者: Kaoru Oda(Voicy)
EKS運用の手間を大幅に減らせるとして注目されるEKS Auto Modeの特徴と制限を紹介。2025年時点ではまだ社内導入前だが、期待感を込めて考察。
ノード管理が自動化 ポッドの負荷に応じてノードを増減し、システムノードプール・汎用ノードプールを自動運用。AMの更新などセキュリティ上の管理も含めて、かなり楽になる。
制約もいくつか Windowsノード未対応やポッド単位のセキュリティグループ非対応、メジャーバージョンアップは手動など。「そもそもノードにSSHできないので従来のトラブルシュート手法が使えず不安もある」という声もあった。
「クラスター自体のメンテナンスが軽減できそうで検証したい」というまとめで、「実際使ってる人のリアル事例が欲しい!」というリクエストも印象的でした。
4. 「AWS で広がるオブザーバビリティの世界」
登壇者: 木村 健人 (AoTo)(Datadog Japan 合同会社)
AWSにおけるオブザーバビリティサービス進化を俯瞰しつつ、昨年のre:Inventアップデートを踏まえて「どんな夢が見られるのか」を熱く語りました。
クラウドウォッチ機能一覧を俯瞰 たとえばCloudWatch Logs、Metrics、Alarms、Application Insights、X-Rayなど、多彩な機能が統合されつつある。
昨年re:Inventのアップデート
リソース単位でのオペレーショナルトラブルシューティング機能
LogsとOpenSearchの連携強化
トレース分析の強化(構造化ログとして扱える) などにより「だいぶDatadogに似てきた!?」とユーモア交じりにコメント。
目指す姿 リソースマップを一目で把握し、異常な部分をダイレクトにログ・メトリクス・トレースへ飛んで関連付け調査する。これが「オブザーバビリティを極めるAWS世界観」ではないかと語り、会場を沸かせました。
「Datadogを含む外部ツールとの併用もありだが、クラウドウォッチが急速に高度化しており、シンプルな要件ならAWSだけで完結しそう」とのまとめが興味深かったです。
全体を踏まえた感想 〜SREを支えるオブザーバビリティと統制のこれから〜
今回のSRE支部勉強会では、re:Invent 2024の遅めのre:capとして、高い可用性とそのためのオブザーバビリティが大きなキーワードとなりました。Stripe社の「Gray Failure」対策事例やクラウドウォッチの急速な進化、EKSのオートモードなど、運用の自動化や観測を徹底する方向性があらためて確認できた印象です。
なかでも「観測(オブザーバビリティ)がまずなければ、SREとしての改善サイクルは回せない」という言葉が多くの参加者の心に残ったのではないでしょうか。障害を未然に防ぐにも、部分的な異常を見つけるにも、すべては見える化が出発点。統制面でも新たなポリシー機能が充実し、組織的にリソースやサービスを管理しやすい流れができつつあります。
終盤のLTでは、AWS上でのEKSやRDSのアップデートを素早く活かすコツや、データドッグ視点でのクラウドウォッチの変化など、多彩な視点が共有されました。SRE支部ならではの「運用者目線」が詰まったイベントであり、「次回はもう少し踏み込んだ事例を聞きたい」「EKSオートモードの実運用事例を探したい」などの声も上がり、コミュニティの熱気が続いています。
大盛況のうちに幕を閉じた本会ですが、今後もSRE支部は定期的に勉強会を開催予定とのこと。次回はアプリケーション開発視点からのデプロイやキューサービスの活用法などがテーマになるかもしれません。SREやAWSの運用に興味のある方は、ぜひコミュニティに参加し、実践的な知見を共有してみてください。
Yardでは、テック領域に特化したスポット相談サービスを提供しています。
興味がある方は、初回の無料スポット相談をお申し込みください。
また、資料請求やお問い合わせもお待ちしております。テック領域の知見を獲得し、事業成長を一緒に実現していきましょう。