Yard 編集部

🏗️

深堀り！現場のSRE 〜いろんなアーキテクチャ編〜　イベントレポート

Insight

Site Reliability Engineering (SRE)——その言葉が示す領域は、あまりにも広く、そして深い。サービスの数だけアーキテクチャがあり、組織の数だけ文化がある。教科書通りの「正解」など、どこにも存在しない。では、現場のSREたちは、自らが向き合うシステムとビジネスの固有の課題に対し、どのような「最適解」を導き出しているのでしょうか。

2025年7月23日、Repro、SODA、そしてMIXI（家族アルバムみてね）という、全く異なるドメインで戦う3社のSREが集結し、自社のアーキテクチャの裏側を語るイベントが開催されました。

BtoCのマーケティングプラットフォーム、CtoCのファッションマーケットプレイス、そして世界2500万人が利用する家族向け写真共有サービス。それぞれの現場で磨き上げられた「秘伝のタレ」から見えてきたのは、SREが単なるインフラ運用に留まらない、ビジネスと組織に深く根差した、創造的な営みであるという事実でした。

『Railsの限界を超えろ！「家族アルバムみてね」の画像・動画の大規模アップロードを支えるアーキテクチャ』

株式会社MIXI（家族アルバムみてね） / ojima_h氏

最初のセッションは、サービス開始から10年、全世界で2500万人が利用する「みてね」が、その膨大な画像・動画データをいかにして捌いてきたかという、壮大なアーキテクチャ変遷の物語でした。SREの小島氏が語ったのは、サービスの成長と共に訪れる課題と、その時々のトレードオフの中で下されてきた意思決定のリアルです。

第一の壁：海外展開と、Railsからの解放

リリース当初、みてねのアーキテクチャは非常にシンプルでした。クライアントからアップロードされたメディアファイルを、一度Railsサーバーで受け止め、S3に保存する。しかし、2017年の海外展開を機に、この構成は限界を迎えます。海外から日本のサーバーへの大容量アップロードは、あまりにも不安定で時間がかかりすぎたのです。

「解決策は、AWSのポテンシャルを最大限に活用することでした。クライアントから直接S3にアップロードさせることで、地理的な最適化を実現したのです」 —— ojima_h氏

RailsからS3の署名付きURLを発行し、クライアントは最寄りのAWSエンドポイントを経由して直接S3にアップロード。完了通知を受けたLambdaがサムネイル生成などの後続処理を行う。このアーキテクチャ変更により、みてねはグローバルなスケーラビリティを手に入れました。しかし、その代償として**「複雑性」**という新たな課題を抱えることになります。開発環境の構築は困難になり、運用難易度も上がりました。

第二の壁：4年間放置された「野良Lambda」と、原点回帰

S3への直接アップロード方式は、4年もの間、安定して稼働し続けました。しかし、安定は時として「停滞」を生みます。メインのRailsアプリケーションから分離されたLambda関数は、開発のサイクルから取り残され、気づけばランタイムのEOL（サポート終了）が目前に迫っていました。

「コア機能であるにも関わらず、誰も手を入れられない『聖域』になってしまっていた。この課題を解決するため、私たちはLambdaを廃止し、再び処理をRailsに統合するという決断をしました」

S3からのイベント通知をSQSで受け、Railsアプリケーションに組み込まれたジョブワーカ（Shoryuken）が非同期で処理を行う。この「原点回帰」とも言える構成変更により、アップロード処理は再びRailsの統一された開発・運用フローの管理下に戻りました。サーバーレスのメリットを一部手放すことにはなりましたが、**「開発体験」と「保守性」**という、長期的な信頼性を担保するための重要な価値を取り戻したのです。

このセッションが示したのは、SREの仕事が、常に最新の技術を追い求めることだけではないという事実です。サービスの歴史、組織のスキルセット、そして事業のフェーズ。それら全ての文脈を読み解き、時には「退化」に見える選択をすることも厭わない。その柔軟な思考こそが、10年続くサービスを支えるSREの神髄なのかもしれません。

『GitHub Self-hostedに移行しました。CIが最大55%速くになり、コスト9割ダウン！』

株式会社SODA / DANG MINH DUC氏

次に登壇したSODAのDUC氏が投げかけたのは、多くの開発組織が密かに頭を悩ませているであろう、**「CI/CDのコスト」**という、極めて現実的な課題でした。

「ある月の請求を確認した時、私たちは驚きました。GitHub Actionsの費用が、本番環境のFargateのインフラ費用を超えていたのです。ピーク時には月額2万ドルに達することもありました」 —— DANG MINH DUC氏

月間600万人が利用する「スニーカーダンク」を支えるSODAでは、CI/CDの実行回数が膨大になり、GitHubホステッドランナーの費用が経営を圧迫するほどの問題となっていました。コストだけでなく、ディスク容量の制限なども、開発のボトルネックになりつつありました。

この課題に対する彼らの答えは、GitHub Actionsのランナーを、AWS上のセルフホスト環境へ移行することでした。

9割のコスト削減を達成した、現実的な道のり

彼らが採用したのは、OSSとして公開されているTerraformモジュール（philips-labs/terraform-aws-github-runner）。これを活用し、EC2のスポットインスタンス上でCIジョブを実行する仕組みを構築しました。しかし、その道のりは平坦ではありませんでした。

課題1：高額なNAT Gateway

当初、ランナーをプライベートサブネットに配置したため、外部との通信で高額なNAT Gateway費用が発生。AMIをカスタマイズし、DockerイメージをECRにキャッシュするなどの工夫で、外部へのトラフィックを劇的に削減しました。

課題2：スポットインスタンスの中断

スポットインスタンスは安価な反面、いつ中断されるか分かりません。EC2 Fleetの獲得戦略を、価格優先のlowest-priceからキャパシティ優先のcapacity-optimizedに変更することで、中断率を約4〜5倍改善しました。

課題3：ジョブの詰まり

GitHubとの通信障害などでジョブが詰まってしまう問題に対し、15分以上詰まっているジョブを自動でキャンセル＆リトライするワークフローを構築。

これらの地道な改善の末に彼らが手にした成果は、驚異的なものでした。GitHubホステッドランナーを利用した場合と比較して、コストは実に90%以上削減。さらに、S3キャッシュの活用などにより、CIの実行時間も最大55%高速化されたと言います。

DUC氏の発表は、SREの活動が、単にシステムの安定性を守るだけでなく、開発者体験の向上と、ビジネスのコスト効率に直接的に貢献できることを、具体的な数字と共に力強く証明してくれました。

『"SRE チーム" の存在しない組織における SREing』

Repro株式会社 / 今利仁 (temama)氏

イベントの最後を飾ったのは、Reproの今氏による、組織論に深く踏み込んだセッションでした。大量のイベントデータをリアルタイムに処理するReproには、驚くべきことに**「SRE」という名前の専任チームが存在しません**。では、彼らはどのようにしてSREプラクティスを実践しているのでしょうか。

「私たちの組織では、SREは『名詞（チーム名）』ではなく、『動詞（SREing）』として存在します。Platformチームが、各FeatureチームがSREを実践できるよう『イネーブリング（支援）』する。それが私たちのスタイルです」 —— 今利仁 (temama)氏

Reproの開発組織は、顧客に価値を届ける複数の「Featureチーム」と、その基盤を支える「Platformチーム」に分かれています。そして、各機能コンポーネントのアラート対応やSLOの運用責任は、それを作成したFeatureチーム自身が負います。

この**「You build it, you own it」**を徹底した体制の中で、Platformチームは、FeatureチームがSREプラクティスを円滑に導入・運用できるよう、以下の4つのステップで支援を行っていると言います。

合意形成: まず、四半期のロードマップに「SLOを導入する」といったSRE施策を明記し、全チームの合意を得る。これにより、「よくわからない仕事が降ってきた」という反発を防ぎます。
担当者を決める: Platformチーム内で、その施策を推進する「担当者」をアサイン。彼らはSREのスペシャリストである必要はなく、その特定のプラクティスに関する知識を深め、伝道師となります。
主導して取り組む: 担当者が主導し、Featureチームと共に実践する。勉強会を開いて知識を共有し、具体的なToDoまで落とし込み、ゴールを明確にします。
振り返りと改善: 導入後も、定期的な振り返りの場を設け、施策が本当に役立っているか、負担が大きすぎないかを確認し、継続的に改善していきます。

このアプローチは、SREを一部の専門家の仕事にせず、組織全体の文化として根付かせるための、非常に現実的で優れたモデルです。SREチームの立ち上げに悩む多くの組織にとって、これ以上ないほどのヒントが詰まったセッションでした。

アーキテクチャは、組織とビジネスを映す鏡

「深堀り！現場のSRE」。3社の三者三様の発表を通して、私たちが改めて確信したのは、SREに銀の弾丸はない、ということでした。

みてねが選んだのは、10年の歴史とグローバルなスケールを支えるための、トレードオフを許容する進化し続けるアーキテクチャ。 SODAが選んだのは、ビジネスの成長とコスト効率を両立させるための、徹底的に無駄を削ぎ落とした実践的なアーキテクチャ。そしてReproが選んだのは、チームの自律性を最大化し、文化として信頼性を醸成するための、組織と一体化したアーキテクチャ。

彼らが設計し、運用しているアーキテクチャは、それぞれのサービスが持つ特性、ビジネスが置かれた状況、そして組織の文化そのものを、ありのままに映し出す鏡のようでした。

SREの仕事とは、ただインフラを構築することではない。自らが向き合うビジネスと組織を深く理解し、その文脈の中で、信頼性という終わりのない問いに対して、最適解を模索し続ける、知的な探求の旅なのです。その旅路の一端を垣間見ることができた、刺激的な一夜でした。

Yardでは、AI・テック領域に特化したスポットコンサルサービスを提供しています。

興味がある方は、初回の無料スポットコンサルをお申し込みください。

また、資料請求やお問い合わせもお待ちしております。テック領域の知見を獲得し、事業成長を一緒に実現していきましょう。

Yardについてもっと知りたい方へ

詳細なご説明やご相談をご希望の場合は、以下フォームよりお気軽にお問い合わせください

Yard 編集部

Yardの編集部が、テック業界の最新トレンドや知見について発信します。

フォロー

深堀り！現場のSRE 〜いろんなアーキテクチャ編〜 イベントレポート

『Railsの限界を超えろ！「家族アルバム みてね」の画像・動画の 大規模アップロードを支えるアーキテクチャ』

第一の壁：海外展開と、Railsからの解放

第二の壁：4年間放置された「野良Lambda」と、原点回帰

『GitHub Self-hostedに移行しました。CIが最大55%速くになり、コスト9割ダウン！』

9割のコスト削減を達成した、現実的な道のり

『"SRE チーム" の存在しない組織における SREing』

アーキテクチャは、組織とビジネスを映す鏡

Yard 編集部

Yardの編集部が、テック業界の最新トレンドや知見について発信します。

Read next

深堀り！現場のSRE 〜いろんなアーキテクチャ編〜　イベントレポート

『Railsの限界を超えろ！「家族アルバムみてね」の画像・動画の大規模アップロードを支えるアーキテクチャ』