🎚️
信頼性向上の第一歩!〜SLI/SLO策定までの取り組みと運用事例〜
公開
2025-04-14
更新
2025-04-14
文章量
約4384字

Yard 編集部
Yardの編集部が、テック業界の最新トレンドや知見について発信します。
はじめに
2025年3月21日、「信頼性向上の第一歩!〜SLI/SLO策定までの取り組みと運用事例〜」と題したオンラインイベントが開催されました。エンジニアリング組織やSREチームなどで「SLI/SLOを取り入れたいが、具体的な導入や組織内への浸透に悩んでいる」という声が増える中、4名の登壇者がそれぞれの事例を共有。 「いかに自社の開発文化に溶け込ませるか」「短期的成果が見えづらい中で、どうモチベーションを高めるか」など、現実的な苦労と工夫が語られ、SLI/SLO設定への実践的なヒントが得られるイベントとなりました。
本レポートでは、登壇者4名――BASE株式会社 tandenさん、シンプルフォーム株式会社 守屋さん、株式会社スリーシェイク nwiizoさん、株式会社ユーザベース 安藤さん――のセッション内容と、それぞれの取り組みのポイント、また最後のQ&Aで浮かび上がった論点についてまとめます。
1. BASE株式会社 / tandenさん
「SLI/SLOの設定を進めるその前に、アラート品質の改善に取り組んだ話」
tandenさんは、Eコマースプラットフォーム「BASE」を手がける企業でエンジニアリングマネージャーを務めています。長期的にはSLI/SLOを整備したいものの、すぐに短期的成果が見えづらい課題を踏まえ、まずはアラート品質の改善にフォーカスしたことが印象的でした。
背景
SLI/SLO導入にはビジネスチームや組織全体を巻き込む必要があり、時間と根気が必要
短期的に「この取り組みは成果が出る」と社内に示すために、先行してアラート品質改善を選択
具体的アプローチ
アラート通知チャンネルの統廃合
過去の組織体制の名残で、乱立していたチャット通知先を「大事度」「緊急度」などの軸で再編
結果、どれを見ればいいか混乱していた状況を改善し、運用コスト削減に成功
アラートが多すぎる問題への対処
狼少年化していたアラートをひたすら削減
1ヶ月ほどかけてセントリーなどのエラーを愚直に潰し込み、週1回の「エラー定例」で継続的に対応
エラー総数を大幅に減らし、今では週1ペースで安定的にエラー改善を回している
何をすればいいか分からない問題
対応手順書やRunbookを整備。アラートを受け取った人が迷わず対処できるよう情報を集約
アラート→Runbook→即座に行動、と分かりやすくした
成果
短期的に「アラート放置が減り、サービス品質が上がった」という形で周囲の信頼を獲得
結果としてSLOなどの長期的施策へも協力を得やすい体制が整った
「まずはアラート品質改善で組織の理解を得る」――このアプローチは、SLO策定を最終ゴールに据えつつ、短期的な成果を早期に出す好例として注目されました。
2. シンプルフォーム株式会社 / 守屋邦昭さん
「開発組織全体で意識するSLI/SLOを実装している話」
守屋さんが所属するシンプルフォームでは、「法人のリスク情報を収集・分析してレポートを提供する」SaaSを展開。金融機関などへの導入実績があることから、サービス信頼性への要求が高いそうです。
背景
社内には複数の開発チームが存在し、それぞれ異なる価値観や守備範囲を持つ
例えば「データ収集を自動化したいチーム」と「モバイルアプリの継続的リリースを急ぎたいチーム」では信頼性の捉え方が異なる
結果、どこまで守れば良いのかを共有しないと、チーム間で不満や衝突が起きがち
導入プロセス
SLI/SLO策定委員会を結成
CTOやSRE、各チームのエンジニア、さらにカスタマーサクセスなど「ユーザー目線」を持つメンバーも巻き込み
最初に大勢でブレストし、「みんなが思うサービス品質の論点」を洗い出す
最終的には絞り込む
ただし、意見を発散させるだけではなく、計測可能かどうか、何を目標にするのかを条件に設定
本質的すぎて計測が困難な指標も一部あり、そこは段階的に運用を目指している
組織全体のOKRに組み込む
定期的な会議でSLI/SLOをダッシュボード監視し、現状を把握→改善施策を提案
「単なるSREチームの取り組み」ではなく、会社全体の数値目標として設定
効果
共通の言語として「SLI/SLO」を使うことで、開発チーム間の連携やCSチームとの連携がスムーズに
結果的に「何を優先すべきか、どれくらい維持すべきか」の整理が進み、サービス品質向上に寄与
守屋さんは「外部公開をするわけではないが、組織内で共有するだけでも大きなメリットがある」と強調。チームごとの価値観ズレをSLI/SLOが補っている好事例といえるでしょう。
3. 株式会社スリーシェイク / nwiizoさん
「SLI/SLO・ラプソディ - あるいは組織への適用の旅」
nwiizoさんは、SREの技術導入において「技術的なベストプラクティスさえあればOK」というわけではなく、変化に対する組織的抵抗が大きい点を強調。「いかにその抵抗を理解し、段階的に乗り越えるか」が成功のカギだと語りました。
変化に対する4つの抵抗
惰性:今のやり方で問題ないのに、なぜ変える?
労力:新しい学習コストが高い、作業量が増えそう
感情:自分の専門性や立場が脅かされる不安
反発:押し付けられるのが嫌だ
組織の壁を越えるために
まずは「SLI/SLOがもたらす価値」を各部門視点で翻訳する
技術部門なら「運用負荷削減」、ビジネス部門なら「ユーザーへの信頼感向上」、経営層なら「リスク管理の指標化」など
関係者全体への粘り強い説明や、すぐに効果が出ないことへの理解が不可欠
長期的視点の重要性
SLI/SLOが本格的に効果を発揮するには半年〜1年ほどかかる場合も
短期的な取り組みだけでなく、継続的に運用・改善する文化を根付かせる必要がある
nwiizoさんは「まるでダイエットのように、SLI/SLO導入も一人では挫折しやすい。仲間を巻き込み、長い時間をかけて定着化すべき」と表現。組織的変革として位置づける大切さを訴えました。
4. 株式会社ユーザベース / 安藤 裕紀さん
「SREとしてSLI/SLOをどう普及してきたか、CTOとしてSLI/SLOをどう活用しているか」
安藤さんは、NewsPicksを運営するユーザベースにてSREリーダーからCTOへとキャリアを進めた経緯をもとに、SRE視点でのSLI/SLO普及と、その後のCTO視点での活用方法を語りました。
SREリーダー時代(3年間)
まずは単一のモノリスAPI全体にSLOを設定し、違反すれば「原因機能担当のチーム」にエスカレーション
しかし、当初はSLO違反があっても「すぐ機能開発を止めよう」にはならない
SREチームが“100本ノック”的に違反の原因を追い、関連チームへ共有→徐々に民主化を促進
3年かけて、全チームが自発的にSLOをモニタリングし、不足があれば担当チームが改善する文化が定着
CTOに就任後
経営層の一員として事業全体のリスク管理を担う立場に
SLI/SLOドキュメントが「正しい経営判断のための情報基盤」に
もしSLOがメンテされていないと、経営層がプロダクトリスクを正しく把握できない → 事業判断を誤る恐れ
よってSLO運用を“CTOからのエール”として全チームに強く働きかけ、経営上の指標として守らせる
安藤さんいわく「SLO運用は、CTOとして事業のリスクを把握するために欠かせないツール」なのだと強調。SREチームが根気よく仕組みを育んだ3年の成果が、今は経営レイヤーでも役立っているそうです。
Q&Aまとめ
最後のQ&Aセクションでは、いくつかの共通ポイントが話題に挙がりました。
「短期的な成果が出にくく、続けるのが大変。どう意義を訴求する?」
tandenさん「まずはアラート品質改善など、現場で即効性のある成果を出し、社内信頼を得る」
守屋さん「チーム間のズレを可視化できるだけでも大きなメリット。小さな成功体験を積み重ねる」
「技術的手法だけでなく、組織とどう折り合いつける?」
nwiizoさん「抵抗は自然な反応。4つのパターンを意識し、相手のメリットを丁寧に説明する」
安藤さん「組織が大きいほどSLOを守る意義を経営視点で示すことが重要」
「実際の導入で一番きつかった点は?」
各登壇者:「長期的にモチベーションが下がる、メンテナンスの手間」「導入初期に“今のままで困ってない”といわれる」など
実際には3年スパンで徐々に文化が根付いていった事例が多く、あせらず段階的に進める姿勢が大事
全体を踏まえた感想
「SLI/SLOを導入する」と一言でいっても、実際には技術面のみならず組織の習慣や長期的視点が求められる――そんな共通認識が4名の事例から浮き彫りになりました。
短期的成果の重要性 アラート改善のように、まずは誰もが実感できる効果を出して組織の信頼を得る。そこからSLOを段階的に広げていく流れが有効だと多くの登壇者が指摘。
コミュニケーションと文化づくり 結局、SLI/SLOはステークホルダーとの綿密な対話が不可欠。ビジネス部門や経営層との視点合わせ、そして開発チームへの“押し付け”にならない配慮など、ソフトスキル的な観点が大きなカギとなる。
長期戦への心構え 組織全体がSLI/SLOを理解し、活用できるようになるまでには半年から数年単位の取り組みが必要。途中で挫折しないよう、小さな成功体験やこまめなアピールを積み重ねることが継続のコツ。
今回の4名の事例は、多彩な業種・規模・組織文化においてSLI/SLOがどのように実装され、どんな壁に直面したかをリアルに示していました。 「長期的視点」「組織を巻き込む対話」「短期的効果も出せるスモールステップ」――これらを組み合わせることで、SLI/SLOによる信頼性向上の道筋を探るヒントとなったのではないでしょうか。 今後SREや開発チームが自社で挑戦する際、ぜひこのイベントの示唆を踏まえて、腰を据えた取り組みに挑んでみてください。
Yardでは、テック領域に特化したスポット相談サービスを提供しています。
興味がある方は、初回の無料スポット相談をお申し込みください。
また、資料請求やお問い合わせもお待ちしております。テック領域の知見を獲得し、事業成長を一緒に実現していきましょう。