💿
Data Engineering Study #29 レポート
はじめに
2025年4月24日に開催された「Data Engineering Study #29 今だから学びたいDatabricks徹底活用術」は、データブリックス・ジャパン株式会社の桑野さんをはじめ、Databricksを実際に活用しているエンジニアの皆さんをお招きし、レイクハウスアーキテクチャや具体的な活用事例を中心に、その最前線を深掘りする内容となりました。
本イベントはプライムナンバーとForkwellの共催で行われ、いつも以上に多彩な視点が集まりました。とりわけ、Databricksにまだ触れたことがない方やすでに導入しているが活用しきれていない方にとって、大いに刺激的な場になったのではないでしょうか。
ここでは、当日の全3セッション(+Q&A)を簡潔にレポートし、どんな知見が飛び出したのかを共有します。
セッション1
「Databricksで完全履修!オールインワンレイクハウスは実在した!」
登壇者: 桑野 章弘(@kuwa_tw) データブリックス・ジャパン株式会社 ソリューションアーキテクト
Databricksとは何か、レイクハウスは何か
最初に登場したのは、データブリックス・ジャパン株式会社の桑野さんです。 Databricksについて「オールインワン・レイクハウス」というキーワードを軸に、下記のポイントを丁寧に紹介しました。
レイクハウスアーキテクチャ データレイクの柔軟さ(構造・非構造データを一括管理)と、データウェアハウスの厳密なガバナンスと高パフォーマンスを両立する概念。 Databricksはこのレイクハウス手法を具現化し、あらゆるデータを1か所に集めて分析・MLを可能にする。
オールインワンの利点 ノートブックからワークフロー、BIダッシュボード、機械学習(MLflow)まで、データエンジニアリングとAI開発に必要な機能がそろっている。複数のサービスを連携させる手間が大幅に削減される。
Unity Catalog テーブルやファイルだけでなく、MLモデルやBIのリソースも一元管理するガバナンス基盤。データリネージ(カラム単位まで追跡)を自動化し、権限設定も集約できるため、複雑さを解消できる。
これからは「データ+AI」
桑野さんは、従来のデータ分析のみならず「AI開発やエージェント開発に強く使える」のがDatabricksの進化ポイントだと強調。 特に、Genei(G2)による自然言語クエリサポートや、AIビルダーを活用したエージェント作成が注目されています。 また、クラウドフレアワーカーズとの連携でエッジ環境を高速スケーラブルに扱うデモに触れ、ローカルでのセットアップも手軽だと解説。 「まずはすぐに試せる14日間のフリートライアルを使ってほしい」とのメッセージで締めくくりました。
セッション2
「人不足・時間不足を言い訳にせずDatabricksをうまく利用する」
登壇者: 星野 玲央奈(@reonah6) 株式会社SalesNow データエンジニア
少人数でも運用するDatabricks
2人目は、スタートアップでデータ基盤を担う星野さんが、Databricks運用で直面した課題と、その対策を共有。 エンジニア数が少ないスタートアップならではのリアルな話が詰まっていました。
メタデータ管理とAI時代
メタデータが散乱 社内のチャットやタスク管理ツールなどに、ビジネスメタデータやリファレンス情報が散らばっていた。
Unity Catalogのメタデータ テーブル/カラムのコメントやビジネスメタデータをそこに集約し、アクセス権管理も一元化。
AIが後押し 「AIアシストがあると、テーブルやカラムの説明文がないと精度が下がる」など、ビジネスメタデータが活きる場面が増え、社内の意識が高まりやすくなった。
金銭コストの可視化
カスタムタグを活用 クラスタやジョブに「プロジェクト」「オーナー」などのタグを付け、コンピュート利用量をプロジェクト別に分析可能に。
クラウドリソース知識も大切 ストレージのバージョニングやライフサイクル設定、ネットワーク周りはDatabricksだけで解決できない問題がある。結局はAWSやAzureなどのクラウド知識も不可欠だと実感。
星野さんは最後に「データエンジニアが地味なガバナンス構築やコスト管理に取り組むことが、組織全体の生産性を底上げする」とまとめました。
セッション3
「出版社こそデータドリブンに!Databricksで叶える集英社の未来を創るデータ活用術」
登壇者: 椋林 淳一(@mukku_analyst) 株式会社集英社 IT戦略企画部 データマネジメント室
集英社のデータ活用はここからが本番
3人目は「漫画雑誌のアンケート管理」や「収益性の高いIP分析」など、エンタメ業界らしい大規模データ活用に挑む椋林さんの事例。 多種多様なサービスやアプリ、データベースが乱立する中、Databricksを選んだ大きな理由が「構造化/非構造化をひとまとめに管理しやすいこと」だそうです。
漫画読者アンケートのダッシュボード化 各雑誌ごとにExcelで管理していた情報をDatabricks+BI基盤で集約し、誌面の人気動向を迅速に可視化。
全社IDで横断的データ活用 複数の漫画アプリやリアルイベントの情報を集めることを目指し、「全社LTV向上」を推進。
非構造データ(画像、コマ情報)の展望 キャラクターやコマ単位の情報を扱うことで、作品・キャラの魅力度や経済効果を“客観的”に評価し、次の出版戦略やメディア化戦略の足がかりにしたいと考えている。
「まだ道半ば」としつつも、一つ一つの雑誌・アプリのデータをDatabricksに取り込む作業を淡々と進めることで、今後はより大胆なデータドリブン施策を打っていくとのことです。
Q&Aまとめ
バキュームの頻度は? Delta Lakeの過去バージョンを掃除する
VACUUM
は、人によって毎回ワークフローごとに実施するケースや、手動でまとめて行うケースがあり、使い方次第。今後Databricksで自動化が進む可能性もある。AIアシストで英語生成しかない? 現在は英語ベースが多いが、翻訳のUIが追加されるなど改善が進んでいる。
非構造化データへの生成AI活用 椋林さんは「漫画コマの吹き出しやキャラ分析をしたい」というアイデアを挙げ、読者アンケートや購買データとも結合すれば、経済効果などの新たな指標が見えてくると期待。
全体を踏まえた感想
「レイクハウスの可能性を、もっと楽しもう」
今回のData Engineering Study #29では、Databricksの多機能ぶりや実践事例が示すように、「ただ1つの処理や分析をするだけではもったいない」という空気が強く感じられました。オールインワンのレイクハウスだからこそ、データ統合から機械学習、エージェント開発まで一貫して進められるのが醍醐味です。
登壇者3名はいずれも「まだ道半ば」と口にしつつ、彼らの話からは「もっとデータの幅を広げ、もっとAI活用の奥深さに挑戦したい」という熱量がひしひしと伝わりました。非構造化データへの生成AIの応用、複数サービスを横断したID連携、リネージやガバナンスの高度化など、やりたいことがどんどん浮かぶのはDatabricksの柔軟さが後押ししているからこそでしょう。
「レイクハウスアーキテクチャとAI、そしてオールインワンの開発環境」——この3つが合わさることで、今までは考えもしなかったデータの結びつきが可能になります。たとえば、出版社が漫画コマ単位で人気度を算出し、新たなメディア戦略を立案したり、スタートアップがわずかなリソースでガバナンスの整ったコスト管理を実現したり。さらに、音声や画像を含む非構造データをラフに取り込み、LLMと掛け合わせた新ビジネスに乗り出すことも現実的になってきました。
Databricksはまだまだ進化を続けるでしょうし、周辺のOSSやサードパーティ連携ツールも激変していくはずです。しかし、レイクハウスが提案する「すべてを1か所に集める」考え方は、データエンジニアリングとAIが急速に融合していく現代において、ますます存在感を増すことは間違いありません。本イベントの盛り上がりは、その未来への期待感の裏返しといえるでしょう。
次回以降のData Engineering Studyでは、また新しいデータ基盤の話題や実践者の知見が聞けるはずです。データドリブンとAIが密接に重なり合うこれからを、ぜひ一緒に楽しんでいきましょう。
Yardでは、テック領域に特化したスポット相談サービスを提供しています。
興味がある方は、初回の無料スポット相談をお申し込みください。
また、資料請求やお問い合わせもお待ちしております。テック領域の知見を獲得し、事業成長を一緒に実現していきましょう。
Read next
Loading recommendations...