💻
第14回 Data‑Centric AI 勉強会 イベントレポート
はじめに ― データを主役にする夜
6 月 11 日、オンラインで開催された 第14回 Data‑Centric AI 勉強会 は「データがモデルを押し上げる」という思想を再確認させてくれる濃密な90分でした。 登壇したのは medimo の須賀幹太さん・尾原颯さん、そして TIER IV の太田力さん。いずれも実サービスで “データ一筋” の道を歩むエンジニアです。主催の宮沢さん(GO Inc.)は冒頭で「モデル中心のノウハウは飽和しつつある。だからこそ現場の泥臭いデータ改善を共有したい」と力を込めました。
医療現場に寄り添う音声認識――medimo の挑戦
プロダクトと課題
medimo は、診察室で録音した音声からカルテ原稿を生成する SaaS です。400 施設超で稼働し、毎日の診察データが雪だるま式に増えています。 しかし 医療特化 を謳う以上、汎用音声モデルではカバーしきれない医学用語・環境ノイズへの対応が必須です。社内検証では汎用 OSS モデルに対し CER は並ぶものの医療用語リコールが約 72 %。医師の目線には届きません。
アノテーション改革 4 ステップ
スプレッドシート+S3手作業でファイルを聴き、セルに文字を書き写す“原始時代”。
Amazon SageMaker Ground Truth 導入音声再生と文字編集が同画面に統合され、「作業時間が体感で半減」。ただしジョブ発行に Python スクリプトが必要で、非エンジニアを苦しめました。
外注アノテーション数千件規模のデータを一気に捌くも、指示書作成・品質チェック・請求処理がボトルネックに。
完全内製&自動化パイプライン
Slack で CSV をアップすると Lambda が ステップファンクション を回しジョブ生成
一次アノテーションは一般ワーカー、二次は医療従事者がダブルチェック
終了検知→モデル学習→評価データ反映までノータッチ
結果、アノテーション総工数は 約 50 % 削減。最新モデルでは CER・医療用語リコールとも外部 API を上回る 数値を達成しました。
次の一手
学習後評価〜本番デプロイまでの全自動化
モデルが苦手な症例を優先抽出する データ選定ロジック
診療科/クリニック単位での パーソナライズモデル
自動運転を走らせるデータ基盤――TIER IV の現場
走行データは 1.6 PB、時間にして 1.6 万時間
自動運転 OSS「Autoware」を主軸に事業を展開する TIER IV では、日本各地で走る車両から ロスバッグ+メトリクス+運行メモ を収集しています。 ロギングはイベント駆動型。CPU 使用率やオーバーライド、システムエラーなど 20 種類弱のトリガ を定義し、異常前後のみを転送して容量を圧縮。それでも日々テラバイト級が上がってきます。
検索できなければ宝の持ち腐れ
Kinesis → Lambda → OpenSearch Serverless に送る ETL をフルサーバレス構築
ロスバッグは VLM(Amazon Bedrock)でタグ付けし、「横断歩道上に歩行者」「50 km/h 以上で接近する対向車」 など自然言語検索を実現
社内コンソールではサムネイルとプレイバック動画で素早く目視確認
データセット生成“工場”
TIER IV 拡張版 T4 フォーマット への変換は 3 ステージ。
前処理:ライダー点群を 5 基結合、カメラの露光タイムスタンプ補正
アノテーション:外部ツールと API 連携、自動でアップ・完了検知
後処理:シミュレーション用トピック抽出・動画生成
ユーザーが Yaml で設定を投げるだけで、学習用(1 Hz 全オブジェクト)・シミュレーション評価用(目的オブジェクトのみ)など 複数目的のデータセットが自動組立 されます。
MLOps――“モデル単体”では終わらない評価
ML パイプライン/社外 GPU/社内 GPU の三系統で学習
モデルは レジストリ に集約し、自動運転ソフトウェアと組み合わせて CICD へ
レベル4 認可試験を想定した クラウドシミュレーション+実機 HIL で安全評価
合格したモデルはファームウェアイメージに焼き込み OTA 配信
Q&A で深掘り ― 参加者の“ここが知りたい”
質問 | 回答ポイント |
---|---|
VLM タグ付けの精度は? | 社内ベンチマークで一定リコールを確認。検索用途のためフォルスポジティブは許容範囲に収まるよう監視 |
ロギングトリガは何種類? | エラー・オーバーライド・ミニマムリスクマニューバなど 約 20 種類 。取り過ぎを防ぐため頻発イベントは除外 |
病院固有の用語は? | 診療科ごとの差は大きいが病院間差は小さめ。辞書登録と診療科別モデリングで対応予定 |
登壇者がスライド上で リアルタイムにログ画面や YAML を示しながら答える スタイルは、コミュニティならではの臨場感でした。
コミュニティが可視化した「非コード資産」の価値
本勉強会は モデルを固定しデータを磨く という思想のもと、医療と自動運転という高リスク領域での実践例を並べて見せてくれました。共通していたのは――
データ収集・選定・QA の自動化 に惜しみなく投資する
専門家の介入ポイント(医師のダブルチェック、セーフティドライバーの走行メモ)を仕組みに埋め込む
改善サイクルを “計測→研磨→再計測” で高速回転させる
モデルのアーキテクチャやハイパーパラメータの巧拙より、こうした 非コード資産 がプロダクト価値を左右する段階に来ていることを、二社の事例は雄弁に物語っていました。
まとめ ― データが回り続ける組織へ
筆者の感想
データセントリック AI は “きれいなデータを集めよう” というスローガンに留まりません。 ジョブ発行をワンクリックにする UI、エラーを自動検知するトリガ設計、モデルとソフトを一体配信する安全設計――その一つひとつが 「データが自走する環境」 を形づくります。
今回の勉強会は、ツール選定やクラウドアーキテクチャの話よりも、その背景にある 文化と習慣のチューニング の重さを浮き彫りにしました。
「データを磨けばモデルは伸びる」――当たり前の標語を、医療と自動運転という厳しい現場が説得力で裏打ちした夜でした。
次回の Data‑Centric AI 勉強会が、あなたのチームにとって “データが回り続ける組織” への一歩となることを願っています。
Yardでは、AI・テック領域に特化したスポットコンサル サービスを提供しています。
興味がある方は、初回の無料スポットコンサルをお申し込みください。
また、資料請求やお問い合わせもお待ちしております。テック領域の知見を獲得し、事業成長を一緒に実現していきましょう。
Read next
Loading recommendations...