🤖
第13回 Data‑Centric AI勉強会 イベントレポート
Data‑Centric AI(以下DCAI)コミュニティが主催する勉強会は毎回濃密ですが、2025年2月12日に行われた第13回は格別でした。技術評論社『Data‑centric AI入門』の著者全員によるライトニングトーク(LT)が一堂に会し、「データに向き合うとはどういうことか」を多角的に示した90分――その熱量を余すところなくお届けします。
オープニング ―― “データから始めよう” の再確認
司会を務めた宮澤一之さん(GO株式会社)は、DCAIの基本概念をシンプルに整理してスタートしました。
モデル中心(モデルを磨く)とデータ中心(データを磨く)の対比
データ品質が与える影響――モデルが進歩した現在こそ、データを整えたチームが最後に笑う
コミュニティの役割 ―― 個人の経験に埋もれがちなノウハウを共有し、再利用できる知見に昇華する
わずか5分のイントロで参加者の視線を「モデル」から「データ」へ滑らかに切り替えた手腕はさすがでした。
LT ハイライト
1. 片岡裕雄さん
「発案に至るまで」
基盤モデル時代、データは“最後のフロンティア”
論文・OSSが飽和するモデル領域と比べ、データ領域はまだ無二のブルーオーシャン
書籍企画から出版までを駆け抜けた裏側――「読みたい著者を集めたら全員即答でOKだった」
2. 宮澤一之さん
「データの品質が低いと何が困るのか」
CIFAR‑10のラベルを20%誤混入するとエラー率が40%まで跳ね上がる実験を紹介
テストデータのラベルミスが“過適合モデル”を生む危険性を指摘
解決策: “テストデータこそ高コストで作る”という逆転発想
3. 齋藤邦章さん
「画像認識におけるDCAI」
コピー&ペースト拡張やMixupなど画像特化のデータ拡張を再整理
自己教師あり・半教師あり学習の最新潮流を紹介
アクティブラーニング(能動学習)で注目サンプルを賢く追加し、アノテーション費を1/5に抑制した事例
4. 清野舜さん
「テキストデータの収集と構築」
LLMに必要なトークン数は数兆規模。Wikipedia“700冊分”を超える――その現実的な集め方
Common Crawlからノイズを除く独自HTMLパーサーの重要性
成人向けやライセンス条文など“塩分強め”のデータを除去する実戦テクニック
5. 小林滉河さん
「LLMファインチューニングデータ」
インストラクションデータとプレファレンスデータの二本柱
良質・多様・難易度高め――三拍子揃ったデータが“お行儀の良いモデル”を育てる
GPT‑4で合成→人手で磨くハイブリッド生成が主流に
6. 河原塚健人さん
「ロボットにおけるDCAI」
RT‑1/2/Xなどロボティックストランスフォーマーの系譜
マニピュレータ、四脚、台車…身体性の多様さがロボット版DCAIの難所
スケッチやトラジェクトリによるデータ拡張で“物理世界のデータ不足”と格闘
7. 鈴木達哉さん
「DCAIの実践例」
タクシードライブレコーダー映像での脇見検知 ―― アクティブラーニング+評価再構築でPrecision 1.36倍
地図連携で希少道路標識を10倍効率で収集
ラベルミス検出にConfidence Learningを活用し、BaaSに最適投入
Q&A セッションで見えた“今後の論点”
質疑はSlidoに約40件。主なやり取りを抜粋します。
質問 | 回答ハイライト |
|---|---|
画像認識のデータ拡張はもう出尽くした? | 齋藤さん「大波は落ち着いたが、生成AIを絡めた“質的拡張”はまだ伸びしろがある」 |
能動学習は実応用で使われる? | 鈴木さん「小規模データでは効果が顕著。大量データ時代でも“ラベル単価”を下げる武器になる」 |
LLMのファインチューニングに必要な量は? | 小林さん「事前学習の千分の一が目安。インストラクション100万件=約10億トークンで十分手応え」 |
ロボット基盤モデルを自機に適用するには? | 河原塚さん「現状は追加ファインチューニング必須。ただし共通表現を持つモデルを育てれば移植コストは下がる」 |
回答者それぞれが自社/自研究のリアルを交えて語り、単なるテクニカルFAQに終わらない深みがありました。
まとめ ―― データが語り、コミュニティが聴く
今回のLT大会は“データを信じ、データと対話する”というメッセージを、多領域のエキスパートがリレー形式で証明した場でした。モデルの進化が一巡し、次の競争軸はデータの質と扱い方であることを改めて痛感します。
書籍『Data‑centric AI入門』は分野横断の知見を一冊に凝縮した貴重な手札ですが、真価は読後の行動に宿ります。アノテーションのやり方を変える、評価データを作り直す、能動学習を試してみる――今日聞いた小さなヒントを自分の現場で一つでも実践すれば、次に集まるときには新しいストーリーを持ち寄れるはずです。
“モデルを磨く前に、データの声を聴く。”このシンプルな指針が、2025年のAI開発を面白くする。そう確信させてくれた一夜でした。
Yardでは、AI・テック領域に特化したスポットコンサル サービスを提供しています。
興味がある方は、初回の無料スポットコンサルをお申し込みください。
また、資料請求やお問い合わせもお待ちしております。テック領域の知見を獲得し、事業成長を一緒に実現していきましょう。
Read next
Loading recommendations...
