StrategyTec Consulting Recruitment ストラテジーテック・コンサルティング 採用サイト

戦略コンサルティングの知見を、テクノロジーで拡張し、
持続的なイノベーションを創出し続けます。

KNOWLEDGE

マルチモーダルAIとは? 複数データを統合処理する次世代AI技術と企業の導入事例

2025.09.30
  • #DX国内
テキストだけでなく、画像や音声など複数の情報を同時に理解・処理できるマルチモーダルAI。従来のAIを超える柔軟性で、ビジネスの可能性を広げています。本記事では、マルチモーダルAIの仕組みと企業における導入事例を紹介します。

マルチモーダルAIとは

マルチモーダルAIとは、種類の異なるデータをそれぞれ紐づけて学習するAIです。

文章や画像、音声、動画、センサーで取得した情報など、性質の異なるデータをまとめて学習し、関連付けて処理を行います。2つ以上のモダリティ(データの種類)を組み合わせて情報処理を行うことが名前の由来となっています。

反対に単一データを基に処理を行うAIをシングルモーダルAIと呼び、こちらは比較的単純な作業と相性が良いです。

マルチモーダルAIは、種類の異なる情報を組み合わせられるため、単一の情報よりも精度の高い分析や状況把握が行えます。

例えば、人が話している映像に音声データを組み合わせることで、雑談をしているのか口論しているのかが判断可能です。

AIがさらに高度な作業をこなせるようになるため、より汎用性の高いツールとして幅広い分野で活用されることが期待されています。

参照

代表的なマルチモーダルAI

マルチモーダルAIとして代表的なものを3つ紹介します。

いずれも有名なAIツールですが、どのような点がマルチモーダルなのかを知る上での参考にしてみてください。

ChatGPT

ChatGPTは、「ChatGPT-4o」以降のモデルでマルチモーダルな情報処理が可能になりました。

写真の内容を文章で入力された命令文に基づいて解析したり、画像ファイルやドキュメントなどを一度に読み込んで分析を行ったり、要点をまとめたりすることができます。

仕様書や図面、画像ファイル、打ち合わせの音声などを一度に読み込ませて提案書やFAQのドラフト作成にも活用可能です。

マルチモーダルな情報処理を行えるようになったため、さらに幅広い業務への活用が期待されています。

参照

Gemini

GeminiはGoogleが開発した生成AIです。

アプリやブラウザ上で利用する際に音声会話やドキュメントなどを組み合わせて分析や要点整理を行えます。

また、スマートフォンで利用できるGemini Liveは、カメラを起動中に呼び出し、音声で指示を出すと、写された画像を指示に従って分析したり、翻訳したりしてくれます。

他にも、「スポーツの試合の日程を調べてカレンダーアプリに保存して」と音声で指示をすると、指示に沿ってWeb検索を行い、カレンダーアプリに日程を保存することが可能です。

AIエージェントのように、複雑な指示を自律的に処理することもできます。

参照

Claude

ClaudeはAnthropic社が提供する生成AIです。「Claude3」からテキストに加え画像や音声も一括処理できるようになったため、マルチモーダルAIに分類されるようになりました。

最新版の「Claude3.7」では、画像やPDFファイルの読み取り機能が強化され、テキスト以外のファイルも命令文に基づいて高い精度で解析できるようになっています。

また、Claudeは他のAIと比較して長文の読み込みに強く、数十万トークン規模の入力に対応できるバージョンも提供されています。


そのため、契約書やRFPなど大量の文書を読み込み、横断的に要点をまとめるような場面で特に力を発揮するでしょう。

参照

マルチモーダルAIの活用事例

ここからはマルチモーダルAIの活用事例を5つ紹介します。
AIが様々なマルチモーダルな情報処理を行えるようになることで、ビジネスなどにどのような影響があるのか参考にしてみてください。

Aimeface(AIMESOFT)

カプセルホテルのナインアワーズ博多駅では、スマートチェックインシステムにマルチモーダルAIを搭載した「AimeFace」を取り入れたシステムが導入されました。

同ホテルのスマートチェックインシステムでは、AIによる顔認証とキャッシュレス決済の導入によって、フロント業務の自動化を実現しています。

「AimeFace」は、カメラ映像から顔をリアルタイムに検出・照合し、利用客が提示する身分証の写真と撮影した顔を比較して同一人物である確率(確信度)をシステム側に提供して本人確認(eKYC)と性別認識を行います。

また、「AimeFace」では顔認識以外にも音声処理や自然言語理解も可能なため、自然言語による指示を与えれば、認証用の顔登録を3秒で行うことも可能です。

参照

医療ビッグデータ解析用マルチモーダルAI(NEC・理化学研究所・日本医科大学)

NEC・理化学研究所・日本医科大学の3者は、電子カルテや画像解析情報、大学病院の医師による検証データなどをまとめて解析できるマルチモーダルAIを共同構築しました。

従来は単独の検査データしかAIで分析を行えなかったため、総合的な判断が難しいという課題がありました。

マルチモーダルAIによって複数の検査データを横断的に分析できるようになったことで、医療現場では疾病の予測・予防に向けた総合的な判断の精度が向上しています。

参照

自動運転技術(Turing)

チューリング株式会社は、完全自動運転の実現を目指してマルチモーダル生成AIの開発を進めています。

具体的には、画像認識モデルと大規模言語モデルを接続したマルチモーダルAI「Heron」と、物理法則などからリアルな運転状況の動画を生成する世界モデル「Terra」などを開発しています。

完全自動運転の実現が難しい理由の一つが「ロングテール」への対応です。例えば、道路の脇に立つ人が手を挙げたとき、それが交通整理員であれば指示に従う必要がありますが、タクシーを待つ人だった場合は特段気に掛ける必要はありません。

このような文脈を読み取る能力は、人間が実社会を生きる中で培ってきた常識や背景知識で構成されています。

同社では、画像を認識し言語化できるマルチモーダルな生成AIと1,500時間の運転データを学習した生成世界モデルなどを組み合わせて、人間のような深い知識と柔軟な判断力を持った完全自動運転の実現を目指しています。

参照

映像解析型AIエージェント(富士通)

富士通は、製造や物流の現場における作業を支援する映像解析型AIエージェントを開発しました。

熟練者の高齢化や人手不足が進む中で、生産性や品質を確保しつつ安心・安全な現場づくりを行うことが課題となっていました。

そこでマルチモーダルな映像解析型AIエージェントによる作業レポートの作成や改善提案を通して、人間の作業を支援しています。

AIエージェントは、作業指示や規則などの文章を学習し、その内容と現場に設置されたカメラ映像を紐づけて分析することで、従来のAIよりも映像理解能力を拡張できるようになりました。

規則と仮想空間上の状況を照らし合わせて、危険な状況が見つかれば「装置Aと装置Bを50cm離すことを推奨」などといった提案を行ってくれます。

参照

交通理解マルチモーダルAI(ソフトバンク)

ソフトバンクは、自動運転の遠隔サポートを行う交通理解マルチモーダルAIを開発し、実証実験を行いました。

従来は遠隔監視者が映像だけで複数車両を見守っていたため、危険の早期察知が難しいことが課題となっていました。

交通理解マルチモーダルAIでは、現在の交通状況や走行リスク、リスク対処のための推奨動作を生成し、自動運転車に指示を出して遠隔サポートを行います。

このAIには、交通教本や交通法規などの日本の交通知識と、一般的な走行シーンや予測が困難な走行状況におけるリスクとその対処法を学習させています。

自動運転車のドライブレコーダー映像などと、現在の交通状況を問うプロンプトを入力することで、安全走行のための推奨アクションの生成が可能です。同社は今後も自動運転の社会実装に向けてマルチモーダルAIの精度を高めていくとしています。

参照

まとめ

今回はマルチモーダルAIの概要や代表例を解説した上で、マルチモーダルAIの活用事例5選を紹介しました。

文章と映像など、複数の情報を組み合わせて処理できるマルチモーダルAIは、状況把握や多面的な分析などに活用できるため、医療や自動運転、危険予測など幅広い分野で用いられています。