頭の中の映像に字幕がつく日　ーNTTの脳解読技術『マインド・キャプショニング』とは

2025年11月23日 2026年2月6日

susumoooon

頭の中の映像に“字幕”がつく日：NTTの脳解読技術『マインド・キャプショニング』とは

1．はじめに：ついに「頭の中に字幕」の世界が見えてきた

映画やアニメで、登場人物の心の声に字幕がつくシーンがあります。
今回NTTが発表した「マインド・キャプショニング（Mind captioning）」という技術は、まさにそれに近いことを、現実の科学でやろうとしている研究です。

言葉をしゃべらなくても、

・今、何を見ているのか
・過去に見たシーンを思い出したとき、頭の中で何をイメージしているのか

といった「頭の中の映像」を、脳の活動から読み取り、文章として出力する。
そんな技術が、2025年11月17日にNTTから発表されました。NTT

この成果は、アメリカの科学誌「Science Advances」に論文として掲載され、世界中の科学メディアや一般メディアで「Mind captioning」として紹介されています。サイエンス・オーガニゼーション+2Nature+2

2．NTTが発表した「マインド・キャプショニング」とは何か

NTTのニュースリリースによると、この技術は次のようなものです。NTT

・脳情報解読技術と、言語AIモデル（大規模言語モデル）を組み合わせる
・人が「見た」映像や「思い浮かべた」映像の視覚的な内容を、脳活動から読み取る
・その内容に対応するテキスト（文章）を生成する

ここで重要なのは、「言語野（ことばを処理する脳の領域）」ではなく、「視覚に関わる領域」の活動から情報を取り出している点です。
つまり、「頭の中でことばにして考えている内容」ではなく、「映像としてイメージしている内容」を、AIを使って文章に翻訳している、という位置づけです。NTT+2Neuroscience News+2

NTTは、この技術を「言葉を使わずに考えを伝える新たなコミュニケーション手段を開拓するもの」と説明しています。NTT

3．どうやって「頭の中」を文章にしているのか

3-1．脳の中身をのぞく装置：fMRI

この研究で使われているのは、「機能的MRI（fMRI）」という装置です。
大きな筒の中に人が入り、脳のどの部分がどのタイミングで活動しているかを、時間的な変化も含めて測定できる技術です。Neuroscience News+1

3-2．実験の流れ（動画を見る場合）

論文やニュースサイトの説明を総合すると、代表的な実験は次のような流れです。メディカルエクスプレス+3PMC+3Neuroscience News+3

1．被験者（実験に参加する人）に、たくさんの短い動画を見てもらう
　・動画には、さまざまな物体、風景、動き、出来事などが映っている
　・ある報道では、6人の被験者に2,196本の短い動画を見せながらfMRIで脳活動を記録したと説明されていますメディカルエクスプレス

2．動画を見ている間の脳活動データを集める
　・特に、視覚に関わる領域の活動パターンを詳しく記録する

3．この脳活動データから、「意味の特徴ベクトル」を推定する
　・「意味の特徴ベクトル」とは、言語AIモデルが内部で扱っている「意味の座標」のようなもの
　・論文では、深層言語モデルが持つ意味空間と、脳活動のパターンを対応づける処理が行われていますPMC+1

4．推定した意味ベクトルをもとに、言語AIモデルに文章を生成させる
　・最初は単語レベルの断片的なものから始まり、少しずつ意味が整った文章になるように、繰り返し最適化されていく手法が使われていますPMC+1

この結果、「人間がその動画について書いた説明」と、AIが脳活動から生成した説明文との間の意味的な類似度が高くなることが示されています。PMC+2Neuroscience News+2

3-3．「思い出している映像」も文章化できる

さらに、この研究では、「過去に見た動画を思い出しているとき」の脳活動からも、文章を生成できることが報告されています。NTT+2Neuroscience News+2

つまり、

・実際に映像を見ているとき
・映像を頭の中で再生しているとき

どちらの場合でも、視覚に関わる脳領域の活動を手がかりに、意味のある説明文を作れることが示された、という形です。

4．どこまでできて、どこから先はまだなのか

4-1．「それっぽい文章」を作るところまで来ている

科学誌やニュースサイトの説明を整理すると、現時点で言えるのは次のようなレベルです。Scientific American+3Nature+3PMC+3

・生成される文章は、「人間が書いた説明文」と意味的にかなり近い
・どの動画を見ているか、どの映像を思い出しているかを、生成された文章だけから識別できるレベルの情報が含まれている

一部の報道では、「動画内容を説明する文章の正しさが、約50％程度の精度で達成された」と紹介されています。The Economic Times+1

つまり、まだ「完全にぴったり当たるキャプション」ではないものの、ランダムより十分に高い精度で、「その人が見ている（あるいは思い出している）シーンの内容を、それなりに言い当てる文章」が出てくる段階まで来ている、という状況です。

4-2．何でも読めるわけではない

一方で、各メディアは、限界についてもはっきり書いています。PsyPost - Psychology News+4Nature+4Neuroscience News+4

・巨大なfMRI装置が必要で、日常生活で使えるようなものではない
・被験者ごとに、多くのデータを集めてモデルを学習させる必要がある
・「今、自由に考えていること全般」を何でも読めるわけではなく、
　「映像を見ている、あるいは特定の映像を思い出しているという条件」のもとで成り立つ実験

つまり、SFに出てくるような「心の中を丸裸にする装置」からは、大きな距離があります。
現時点で確実に言えるのは、「特定の条件下で、視覚的な内容を中心とした『頭の中のシーン』を、ある程度意味のある文章として復元できた」というところまでです。PMC+2Neuroscience News+2

5．世界のメディアはどう受け止めているか

ここからは、「世界中のメディアがどう報じたか」という事実を整理します。
それぞれのメディアの論調や表現の仕方は違いますが、記事の内容として書かれていることのみを取り上げます。

5-1．Nature・Scientific American などの科学系メディア

イギリスの科学誌「Nature」のニュース記事は、

・「マインド・キャプショニングは、頭の中のシーンを文章にする非侵襲的な（体を傷つけない）技術である」
・「脳が世界をどう解釈しているかを明らかにする手がかりになる」

といった点を紹介しています。Nature

アメリカの科学メディア「Scientific American」は、Nature の記事をベースに、

・fMRIという非侵襲的なイメージング技術を用いていること
・言語野ではなく視覚に関係する脳活動から、文章を生成していること

を説明し、研究の内容を一般向けに解説しています。Scientific American

5-2．Neuroscience News などの専門寄りメディア

「Neuroscience News」は、神経科学の観点から、

・言語系ではない脳領域の活動から、構造化された文章を生成できたこと
・視覚的な意味情報を含む「複雑なメンタルコンテンツ」を扱っている点

を強調しています。Neuroscience News+1

同サイトは、この研究を「非言語的な主観体験を言語として解読するための新しい方法」と位置づけています。Neuroscience News

5-3．一般ニュース・ビジネスメディア

インドの経済紙「Economic Times」は、

・この研究が、脳活動から記述的な文章を生成するAIシステムを示したこと
・fMRI信号を解読し、見ている（または思い出している）内容を文章で表現できること
・発話に障害を持つ人のコミュニケーション支援に役立つ可能性が指摘されていること

などを報じています。The Economic Times

また、Futurism や Yahoo!ニュースなども、この研究を紹介し、
「Mind captioning」という名称や、MRIスキャンから思考の内容をテキストにする点を伝えています。Yahoo!ニュース+2Futurism+2

5-4．スペインのニュースサイト「Cadena SER」

スペインのラジオ局 Cadena SER のニュースサイトは、

・Mind Captioningを、「思考に字幕をつけるマシン」と表現して紹介
・fMRIで、画像を見ているときや場面を思い出しているときの脳活動を計測し、そのパターンからテキストを生成する仕組みを説明
・実験の例として、「滝から飛び込む人」の動画を見たとき、最初は「ジャンプ」「流れ」といった単語レベルから始まり、最終的には「山の頂上の深い滝に人が飛び込む」といった文になっていく過程を、番組内のコメントとして紹介

といった内容を伝えています。Cadena SER

5-5．日本国内メディア

日本のAI専門メディア Ledge.ai などは、

・NTTが脳活動データをもとに、人が見ている映像や頭の中で思い浮かべた光景の内容を文章化する技術を開発したこと
・この研究成果が Science Advances に掲載されたこと

を紹介し、NTT のリリース内容をわかりやすく解説しています。Ledge.ai+1

6．NTT自身が描いている「用途のイメージ」

NTTのR&Dフォーラム向け資料では、この技術の位置づけとして、次のポイントが挙げられています。NTT RD+1

・脳情報解読技術と言語AIモデルを統合し、「脳内に表現されている意味情報」を文章として表現する
・視覚的な意味情報の脳内表現を解明する手がかりになる
・将来的には、視覚以外の感覚イメージや感情、概念的思考など、多様な非言語的思考を言語に翻訳する汎用技術へ発展させることを目指している
・発話が困難な人の意思伝達支援などへの活用が期待されている

いずれも、NTTの公式資料の中で挙げられている、将来像や応用分野の例です。

7．「プライバシー」「心の読取」への懸念

多くの一般メディアは、この研究を紹介する際に、必ずと言ってよいほど「プライバシー」に触れています。Cadena SER+4The Economic Times+4Scientific American+4

記事の中で共通しているのは、次のような点です。

・この技術は、「心の中の情報へのアクセス」という、新しい種類の情報を扱う可能性がある
・そのため、プライバシー保護や倫理的なルールづくりが重要になる

同時に、多くのメディアは、現時点の技術的制約についても明確に説明しています。

・大型のfMRI装置が必要であり、本人の協力なしに日常的に「思考を盗み見る」ような運用は現実的ではない
・実験には、被験者が装置の中に入り、長時間にわたり多くの動画を見たり思い出したりすることが必要

このような説明を通して、メディアは

「技術としては大きな一歩だが、すぐに誰かの心を勝手に読めるわけではない」

という点を伝えています。Cadena SER+4Nature+4Neuroscience News+4

8．まとめ：SFに一歩近づいたが、「翻訳機」の段階

以上を、事実関係に絞って整理すると、次のようにまとめられます。

・NTTは、fMRIで計測した人間の脳活動から、「見ている映像」や「思い出している映像」の内容を説明する文章を生成する技術「マインド・キャプショニング」を開発したと発表した
・この技術は、視覚に関わる脳の活動から、言語AIモデルの意味空間へと写像し、そこからテキストを生成する
・研究成果は、科学誌「Science Advances」に掲載されている
・実験では、複数の被験者が数千本規模の短い動画を見ている間や、映像を思い出している間のfMRIデータから、意味的に妥当な文章を生成できることが示されている
・一部の報道では、動画内容を説明する文章の正しさが、約50％程度の精度と紹介されている
・Nature や Scientific American などの科学系メディアは、非言語的な視覚イメージから文章を生成できた点と、脳が世界をどう表現しているかを理解する手がかりとしての意義を伝えている
・Neuroscience News などの専門メディアは、言語系ではない脳領域から構造化された意味情報を取り出す手法として評価している
・一般メディアは、発話障害を持つ人のコミュニケーション支援の可能性と、プライバシーや倫理の問題の両方を指摘している
・この技術は、現時点では大型装置と多くの学習データを必要とする研究段階であり、日常的に「心を勝手に読める」ようなものではない

SFに出てくる「心を読むマシン」と比べると、まだ条件は限定的です。
しかし、「視覚イメージとしての思考」を、AIを使ってことばに翻訳するという点で、現実の科学が確実に一歩進んだことを示す研究である、ということは、各種の公式情報と報道から確認できます。

参考情報・出典一覧（URL）

1．NTT ニュースリリース（日本語・1次情報）
心に思い浮かべた映像を言葉に変換する脳解読技術「マインド・キャプショニング」を実現
https://group.ntt/jp/newsrelease/2025/11/17/251117a.html NTT

2．Science Advances 論文（英語）
Mind captioning: Evolving descriptive text of mental content from human brain activity
https://www.science.org/doi/10.1126/sciadv.adw1464 サイエンス・オーガニゼーション+2サイエンス・オーガニゼーション+2

3．Neuroscience News（英語）
Brain Decoder Translates Visual Thoughts Into Text
https://neurosciencenews.com/brain-decoder-translates-visual-thoughts-into-text-26693/ Neuroscience News

4．Nature ニュース記事（英語）
‘Mind-captioning’ AI decodes brain activity to turn thoughts into text
https://www.nature.com/articles/d41586-025-03624-1 Nature

5．Scientific American 記事（英語）
AI Decodes Visual Brain Activity—And Writes Captions for It
https://www.scientificamerican.com/article/ai-decodes-visual-brain-activity-and-writes-captions-for-it/ Scientific American

6．MedicalXpress 記事（英語）
‘Mind-captioning’ technique can read human thoughts from brain scans
https://medicalxpress.com/news/2025-11-mind-captioning-technique-human-thoughts.html メディカルエクスプレス

7．The Economic Times 記事（英語）
AI can now describe what you are thinking: scientists unveil mind captioning breakthrough that turns thoughts into words
https://m.economictimes.com/magazines/panache/ai-can-now-describe-what-you-are-thinking-scientists-unveil-mind-captioning-breakthrough-that-turns-thoughts-into-words/articleshow/125187118.cms The Economic Times

8．Futurism 記事（英語）
Scientists Say They’ve Figured Out How to Transcribe Your Thoughts From an MRI Scan
https://futurism.com/health-medicine/scientists-transcribe-thoughts-mri-scan Futurism

9．PsyPost 記事（英語）
This scientist just used AI to translate brain activity into text
https://www.psypost.org/mind-captioning-this-scientist-just-used-ai-to-translate-brain-activity-into-text/ PsyPost - Psychology News

10．Cadena SER 記事（スペイン語）
La máquina que subtitula tus pensamientos ya existe: así funciona
https://cadenaser.com/nacional/2025/11/12/la-maquina-que-subtitula-tus-pensamientos-ya-existe-asi-funciona-cadena-ser/ Cadena SER

11．Ledge.ai 記事（日本語）
NTT、人が見た映像や思い浮かべた光景を文章化する「マインド・キャプショニング」を開発
https://ledge.ai/articles/ntt_mind_captioning_brain_to_text Ledge.ai

12．NTT R&D Forum 2025 資料（PDF・英語）
Mind reading through brain–AI integration（Mind captioning 関連スライド）
https://www.rd.ntt/forum/2025/doc/D14-e.pdf NTT RD

＼最新情報をチェック／

カテゴリー: テクノロジー（AI）