Reportイベント報告
JAIST BOOST-SPRING SYMPOSIUM「生成AIで世界はこう変わる」第二部パネル討論会 レポート【4/5】
今井 他の質問も大丈夫ですか?この分野は、いわゆる基盤モデルみたいなものってあるんですか。最初の方の研究で個人の、各個人の主観予測が非常に難しいことでしたけれども、自然言語処理とかの分野でも、今まで要約とかニュースの分類とか、感情分析とかそれぞれ違うモデルを使って特化した学習が必要だったのに、今のChatGPTとかは基盤モデルとして、それでもタスク全部汎用的に個人とかデータを使ってできるという状況ですけれども。何かそういった基盤モデルみたいな、この分野は結構作るの難しいんでしょうか。
林 分かっている範囲で簡単に説明します。結構感情予測の研究は表情とかの視覚データとか後は韻律のような音声データ、ジェスチャーも視覚データですね。後は自然言語があります。基本的に総トータル全部混ぜた基盤モデルというのはあんまりない印象で、基本的に自分達が研究する時は、例えば言語モデルだったらBERT(以下、同じ)とかGPTとかそういうもの。音声だったらOpen Smileを使って。顔だったらOpen Faceを使うとか。そういう感じで各モダリティの裏に基盤モデルを入れて、それをよりそのタスクを解くためにモダリティ融合していくかっていうのが、うちの研究室のよくやっている研究になるかなと思います。どうですか。
岡田 付け加えますと、表情とかというのは結構文化依存、国依存、年齢依存、性別依存、色んな個人差がありすぎてなかなか非言語行動のところでは、基盤モデルを作るのが現状難しいと。最近マルチモーダルLLMでVisual and Languageというのがかなりできているんですけど、画像情報と画像の説明文(言語)の紐づけが大規模なデータから学習できることがわかってきています。ただその我々が使っているようなところは、データが集まらないので、なかなかちょっと今難しくて、そこは結構チャレンジだと思います。
今井 なるほど。GPT-4oみたいな、GPT-4o とかGPTの今2.0とかは多分マルチモードに音声と多分表情で組み立てて、動画と後、言語全部まとめて多分マルチモードにできますけども、あれでもやっぱり足りないところってあるんですか。
岡田 はい、同様の問題で、例えば、AIと人の対話履歴から、人がAIに抱くラポールのレベルをGPT-4oに答えさせる実験をしましたが、まだちょっといい精度が出てこないというところです。
今井 それはちょっと新しいですね、参考になります。研究のことを話して申し訳ない。
飯田 いいですね、ありがたいです。

今井 ちなみに飯田先生にもちょっと質問があるんですが、先程、OM-Search(オーエムサーチ)というオポーネントモデル。これちなみに僕はちょっと最終的には研究論文にしなかったですけど、オポーネントモデリングというのは僕のやっているマルチエージェントの分野にあって、オポーネントモデルって、その時代から飯田先生みたいな方が使われていたのが、ちょっと感動しました。やっぱりオポーネントモデルなんですね。
飯田 そうですね。
今井 オポーネントって、適当に何か。僕博士研究やっていた時に、何でオポーネントなんだよと、ちょっと言われたんですよ。味方のモデリングまでしているのに、オポーネントって何だよ、みたいに言われたんですけど。
飯田 モデリングですね。
今井 そうですね。オポーネントモデリングの、僕がやっているマルチエージェントというAIが複数いる時を想定しているんで、心の理論とかっていわれている、相手がどういうことを考えるかで常識を判断するというみたいな研究がありまして、その研究実は先程飯田先生がおっしゃっていたような、その相手が二人称とか三人称とか、どういう考え方をするみたいなことを結構考え方として使っていました。
飯田 だから、一人称で自分が例えば負けだと判断しても、相手が同じように勝ちだと分かっているとは限らない訳ですよね。
今井 そうですね。実際に藤井聡太とかは、自分が負けそうだと思った瞬間にトラップをいっぱいまくらしいですよ、相手が引っかかると。
飯田 トラップというよりも、本当に相手も自分が勝ちだと、つまり自分が負けだと思っているんだけれども、藤井聡太さんは。相手が本当に勝ちだと思っているか分からない訳で、それを確信するために、何手かこうやる訳です。それがいわゆるトラップみたいな、場合によっては形作りみたいな感じかもしれない。確信して初めてそこで投了する訳ですね。ところが今のAIは、一人称だけでやってしまうもんですから、ダラダラダラダラと延命措置をやって、非常識なことをしてしまうという訳ですね。
大学院生に向けて
今井 僕の方から研究の質問をしすぎたので、何か別の話題や僕に対する質問などがあればお願いします。
飯田 私はぜひ、本学のSPRINGとBOOSTの博士学生、そして修士学生の皆さんへ、社会に出るためにどういうふうに動いて行くか(お話いただきたい)。今井さんは博士号をとってすぐに起業して、縦横無尽に活躍していますが、どうしたらそのような視野で生きられるのか、アドバイスいただけたら。
今井 僕自身の気質によるところが大きいのですが、僕は「自分の人生は全部コントローラブルだ」というふうに考えています。自分の人生はほぼ何でも自分で操作すべきで、博士号をとった人間なら、それができるだろうと考えてます。学部を卒業して就職される方もいらっしゃると思いますが、自分の人生を完全コントロールするというのは、なかなか難しいと思います。当該分野で博士号を授与されたからには、周囲からは、その分野で世界トップクラス、第一人者レベルの知識を持っているとされている訳で、その気になればいくらでもそれを活かして自分の人生をコントロールできるはずだと、僕は思っています。僕が人工知能という非常に今もてはやされている分野にいることが大きいのかもしれません。一般企業で博士人材が冷遇されているような話も聞きますが、博士学生は、自分を社会でどう活かすのかをたくさん考えて、チャレンジする意識を持ってもいいと思います。
飯田 AIがサイエンスの分野で人間を超えた活躍をするような話がありましたが、本学もAIをどんどん活用していきたいと思っています。AIの専門家だけではなく、マテ系の学生もいれば、知識科学系、文系の学生もいる本学で、具体的にAIをどう使うとよいか、ヒントみたいなのがありますでしょうか。
今井 いや、ないですね。僕、文部科学省の会議などに出席すると「教育課程でどうAIを使いこなすか」「むしろ今までの義務教育なんてやめてAIを使えばいいんだ、バンザイ、みたいなことをやればいいのか」と訊かれますが、意外とAI使いこなすのに重要なことは、その当該に使われる専門知識だったりします。僕は人工知能研究者で、AI使いこなすのは日本でトップクラスに上手いですが、例えば今から何かマテリアルサイエンスの研究をやれと突然言われたとしたら、全くできないです。なぜなら僕はAIに何を聞くべきなのか、何をさせるべきなのかがよく分からないからです。皆さんはGoogle検索できるスマホを持っていて、理論上は世界中の知識にアクセスできるはずです。では、スマホを持っている小学生が「世界の知識を持っている」ことになるのかというと、多分そんなことはない。Google検索を使ってどういう知識を引き出すのかが重要なのです。今の生成AIは、人間が何か指示しないと動かないので、結局それを使いこなす側の専門知識が必要です。人工知能を使いこなしたいのであれば、教養的な知識、今科学分野における人工知能がどれぐらいすごいのかという知識を最低限持って、実際に使ってみるぐらいのことは必要だと思いますが、どちらかというと、専門知識をちゃんと身に付ける意識の方が重要です。ちょっと自分の研究で使いこなせる、少し人工知能に絡んでおく、それぐらいがいいのではないかと僕は思います。
岡田 今のご発言、私も完全に同意です。逆にAIの研究者はこれからどういう形で、物理を含む、色々な科学研究でAIの研究を進めるか。また、AI研究者がどういうスタンスで研究すればいいのか、お考えはありますでしょうか。
今井 僕は起業している身なので、純粋にアカデミアの人間ではないのですが、おそらく人工知能の研究者の中でもかなり差があります。僕はかなり思想が強い方で、思想が強い人は、今日の講演の最初に言ったように、ここ5年ぐらいで人間の能力ほぼ超えてくると考えているんですね。なので、そういう人達が考えていることは、人間世界で解くべき問題を見つけることに集中しようという感じかと思います。先程、講演の最後の方の質問でもちょっと答えましたが、解くべき問題みたいなものが意外とその生産性が高い、考える力を強めるだけでは、見つからないところが結構あると思います。人間的な弱さとか、人生を歩む、人間の体で人生歩んできたみたいなことが必要だと思います。必ずしも生産性が良いことだけ無条件に何回か繰り返して解くべきことではないと思うので、ちゃんと人工知能に解くべき問題を教える役割というのも重要かと僕は思っています。僕や一部の思想の強い研究者以外の人は、どう思っているかあまり分からないですが。
岡田 ということは、人工知能研究者は現状のAI技術をツールとしてもって、様々な方法で人生を過ごし、そういう価値のある問題を探しに行くと。
今井 はい、そういうことです。
岡田 大変重要だと思います。ありがとうございます。