北陸先端科学技術大学院大学
博士後期課程学生支援事業(JST)

Reportイベント報告

JAIST BOOST-SPRING SYMPOSIUM「生成AIで世界はこう変わる」第二部パネル討論会 レポート【3/5】

BOOST研究員の研究紹介

飯田 それでは、BOOST研究員を代表して林さんから研究紹介をしていただきます。どうぞよろしくお願いいたします。

report20250214-16.jpg
博士後期課程1年 林 貴斗さん

 JAISTの博士後期課程1年でBOOST研究員の林貴斗と申します。岡田先生の研究室に所属しています。今井先生と飯田先生の後で、大変恐縮ですが、自分の研究を簡単に紹介します。

僕は、無人特化の主観判断予測に向けてというテーマで研究しています。最終的なゴールは人間の主観判断、例えば感情とかあるいは嗜好といったものを高性能で予測可能にすることを通して、ヒューマンコンピュータインターラクションの利便性の向上に貢献したいです。そういうモチベーションで研究を続けています。

これまでの研究では、教師あり学習の場合は入力のデータと、その予測対象である正解ラベルというのが必要です。感情などの一般的な研究では、例えば猫の画像について、好き嫌いを1から5点でどれぐらい好きかを予測しようと思ったら、その正解データというのはどういうふうに作られるか。50人とか10人とかにこの猫の画像を見せて、どれぐらい好きですかと聞いて、そのそれぞれの報告した点数の平均とか、あるいは多数決とか、そういうものを正解データとして主観判断の予測モデルを作るというやり方が一般的でした。

ただ、極めてそういう主観判断とか個人差が大きいので、汎用的なモデルの場合、各個人のフレグランス思考や感情を正確に予測することは難しいという問題が、主に感情コンピューティング分野の研究では指摘されています。また、例えば大規模なモデルをある人にとって最適なかたちにPersonalizationしたいという場合に、そのターゲットとなる人から学習に十分な量のデータを集めないといけませんが、かなり負担が大きいので難しいというような問題もありました。(以降、具体的な研究テーマ4件については割愛)

飯田 林君、どうもありがとうございます。それでは指導教員である岡田先生の方から何か一言コメントをいただきたいと思います。

report20250214-17.jpg
人間情報学研究領域 岡田 将吾 教授

岡田 私の研究室は機械学習をテーマに、人間の中身を理解する機械学習の研究をしていてます。ラポールという、人が人を信頼する度合いを予測するとか、話している最中に、AIと話している人が楽しんでいるかリアルタイムで推定することで、AIが「つまらなそうだから、もうちょっと話変えようか」みたいなことができる対話システムを作るなど、です。他には、話している時に緊張しているとか、話すのが上手いとか、そういう情報がマルチモーダルデータから推定可能です。そういう機械学習モデルを作って予測し、予測した先に何があるのかというと、喋っている時の自分を自分で顧みるのは難しいですが、AIなら「ここ良かったけど、ちょっとここ何を言っているか分からなかったよ」とか、説明可能なフィードバックを与えてくれる。人を見るという意味では、AIのアプローチは人間とかなり類似しています。こういった機械学習の研究をしているラボです。

飯田 先生、どうもありがとうございました。今井さんからもコメントいただければと思います。

今井 Preference learningと先程おっしゃっていましたよね。ちなみに今の生成AIのアライメントという出力を論理的に調整するためにRLHFというのをやっていて、それもそのランキングデータから学習するPreference learningみたいなのをやっているんですけど、それ参考にされた感じですか。

 僕の研究はアクセスの23年にこういうのをやっていて、実際に研究したのは22年とか。多分ChatGPTのテクニカルレポートとかでですか? 

今井 いやテクニカルレポートGPT-4、テクニカルレポートが出る前に、ChatGPTのOpenAIの公式サイトに出た時に、 RLHFが使われているという話があって、RLHF 自体は2022年かな、インストラクトGPTという、GPT3.5と言われているものが、研究で言われていて。それは会話のランキングデータを使って、そのランキングデータの順序予測どっちが好ましいか、順序予測を損失関数にしてやっているものなので、何かそれとすごい近いと思いました、何かその辺を参考にしたのか、もし参考にしなかったのであれば、参考にしたらもっと何か研究をブラッシュアップできるのかなと。マニアックな話ですけども。

 結論からいうと、あまり意識していなくて。僕も研究を進めていく中で、OpenAIが言語モデルよりスケールアップ、向上させていくために人間の嗜好を活用したというのを聞いて驚いていたという感じです。

今井 このランキング順序データって3人以上、結構複数の順序データが、ペアデータではなくて、かなり必要な感じですか。

 各ユーザあたり、会話相手は3人なので、基本的にはペアワイズラーニングで、全ペアでどっちが上かというのをやりました。

report20250214-18.jpg

今井 全ペアでやっているんですね。RLHFに近いDPOという手法があるんですけど、それとかは完全に2人のデータにできる段階とかで、RLHFで効率的に今ちょっと生成AIも会話にもPreference learningとかの研究も進んでいる、何か参考にしたら、いい知見が得られるんじゃないかなと思いました。すみません、すごいマニアックな話ですけども。

  1. 前ページ
  2. 1
  3. 2
  4. 3
  5. 4
  6. 5
  7. 次ページ