北陸先端科学技術大学院大学
博士後期課程学生支援事業(JST)

Reportイベント報告

JAIST BOOST-SPRING SYMPOSIUM「生成AIで世界はこう変わる」第一部講演 レポート【4/5】

DeepSeekショックと生成AIの新時代

ここからは、最近のニュースなどで話題になっている中国製の生成AI「DeepSeek」についてお話しします。

今年の1月27日に起こった「DeepSeekショック」は、株式市場にもとんでもないダメージを与えました。実は我々研究者は昨年末に、「これはちょっとすごいものが出てきたんじゃないか」と感じていました。というのも、生成AIの開発コストはすごくお金がかかります。先程お話ししたように、最先端の生成AIを開発するには、何百億円が必要で、スカイツリーの総工費約600億円と同じくらいの費用がかかるのが普通でした。しかし、この「DeepSeek R1」はわずか8億円ほどの開発費で、OpenAIの最新の生成AIと同等程度の性能を実現し、まさに「DeepSeekショック」が起きてしまいました。

2023年9月頃、OpenAIの最新の生成AIが博士号取得レベルの知識を持っていることが発表されました。しかし、OpenAIはその具体的な作り方を公開していません。現在の生成AIの世界は非常にクローズドな環境になっており、論文すら公開されていません。実はChatGPT(GPT-4)に関する論文も存在しません。代わりに、「テクニカルレポート」と呼ばれる、大ざっばな内容をまとめた文書が公開されているのみです。我々研究者の間では、ちょっと皮肉を込めて「怪文書」と呼んでいます。そのようななかで、我々一般的な研究者がOpenAIに追いつくのは、非常に難しいと言われていました。しかしDeepSeekがOpenAIに追いついたことは、すごくインパクトがあり、「DeepSeekショック」が起きてしまいました。しかもその開発コストは圧倒的に低コストです。さらに、研究者にとって非常に重要なのはDeepSeekが手法を公開していることです。手法は誰でもダウンロード可能、論文に作り方を明記し、「この通りに作れば8億円で作れる」としています。2025年1月27日、「DeepSeekショック」が発生し、世界の金融市場に影響を与えたちょうどその当日、私はあるテレビ番組に出演しており、DeepSeekの話題を取り上げていました。その時点では、「DeepSeekは、研究者のオモチャ」といったニッチな話題だったのですが、喋っているまさにその時に起きてしまい、最近までテレビ番組に引っ張りだこでした。生成AIの常識がひっくり返っています。

AIの研究者としての進化

今の生成AIは何ができるのか、具体例をお話しします。

まず一つ目、「The AI Scientist」という手法です。AIが論文のアイデアを出し、プログラムを書いて実験を行い、データを取得し、最終的に論文としてまとめるというものです。 例えば、ここにアブストラクト(概要)、イントロダクション(導入)、メソッド(手法)、実験結果という構成の普通の論文があります。一見すると人間の研究者が書いた論文のように見えますが、実はこの論文はAIが自動生成したものです。ここまで聞いても、「それはAIがデタラメに書いているだけだろう、人間が一切介入しない研究を全部自動で行い、本当にいい論文ができるのか」と思われるかもしれませんが、専門家による評価では、機械学習の国際会議で「Weakly Accept(条件付き採択)」レベルの評価を受ける可能性があるとされています。

次に、最近、「AIエージェント」という言葉が話題になっています。これは、非常に複雑な長期的なタスクを色んなツールを使いながらこなしてくれるAIです。ある研究分野について調査をし、情報をまとめ、資料を作成し、さらにはプログラムを実装して論文まで書くといった複雑な作業を自律的に進めることができます。このソフトウエアを作る「AIエージェント」はプログラムのエラーメッセージを解析して、ドキュメントやインターネットを調査し、その主要を理解して全部反映することができます。

例えば、「Llama2」という非常に有名な、生成AIのプロバイダーを比較するタスクが可能な大規模言語モデル(AI)に依頼した場合、AIは自動で計画を立て、インターネットを検索し、関連するドキュメントを理解し、プログラムを書いて比較表を作成します。エラーが出た場合も、AI自身が修正を試み、最終的に良い形にまとめます。

さらに、OpenAIの「o1(オーワン)」、oシリーズと言われているものは、博士号取得者レベルの知識を持つとされています。これは、非常に難易度の高い文章問題、人間の博士号取得者が本気でとりかかっても7割解ければいいというぐらいの問題を解かせて性能を評価する試験で、GPT-4の正答率が6割程度であるのに対し、o1は8割ぐらいの正答率を誇るという結果が報告されています。特に医療分野では、100%の正答率を記録するケースも報告されています。

report20250214-6.jpg

推論時スケーリングの発見―AIが解く限界を超える進化

最初の方に「スケーリング則」のお話しをしました。これは、学習時に大規模な学習をすると、AIの性能が自動で向上するというものです。しかし、昨年末から研究者の間ではこのスケーリング則の限界が議論されていました。学習データの不足、AIの成長限界そしてAIの知能を測る手段が人間にはないなど、さまざまな意見がありました。しかし、新たなスケーリング則、「推論時スケーリング」が見つかりました。これは、AIに長く考えさせることで、解決できる範囲がさらに広がったというものです。

例えば、東大の数学の入試問題があります。これは非常に難しく、従来の生成AI(例えばGPT-4)では4分の1も解けませんでした。しかし、最新のAI「o1」は、この東大の数学の入試問題の4分の3を解くことができます。また、今年の共通テスト(旧センター試験)では、生成AIを使って解くと、91%の正答率を達成しました。この結果をふまえると、現在の生成AIは、ほぼすべての大学の入試問題を解くことができるレベルに達していると考えられます。

この「oシリーズ」と呼ばれるAIは非常に高い知能を持っています。現在は「o3」まで開発が進んでおり、一般の人は利用できませんが、一部の研究者が利用しています。AIがどれぐらい賢いのかというのを具体的に示すのは難しいですが、例えば、プログラミングの世界には「レーティング」と呼ばれる指標があります。これは、囲碁や将棋の実力を数値化するのと同じようなもので、レベルを測る基準です。一般的に、レーティング3000ぐらいがトップのプロ棋士のレベルになります。

では、「o3」はプログラミングの世界で、どのぐらいのレーティングなのかというと、実は、世界のトップレベルに迫る「2000後半」、つまり、ほぼ3000に到達しています。これは世界のランキングで175位程度だと言われています。175位と聞くと、「あれそんなもんか」と思うかもしれませんが、実際には、ほとんどの人は到底勝てません。「o3」はすでに、OpenAIの主任研究者レベルのプログラミング能力を上回っていると言われています。

さらに、数学の分野でも、数学の「ノーベル賞」とも言われる「フィールズ賞」を受賞した研究者たちが、AIの実力を試すために、新しく非常に難しい数学の問題を作りました。これらの問題は、学習データにはないもので、人間の研究者が解こうとすると数ヶ月かかるレベルです。一般の人ならおそらく一生かけても解けないかもしれません。以前のバージョン「o1」では、わずか2%しか解けませんでしたが、「o3」では、たった3ヶ月で25%を解けるようになりました。これは、数学の分野では人間がAIに勝てないということを示しています。

report20250214-7.jpg

強化学習の未来

これまでAIの発展は、主に「ホワイトカラー」の仕事、つまり、デスクワークに関連する分野がほとんどでした。文章を作成したり、プログラムを書いたり、データを分析したりといった作業はAIが得意とするところです。そのため、「AIが仕事を奪う」という話題は主にオフィスワークの分野で語られてきました。

しかし、AIにはまだ苦手なことがありました。例えば、洗濯物を畳む、コーヒーを淹れるといった、私たちが日常的に行う「手を使った作業」は、AIにとって非常に難しいものだったのです。ところが、昨年の後半ぐらいから、この認識が変わりつつあります。

最近、「Physical Intelligence」というベンチャー企業が「π0(パイゼロ)」というAIを発表しました。これは、生成AIの技術を活用し、これまで難しかった動作を行えるようになっています。なぜ今までこうした動作ができなかったのかというと、データが不足していたからです。

AIが成長するには大量のデータが必要です。文章に関しては、インターネット上にニュース記事やSNSの投稿、Wikipediaなどの情報があふれていますし、画像データも沢山あります。しかし、人間の体の動きに関するデータはほとんどありません。なぜなら、関節や筋肉の動きを記録し、それをインターネット上にアップロードする人はほぼいないからです。そのため、AIは「どうやって物を持つか」「どうやって体を動かすか」を学ぶ機会がなかったのです。

そこで現在、その動作データの集積が始まっています。私の出身研究室である「松尾研究室」も参加しており、世界中からデータを集めて、AIが肉体労働を学習できるようにする取組みが行われてきています。この流れも踏まえると、今後数年以内に「AIが肉体労働をこなせる時代」がくるかもしれません。

これから生成AIはどんどん進化していきます。これは少しポジショントークが入っていますが、客観的に見ても、そうでしょう。これまでの生成AIの学習は、「正解データ」がありました。例えば、人間が書いた文章を大量に集め、それを学ぶことで、文章を作れるようになったのです。しかし、この方法には限界があります。そこで最近注目されているのが「強化学習」という分野で、「正解を与えずに、AIに試行錯誤させながら学ばせる」という方法です。例えば、AIをポンと放り出し、「自分で考えて解いてみなさい」と促すのです。このアプローチによって、AIの性能が上がることが報告されています。以前は、強化学習は「AIが悪いことを言わないように調整する」といった封じ込めのために使われていました。しかし、最近の研究では、強化学習がAIの性能向上にも役立つことが分かってきました。

最近話題になった「DeepSeek」やChatGPTに機能追加された「Deep Research」という非常に優れた調査機能にも、強化学習の技術が使われていると報告されています。さらに、Googleの研究部門「DeepMind」のトップクラスの研究者も「この強化学習こそが汎用人工知能(AGI)を完成させるための最後のピースかもしれない」と学会で発言しています。

report20250214-8.jpg

  1. 前ページ
  2. 1
  3. 2
  4. 3
  5. 4
  6. 5
  7. 次ページ