PCサイトを見る

ニュース・イベント

プレスリリース

巨大なサンプル数を確率論的にクラスタリングする手法の開発

巨大なサンプル数を確率論的にクラスタリングする手法の開発

ポイント

■ 数億、数兆にも及ぶ大量データが何種類にグループ分けされるかを効率的に識別するアルゴリズムを開発
► 例えば、数千枚の犬の写真を与えれば「これらは、12種類の犬種にグループ分けできます」といった人工知能識別が昨今では可能となってきている。
► 地球上の全ての犬の写真が仮に手に入ったとして、これを識別すれば、原理的には「地球上に一体、何種類の犬種が存在するか」を推し量ることは出来るだろう。しかし、一回に処理できるデータ数が数万と限られるため、何十億ものデータを全て識別して、「全データが何種類のグループから構成されているか」を知ることは現実的には難しい(悉皆調査の困難)。
► 数十億のデータから数千データを取ってきては識別して、「12種に分類できた」、「今度は8種類だった」ということを何度か繰り返すことで(サンプル調査)、「元の数十億のデータには15種類のグループ分けが存在する」ということを言い当てる方法を開発した。

 北陸先端科学技術大学院大学(JAIST)(学長:寺野 稔、石川県能美市)、先端科学技術研究科 環境・エネルギー領域前園 涼教授らの研究グループは、数億、数兆にも及ぶ大量データが何種類にグループ分けされるかを効率的に識別するアルゴリズムを開発した。本成果は、科学雑誌「Advanced Theory and Simulations」に3月26日付けで掲載された。

【研究の背景】
 研究グループは、物質中に並んでいる原子を一部引き抜いたり、別の原子で置換したりして、材料の特性を改善するシミュレーションに取り組んできた(合金のシミュレーション)。
 「どの位置の原子を引き抜くか」といった選択肢は無数にあり、その組み合わせは何兆パターンにもなるが、同じサイコロが何通りもの違う置き方を生み出すように、いくつかのパターンは「実は同一」という形でまとまり、ずっと少ない数のグループ分けに分類できる。
 このような分類を行うツールは以前から存在していたが、一度に入り切るデータは数万程度で、数億、数兆というデータはファイルが入り切らず分類できない。このため「全データは何種類のグループに分類できるのか」を知ることができないという課題があった。

【研究成果と手法】
 論文の筆頭著者である内村慶舟博士(2020年3月JAIST博士後期課程修了、前園研究室)は、「全データが何グループに分かれるか」の答があらかじめわかっている問題に対してデータ識別を繰り返し試した結果、入り切るデータサイズでの分類識別を繰り返すと、そのたびに、分類されるグループ数は異なる(答がばらつく)が、「答のばらつき度合い(分散)が最も大きくなるような入力データサイズが、「欲しい答」(全データが何種類に分類されるか)に一致することが多い」ということを経験的に見つけ出した。
 さらに、「なぜ、そのようになるのだろう?本当にそうなるような数学的仕組みが背後にあるのだろうか?」と問題を設定し、確率や組合せの数式を使って問題を解析したところ、上記のような経験が、数学的にも確かに成立することを見つけ出した(図1)。
pr20210401-1.png

図1 「答のばらつき度合い(分散)が最も大きくなるような入力データサイズ(縦軸値)が、「欲しい答」(全データが何種類に分類されるか)(横軸値)に一致することが多い」ということは経験的によく成立している。この背景数理(数学的な仕組みとしてたしかにそうなること)が今回の研究で明らかにされた。

 研究を進める中、話の発端だった「原子の引き抜きパターン」に対しては、もっと有力な解決法(組合せ論による方法)が既に存在することを知り、チームは一時、非常に落胆した。
 ところが、組合せ論が使えないような「人工知能による分類」(機械学習によるクラスタリング)に対しても内村博士が見出した手法が有効で、より広い応用範囲とインパクトがあることに気づき、その成果が論文として採択された。

【今後の展開】
 今後、人工知能識別と組み合わせることにより、例えば、ある病変の画像を識別させ、「この世には一体、何種類までの病変パターンが存在するのか」を推し量るといった応用展開が考えられる。

【論文情報】

掲載誌 Advanced Theory and Simulations
題目 "Stochastic estimations of the total number of classes for a clustering having extremely large samples to be included in the clustering engine"
著者 Keishu Utimula, Genki I. Prayogo, Kousuke Nakano, Kenta Hongo, Ryo Maezono
掲載日 2021年3月26日にオンライン版に掲載
DOI 10.1002/adts.202000301

【リンク】

令和3年4月1日

PAGETOP