Google のページランクを楽しむ

宇野 裕之
大阪府立大学 理学系研究科 情報数理科学専攻
Email: uno @ mi.s.osakafu-u.ac.jp

はじめに

最近, コンピュータサイエンスの分野でもときどき耳にする言葉に, 複雑ネットワークというキーワードがあります. これは, 現実社会で自然発生的に形成されるネットワークの総称で, よく知られている例として, インターネット(物理的なネットワークの接続関係), 世界各国の空港間の航空路線, 俳優の共演関係, 動物の体内の ある種のタンパク質の相互作用関係などがあります.

これらの実例を見ても分かるように, 複雑ネットワークには, 実際に目に見えるものから抽象的なものまで, その存在する分野が多岐に渡っています. そのため近年, 物理学, 数学, 情報科学, 社会学, 生物学など, さまざまな分野がこのトピックに興味を持ち, 研究対象としてきました. その成果として, 多くの興味深い性質が明らかになってきており, なかでも物理学の分野では, このような複雑ネットワークの 生成メカニズムに関しては, 概ね解明されたと考えられています. そのような複雑ネットワークの一つで, その起源をコンピュータサイエンスに 持つものがウェブです. すなわち, ウェブページを点, リンクを辺としてネットワークと捉え, これをとくにウェブグラフと呼びます.

というわけで, 2005年の9月に, 文部科学省特定領域研究 「新世代の計算限界 ---その解明と打破」(代表者: 岩間一雄先生)では, 「複雑ネットワーク, ウェブグラフ」というテーマでのミニ研究集会を 企画・開催しました. 上述のように, テーマが分野横断的であるため, 今回の研究集会では, 異なる分野の研究成果を互いに理解し, 分野を越えた研究を促進するためにも, 一般講演以外に 増田直紀先生(理化学研究所)と浅野泰仁先生(東北大学大学院)に チュートリアル講演をお願いしました. とくに増田先生からは, コンピュータサイエンスにはない, 他の分野の視点からの 貴重なお話しを聞くことができ, とても興味深いものでした (ご講演内容の一部は, 増田先生の著書(今野氏と共著) [MK05]で 知ることができます. たいへん詳しく, かつわかりやすく書かれています.). しかしながら, それらはまた別の機会に譲るとして, 今回は, 当日の雑談で話題になり 意外に知られていなかった, Google の PageRankTM(以下, ページランクあるいはランク) について書くことにします. なお本文中, とくに断りのない場合のデータは, 2005年12月現在のものです.

ページランクとは

みなさんは常用の検索エンジンとして何をお使いでしょうか? 検索エンジン(あるいは, そのフロントエンド)としては, 現在 Google, Yahoo!, MSNサーチ, Ask Jeeves などがメジャーなところかと 思います. しかしながら, 利用率においては, それらの中で Google が 群を抜いているように思います. 少なくとも, 私の周辺およびコンピュータサイエンス分野の研究者や 学生のみなさんの間では, 圧倒的に Google の利用率が高いと感じます.

Google のテクノロジの素晴らしさについては, 世に多くの解説があるので, ここでそれを紹介するものではありませんが, ページランクに関わる部分を 少しだけ説明します. Google が一般にも広く支持されるのには, それなりの理由があるはずですが, その重要なポイントの一つは, 検索結果が的確であるからです. 検索結果の的確性を実現するためには,

が重要です. Google がチャンピオン検索エンジンたる所以は, この二つの項目において, 独自の技術で他の検索エンジンの追随を許さないからです.

欲しい情報が検索結果に含まれているためには, 少なくとも検索エンジンは, その情報を手元に持っている(インデックス化している)必要があるわけですが, Google がインデックス化しているウェブページ数は少なくとも80億ページで, この数が他の検索エンジンを圧倒しています (2005年1月でのウェブページ数が推定115億という研究があり, Google はその時点での全ウェブページの約70%をインデックス化していることになる. Google が宣言しているこの80億という数値は, 少なくとも2005年の初頭から 変化していないが, 実際にはこれよりかなり多くのページをインデックス化しており, 80億を少しでも上回る結果(他の検索エンジンや研究など)が現れれば, いつでもそれを(少し)上回る宣言をできる準備があるそうです.).

検索結果の提示順序はさらに重要で (検索を実行した平均的なユーザは, 検索結果の最初の3ページ (1ページに10件ずつ表示する設定であれば30件)に望む結果がなければ, 残る検索結果は見ずに検索キーワードを変えて再度検索する傾向があるらしい.), これを支えるのが Google の創始者としても有名な Sergey Page と Lawrence Brin の考案した ページランクという技術です (詳しくは, [PBMW99], [B03] などをご覧ください.). これは, 各ウェブページは固有の価値や重要性(すなわちページに対するランク)を 持つと考え, 検索結果は, 検索キーワードに合致するページを(原則として)ランクの高いものから 順に提示するというアイデアでした (もちろん, 実際の提示順序は, ランク以外にもさまざまな要素を 考慮して決定される.). ここで「ランクが高いページ」をどのように定義するかが, このメカニズムが 成功するかどうかの肝になるわけですが, 彼らはそれを

『より多くの, しかもランクの高いページからの, 厳選されたリンクを受けるページである』

と(再帰的に)定義しました. この定義を見るとわかるように, あるページのランクを上げるためには, ウェブページの内容を充実させて, 他者からの評価を高めるより他に方法がありません. このように, ランクの人為的な操作の可能性を極力排除したことが, 検索結果に中立性, 妥当性を持たせることができ, 検索エンジンとして成功した 最大の要因になっています.

ちなみに, このように Google が誇る技術は, トップページや検索結果の画面にさりげなく書かれていることが多くて, 例えば上記の二点については, インデックス化されたページ数については, ごく最近までトップページの最下部に,

『(C) 2005 Google -- 8,058,044,651ウェブページから検索』

のように実数で書かれていましたし (最近になって, この表記がトップページから消えてサイト内のページに 移動し, しかも80億という概数表記になった. しかしながら, これは 他の検索エンジンの追い上げを許して強調できるポイントでなくなったのではなく, 個人的には, 他とはもはや勝負にならないので 表面から追いやったと見ているのですが, その真相はどうでしょうか.), ページランクについては, 検索結果を表示することなく, 検索結果の筆頭のURLへとジャンプする

『I'm Feeling Lucky』

ボタンがそれを象徴しています.

ページランクを知るには

Google がウェブページに与えるページランクを知るためには, Google が無償で提供するツールバーをインストールする必要があります. Google のツールバーは http://toolbar.google.com/intl/ja/index_ie.php にありますので, ここでGoogleToolbarInstaller.exeをダウンロードします (2005年12月現在, 対応ブラウザは Internet Explorer と Firefox だけのようです.). このファイルは自己解凍形式になっており, これを実行することで ツールバーはインストールされます (アクセスするページのページランクを知るには, そのページのURLがリクエストとして自動的にGoogle に送信されることになります. そのため, インストールの過程で「拡張機能の利用」を選択しなければなりません.). インストール後, 初めてブラウザを起動すると,

Google Toolbar
(Google のツールバー. ツールバーの中央部にある PageRank という 棒グラフが, 表示されたウェブページのページランクを表す.)

図のように ページランクも表示されるようになります. まれにそれでも表示されない場合は, ブラウザのメニューから, 「表示」→「ツールバー」→「Google」を選択する必要があるかも知れません. ページの重要度を表すランクには, 0〜10の11段階あり, 10が最高評価で, 0が最低の評価を表します. これに加えて, ランクが定義されない状態をあわせて, 全部で12種類の表示があります.

ここで例えば, 朝日新聞の速報ニュースサイト(asahi.com)のトップページ にアクセスしてみます.

Asahi.com
(www.asahi.comのトップページとそのページランク.)

すると, 上図のように表示され, ページランクの棒グラフ部分から, そのランクが7であることがわかります (棒グラフだけからランクが 7であることが読みとれない場合には, マウスのポインタを棒グラフ部分に合わせると, 7/10と数値が表示されます. 慣れると棒グラフだけで分かるようになります.).

私自身は, 最初に Google を知ったときから, その検索結果の的確さや, 全体に洗練されたデザインなどに魅了されました. ページランクにも大いに興味を持ち, アクセスしたページのランクを知るためにも, ツールバーもいち早く導入しました. また今では, ツールバーに表示されるページランクは無意識のうちに 目に入るようになりました. このページランクを観察するのは結構楽しいことで, よく見ると, いろいろなことに気がつきます. そこで次では, 日頃何気なくページランクを見ていて, 感じることや わかることを書くことにします. 書く内容も順序もとりとめがありませんが, お許しください.

ページランクで見るウェブページ

ページランクとウェブページの巡回頻度

先に, Google は約80億(実際にはそれ以上の)ページをインデックス化している ことを書きましたが, 一般に検索エンジンは, インデックス化されたページ内容の更新や, 新しいページのインデックス化のために, 巡回ロボットとよばれるプログラムを ウェブ上で動作させて情報を収集しています. Google の場合, そのロボットは, だいたい10日で全ページを少なくとも一度は巡回している と言われています.

それでは, ロボットはどのウェブページも一様に巡回しているかと言うと, 実はそうではありません. この巡回の頻度はページランクと密接に関係しており, ランクが高いページは頻繁に訪れます. ロボットが頻繁に訪れてくれることで, Google が持つそのページのキャッシュが, 常に新しい状態に保たれるというメリットがあります. 私の観察では, この頻度の境目(の一つ)は, ランク3と4の間にあると見ています. 実際, ランクが 4だと, ロボットのアクセスが一日に数回あるのですが, ランクが 3だと数日に一度しかなく, 寂しい思いをします.

ページランクは変動する

ページランクの再計算と更新の頻度も, 公開されている訳ではなく定かでは ないのですが, これまでの観察から, 3カ月〜6カ月に一度程度ではないかと考えています. 少なくとも, ロボットの巡回やそれによるキャッシュの更新ほどの頻度はありません. これは, ページランクの計算に多大な時間を要することが一因だと思います. 例えば, 冒頭で紹介した研究集会の開催を告知するために, ウェブページを新設し (このページには, 私のサイトのトップページからのリンクを与えた.), それと同時に Google の振舞いを観察していたのですが, そのページを最初に Google のロボットが訪れたのが約24時間後, インデックス化されたのを確認したのが約68時間後であったのに対して, 最初にページランク(ランクは2)を与えられるまでに, 約2カ月を要しました.

また, 当然のことながら, あるページに一度ランクが与えられたからといって, ずっとそのままであるとは限りません. 例えば, さきほどとりあげた asahi.com のランクは 7でした. おそらく, いまこの文章を読んでいる方の中にも, 自身のウェブページから asahi.com へのリンクを張っている人は多いのではないかと思います. そのことを考えても, 7という高いランクが与えられていることに 納得できるのですが, 実は asahi.com のランクは 2003年12月の時点では 8でした. ところが, ここ1年くらいランクが1段階下がって, 7で固定してしまっています. 評価の低いページのランクが変動するのには驚きませんが, asahi.com のように評価が高いページのランクは, 事実上固定しているかと 思っていただけに, asahi.com のランクが 8から7に下がったことは, 個人的には驚きでした.

ページランク10が与えられるページはあるのか?

ウェブページのリンクを何気なくクリックしていて, 偶然ページランクが高いページに出会うと, 非常に嬉しくなります. それでは, 誰もが抱く疑問として, ページランクの最高値である10が 与えられるページは存在するのでしょうか. もしあるとしたら, それはいったいどのようなページなのか, 想像できるでしょうか. そのようなページは, ページランクの定義からも, 誰からもリンクを集める, よほど優れた特殊なページに違いありません.

実は, ページランク10を持つページは, 80億を越えるウェブページの中で, わずか数十ページしかないことが知られています. そのようなページのいくつかを紹介します.

Googleアメリカ (www.google.com)
言わずと知れた, Google の本家. さまざまなページからリンクされているだろうし, ランク10も当然と思えます.
Adobe Reader ダウンロードページ(www.adobe.com/products/acrobat/reastep2.html)
文書をPDFで配布するサイトや人は, 確かに Adobe Reader の無料ダウンロード ページへのリンクを張ることが多いと思います. 一企業でも, このように公益性の高いページはリンクを集めるという例で, なるほどと思わされました. ちなみに, この企業のトップページもランク10.
アメリカ ホワイトハウス (www.whitehouse.gov)
World Wide Web Consortium (W3C) (www.w3c.org)

ここまでは, アメリカのページばかりでしたが, 日本のウェブページで, ランク10を持つページはないのでしょうか. 実は, わずかに一つだけ存在します.

慶應義塾大学(www.keio.ac.jp)
現在, 日本でランク10のページはこれしかありません (厳密には, 英語のトップページもランク10を持ちます.). 過去に渡っても, ランク10を持ったことがある唯一の 日本のページではないかと思います. W3C の日本でのホスト校であり, W3C 内部のランク9を持つページからの リンクがあるからではないかと考えています.

個人より組織. 民より官(のランクが高い)

これは, ページランクの定義の性質上, 当然の傾向だと思われます.

具体的には, 例えば D. E. Knuth 博士のウェブページのランクが7であるのに対して, スタンフォード大学のページ が9である; 国際オリンピック委員会のページ のランクが8である; トヨタ自動車のページ が7である, などです. また, メジャーな国際会議のトップページなども高いランクが与えられます.

ここでの観察としては, 与えられるランクの限界が, 大学では9, 民間企業(ごく特殊な例外を除く)では8, 個人は7にあると見ています. それでも, ランク10のページが数十しかないことを考えると, ランク7以上は相当に重要なページであるとの評価だと思いますし, Knuth 博士のページのランクが 7であることにもうなずけます. また, 重要な組織に属している個人のページのランクは, 必然的に高くなる傾向があります.

動的に生成されるページは評価されにくい

例えば, オンラインで主として本を販売しているアマゾンという企業がありますが, そのトップページ (www.amazon.com)は, 当然高いランクを持つことが予想されます. ところが, そのページにアクセスすると, 動的に生成される複雑なURLを持つページ (例えば, www.amazon.com/exec/obidos/subst/home/home.html/002-1630752-6441634のように)へとリダイレクトされていて, 自動的にそのページへジャンプしてしまいます. そして, 行き着いた先のページのランクは0です.

Google では, このように動的に生成されるページは, 認識はするが, (原則として)ランクは与えないことになっています. しかしながら, いま例えば, ``amazon.com'' をキーワードとして検索すると, アマゾンのトップページは検索結果の筆頭に表示されます. これは, アマゾンにリンクを張る人は, リダイレクトされる複雑なURLの ページではなく, 当然その前の(仮想の)トップページに 張るからに違いありません.

アメリカのサイトは, 他の地域のサイトに比べてランクが1高い

インターネットおよびウェブが北米文化圏の発祥であることと, 全世界で英語を読める人の数が, 日本語を読める人の数と比較して 多いことを考えると, 北米, とくにアメリカのサイトが高く評価されるのは やむを得ないところだと思います.

例えば, 各国の Google のトップページのランクを比較してみても,

Google アメリカwww.google.com10
Google 日本 www.google.co.jp 9
Google フランスwww.google.fr 9
Google ドイツwww.google.de 8
Google カナダwww.google.ca 8

となり, アメリカと他の国で, 少なくともランク1の差があります. 他にもいくつか比較してみると (表中のランクは, 各サイトのトップページのもの. また, *印のサイトのURLは書きませんが, 興味のある方は, ぜひ``検索'' してみてください.),

日本 ランク アメリカ ランク
Google 日本 9 Google アメリカ 10
首相官邸* 8 The White House 10
外務省* 8 米国国務省* 9
東京大学* 9 ハーバード大学* 9
トヨタ自動車 7 General Motors* 8
松下電器産業* 7 General Electric* 8

などとなっており, ここでも概ねランク1の差があることがわかります. これらの観察から, 個人的に 「(最初に書いたように) 地理的あるいは言語的な差でありやむを得ないものの, アメリカと日本のウェブページでは, 潜在的にランク1分の差がある」 と結論づけることにします. それを認めると, 東京大学は健闘, 首相官邸はそうでもないということになります.

研究者にとっての自身のウェブページ

ここでは研究者, とりわけコンピュータサイエンス分野の研究者が持つ 個人のウェブサイト(ホームページ)に限定し, ページランクから見たその意義について考えてみます.

前節で見たように,

という観察事実があります. このことと, アメリカには実際に Knuth博士のようにランク7のページを持つ 研究者があることを併せると, 日本にランク6のページを持つような 影響力のある研究者があってもしかるべきです.

しかし, 残念ながら実態はそうではありません. これまで私の観察した範囲では, 数少ないサンプルではありますが, ランク5のページ(を持つ研究者)が最高です. 実際, 例えば 文部科学省特定領域研究 「新世代の計算限界 ---その解明と打破」に所属する すべての研究者のホームページを見渡しても, 最高のランクは 5なのです.

研究者にとっての自身のホームページは, おもに同業者と, 教育機関で講義などを担当する人は, 学生への情報提供という二つの役割が大きいと思います. このような事情は, 日本でもアメリカでも大差がないのではないでしょうか. それを考えると, もちろん私も含めて, 自分自身のウェブサイトが, さまざまな意味で貴重な情報発信源であるという認識が不足しているのかも 知れません.

おわりに

余談ですが, このように検索結果がランクにもとづいて表示されるとなると, ウェブページを作る者としては, どうしても同じキーワードでの検索結果なら, 検索結果の上位に表示されたいと思うのが人情です. これが, インターネット上で商売を営むオンラインショップなどにとっては 死活問題ですらあります. そのため, ウェブページが正当な方法で検索結果の上位に表示される (SEO (search engine optimization)とよばれる)ための方法を考案し, そのようなサイトの構築方法を提案・助言することが 一つのビジネスになるほどです. 一方, Google はそのようなアプローチを嫌い, 悪質な方法を用いるページを検索エンジンスパムとして インデックス化から除外してウェブ上から抹消しようとし, この争いは裁判にまで発展するほどです.

現在のところ, Google は比較的フェアな立場をとっているように見えるので よいのですが, 検索エンジンの世界がここまで Google を中心に回るのには, 少なからず脅威も感じます. 今回, ページランクを通して改めていろいろなウェブページを眺めて, Google のページランクが, ホームページの情報提供のあり方について, いくつかの反省材料を提供してくれたように感じました. しかしながら, もちろん Google のページランクだけがウェブページの価値を示す 唯一絶対の指標であるはずもないですし, 高いページランクが与えられることは, 結果であって目的ではありません. また, ウェブページの価値は, そのコンテンツ自身が与えるものであることも, 言うまでもありません.


[MK05]
増田 直紀, 今野 紀雄, 複雑ネットワークの科学, 産業図書, 2005.
[PBMW99]
L. Page, S. Brin, R. Motwani and T. Winograd, The PageRank citation ranking: bringing order to the Web, 1999.
[B03]
馬場 肇, Googleの秘密 ― PageRank徹底解説, 2003.

Back to Table of Contents
Last modified: Thu Jul 21 08:14:25 JST 2005
modified/maintained by R.Uehara (uehara@jaist.ac.jp)
Valid HTML 4.0!