From: fujieda at jaist dot ac dot jp (Kazuhiro Fujieda)
Message-Id: <FUJIEDA.94Mar16131213@elbereth.jaist.ac.jp>
Lines: 443
Organization: Japan Advanced Institute of Science and Technology, Ishikawa,
	Japan
Distribution: tnn
Date: Wed, 16 Mar 1994 04:12:13 GMT
Apparently-To: canna
Reply-To: Canna@astec.co.jp
X-Distribute: distribute [version 2.1 (Alpha) patchlevel=5]
X-Sequence: Canna 2257
Subject: [Canna 2257] conversion logic
Errors-To: Canna-request@astec.co.jp
Sender: Canna-request@astec.co.jp

藤枝＠ＪＡＩＳＴです。

Cannaの変換ロジックについて書く機会があったので、その一部を以下に添
付します。かなり長いです。

2 cannaserver の変換ロジック

  cannaserver では、ひらがな、カタカナ、英数字などを含むベタ書き入力に対する、
連文節変換と逐次自動変換が可能である。ここでは連文節変換の変換ロジックについ
て述べる。

自立語を取り出す

  cannaserver は入力が与えられると、まず自立語辞書から、入力の先頭から一致す
る読みを持つ自立語を取り出す。例として「きょうのあさは」という読みに対して、
取り出される自立語を表1に示す。
_____________________________________________________________________________

             読み
             き 器[T35]切[R5]聞[K5] 来[kxi] 着[KS]期[SX]
                    貴[KJ] 帰[S5]利[K5r]器[SUC] 基[JS]既[PRE]
             きょ 居[T35]許[KJ]
             きょう 今日[T35]教[CNSUC1]共[KJ] 供[S5]供[T30]
                    興[ZX]強[JSSUC] 強[PRE]教[JNSUC]
_____________________________________________________________________________

         表1: 「きょうのあさ」という入力に対して取り出された自立語


  辞書にはもっと多くの単語が存在するが、最初は同じ読みで同じ品詞を持つ単語に
ついては、一番最近に使用された単語しか取り出さない。文節の区切り位置を決定し
た後に、改めてすべての単語を取り出して文節を作り直すようになっている。
  かぎかっこの中は品詞コードである。表1に現れている品詞コードと品詞との対応
を表2に示しておく。
  現在のcannaserver の変換ロジックでは接頭語と接尾語をうまく扱うことができな
いので、一部の接尾語以外はすべて自立語として扱っている。これらの接尾語・接頭
語の扱いは他の自立語と全く同じであり、接尾語、接頭語に関する特別な文法解析は
一切行われていない。
  自立語辞書に登録されている単語以外にも、一文字のかなや英数字について、名詞
の品詞コードを割り当てて自立語とする。上の例にでは「き[T35]」が自立語として
加えられる。

自立語に付属語を接続させる

  次に、自立語の後に続く読みを持つ付属語を付属語辞書から取り出して、接続可能
なものを自立語につなげる。付属語の接続は接続表に基づいて行われる。接続表には、
ある品詞とある品詞が接続するかどうかが示されている。接続に重みの概念はなく、
接続する/しないのどちらかである。
  付属語にさらに付属語が接続する場合があるので、付属語を接続させる作業は繰り
返し行われる。付属語が接続した自立語を表3に示す。かぎかっこの中身は同じく品
詞コードである。

----------------------------------------------------------------------------
                 品詞コード 品詞           品詞コード 品詞

                 名詞                      動詞
                 T30        サ変名詞       kxi        カ変の連用形
                 T35        一般的な名詞   その他
                 動詞語幹                  KJ         単漢字
                 K5         か行5段活用    自立語以外
                 K5r        か行5段で      PRE        接頭語
                            連用形が名詞化 SUC        接尾語
                 R5         ら行5段        CNSUC1     地名接尾語
                 S5         サ行5段        JNSUC      人名接尾語
                 KS         上下一段       JSSUC      助数詞接尾語
                 SX         サ行変格       JS         助数詞
                 ZX         ザ行変格 
----------------------------------------------------------------------------
                        表2: 品詞コードと品詞の対応表

----------------------------------------------------------------------------
                    今日[T35]の[JTNO]   今日[T35]の[Kno]
                    教[CNSUC1]の[JTNO]  教[CNSUC1]の[Kno]
                    供[T30]の[JTNO]     供[T30]の[Kno]
                    強[JSSUC]の[JTNO]   強[JSSUC]の[Kno]
                    教[JNSUC]の[JTNO]   教[JNSUC]の[Kno]
----------------------------------------------------------------------------
                         表3: 付属語が接続した自立語

  表3にあらわれている、付属語の品詞コードの一つJTNO は準体助詞の「の」である。
「行くのをやめる」「僕のをあげる」などの「の」に相当する。もう一つの付属語
Kno は格助詞の「の」である。JTNO は単独で文節になることができる自立語のすべ
てに接続する。Kno は体言のほとんどに接続する。付属語辞書には、これらの助詞や
助動詞の他に、「ので」「から」「のに」などの一部の接続語と、動詞と助動詞の活
用語尾が含まれている。

文節の候補を決定する

  付属語を接続させたら、これまでに生成された文節の候補_自立語、自立語+付属語、
自立語+付属語+付属語…_のうち、文節になり得ないものを捨てる。文節になる/なら
ないは、一番最後の単語が文節末になるかどうかで判断する。接続表には、それぞれ
の品詞と文節末というダミーの品詞との接続情報も含まれている。これを利用して、
一番最後の単語の品詞について文節末になれるかどうかの判定を行う。
  残ったものが文節の候補である。これを表4に示す。

----------------------------------------------------------------------------
           読み
           き       器[T35] 着[KS] 貴[KJ] 器[SUC] 基[JS] き[T35]
           きょ     居[T35] 許[KJ]
           きょう   今日[T35] 教[CNSUC1] 共[KJ] 供[T30] 強[JSSUC] 教[JNSUC]
           きょうの 今日[T35]の[Kno] 教[CNSUC1]の[Kno] 供[T30]の[Kno]
                    強[JSSUC]の[Kno] 教[JNSUC]の[Kno]
----------------------------------------------------------------------------
                           表4: 最初の文節の候補

続く文節の候補を生成する

  cannaserver は文節の区切り位置を2文節最長一致法[3]を用いて決定する。2文節
最長一致法とは、連続する2文節の長さが最長になるように最初の文節長を決定して、
続く文節について同様に評価を繰り返していく方法である。
  この方法で文節長を決定するためには、連続する文節が2つ必要なので、最初の文
節の候補のそれぞれについて、連続する文節の候補を同じ手順で生成する(表5)。

----------------------------------------------------------------------------
   最初の文節 続く文節  文節の候補
   き         ょ        ょ[T35]
   きょ       う        鵜[T35] 雨[KJ] 雨[SUC] う[T35]
              うの      宇野[JCN] 鵜[T35]の[Kno] 雨[SUC]の[Kno] う[T35]の[Kno]
   きょう     の        野[T35] 之[KJ] の[T35]
              のあ      ノア[JN]
              のあさ    ノア[JN]さ[Zsa]
   きょうの   あ        あ[CJ] 阿[KJ] あ[T35]
              あさ      朝[T35] 浅[KJ] 安佐[JCN] あ[T35] さ[Zsa]
              あさは    朝[T35] は[Fha] 安佐[JCN] は[Fha]
----------------------------------------------------------------------------
                          表5: 連続する文節の候補


  Fha は係助詞と格助詞の「は」の両方を意味する付属語である。Zsa は終助詞の
「さ」、「今日も元気さ」の「さ」を意味する付属語である。

文節長を決定する

  先に述べたようにcannaserver は2文節最長一致法で文節長を決定する。連続する2
文節が最長になるのは、第1文節を「きょうの」で区切ったときである。最長になる
区切り位置が複数存在するときには、最も高い優先順位を持つ自立語を含む文節が、
第2文節になるように第1文節の長さを決定する。自立語の優先順位については後述す
る。自立語の優先順位で優劣がつかない場合には、第2文節の長さが最も長くなるよ
うに第1文節の長さを決定する。
  文節長が決まったところで、すべての自立語を用いて文節の候補を作り直す。こう
して決定した第1文節の候補を表6に示す。数字で示してあるのは候補の優先順位であ
る。文節の候補の優先順位は、文節に含まれる自立語の優先順位に基づいて決定され
る。自立語の優先順位で優劣がつかない場合には、単語数の少ない文節が優先される。

----------------------------------------------------------------------------
         1: 今日[T35]の[Kno]  2: 教[CNSUC1]の[Kno] 3: 京[T35] の[Kno]
         4: 供[T30]の[Kno]    5: 境[T35]の[Kno]    6: 卿[T35] の[Kno]
         7: 強[T35]の[Kno]    8: 興[T35]の[Kno]    9: 凶[T35] の[Kno]
         10: 狂[T30]の[Kno]   11: 饗[T30]の[Kno]   12: 経[T35] の[Kno]
         13: 強[JSSUC]の[Kno] 14: 教[JNSUC]の[Kno]
----------------------------------------------------------------------------
                             表6: 第1文節の候補

残りの文節を決定する

  決定した文節の読みを除いた、残りの読みについて同様に文節を決定していく。上
の例では、入力の残りの「あさは」について第2文節の候補として表7の文節が生成さ
れる。cannaserver は2文節最長一致法を用いて文節の区切り位置を決定するが、1文
節で最長になる場合には無条件に1文節の方を採用する。

----------------------------------------------------------------------------
                     1: 朝[T35]は[Fha]   2: 麻[T35] は[Fha]
                     3: 安佐[JCN]は[Fha] 4: 厚狭[JCN] は[Fha]
----------------------------------------------------------------------------
                             表7: 第2文節の候補

  すべての文節が決定した時点で、各文節の一番最初の候補を用いてユーザに変換結
果を示す。ユーザは変換結果が意図した通りのものでなければ、別の文節の候補を選
択したり、文節長を変更したりして、変換結果を操作する。そして、意図した変換が
得られたところで変換を確定する。cannaserver は、次回以降の変換で、よりユーザ
の意図に近い変換結果が得られるようにするために、確定された文節に基づいて変換
の学習を行う。



3 cannaserver の学習機能


現在のcannaserver の学習機能

  cannaserver はユーザによる候補の選択や、文節長の変更を次回以降の変換に反映
させるために、自立語の優先順位を、最も最近に用いられたものが高くなるように並
べ替える。
  自立語の優先順位は、一番最近に用いられた時刻と、辞書の登録順によって決定さ
れる。ここで用いられている時刻は、サーバが起動したときに初期化され、ユーザに
よって変換の確定が行われるたびにインクリメントされる数値である。自立語の優先
順位は、使用された時刻と現在時刻との差が最も小さいものが一番高くなる。
  現在のバージョンでは、自立語が用いられた時刻は、辞書のアクセス頻度を減らす
ために用いられているメモリ上のキャッシュに保存されるため、クライアントとサー
バの接続が切れた時点で情報が失われてしまう。また、長い間用いられていない自立
語はキャッシュから外されるので、その自立語に関する情報が失われる。さらに、使
用された時刻と現在時刻の差が十分大きいときには、かなり昔に使われたという情報
だけを残して丸めてしまうので、この場合にも時刻に関する情報が失われる。
  時刻に関する情報がないときには、辞書の登録順が自立語の優先順位として用いら
れる。自立語辞書には、同じ読みを持つ自立語はシーケンシャルに登録されている。
この登録順が自立語の優先順位になる。
  cannaserver は、ユーザが変換を確定したときに、確定された文節に含まれている
自立語の用いられた時刻を現在時刻に書き換える。それと同時に、同じ読みで登録さ
れている自立語の登録順を、確定された文節に含まれているものが先頭に来るように
並べ替える。
  例えば、『かんな』の自立語辞書には、「あさ」という読みで「朝[T35] 浅[KY] 
麻[T35] 漁[R5r] 浅[KJ]安佐[JCN] 厚狭[JCN]」の7つの単語がこの順で登録されてい
る。先ほどの変換例で、「あさは」という読みに対してユーザが「安佐は」という文
節を選択して確定したとすると、cannaserver は「安佐」という単語が先頭になるよ
うに登録順を入れ換える。この結果、優先順位が「安佐[JCN] 朝[T35] 浅[KY] 麻
[T35] 漁[R5r] 浅[KJ] 厚狭[JCN]」のように変化する。

現在の学習機能の問題点

  現在の学習機能の問題点は、辞書の登録順に基づく優先順位で、変換結果を学習で
きない場合が多いことである。用いられた時刻の情報がなく、登録順に基づく優先順
位しか用いることができない場合には、文節長の決定と文節の候補の優先順位の決定
の両方で問題が発生する。
  cannaserver は「よわい」という読みに対して「1: 齢2: 弱い」という文節の候補
を生成する。ユーザが「弱い」の方を選択して確定すると、「よわ」という読みを持
つ自立語間の優先順位が変化する。しかし、「齢(よわい)」と「弱(よわ)」では登録
されている読みが違うため、登録順に基づく優先順位だけでは、この二つの間の優先
順位を決定することはできない。前に述べたように、文節の候補の順位が自立語の優
先順位で決まらない場合には、文節数の少ない方が先になる。よって、時刻の情報が
ないときには、常に「よわい」という読みに対する最初の候補が「齢」になってしま
う。
   「ぼくはしる」という入力に対して、連続2文節が最長になる文節の区切り方が
「僕走る」と「僕は知る」の二通り存在する。先ほど述べたように、文節の区切り方
が複数存在するときには、第2文節の自立語の優先順位を用いて、どの解釈を取るか
を決定する。この場合には「走(はし)」と「知(し)」の優先順位に基づいて決定され
るが、読みが異なっているので辞書の登録順に基づく優先順位では決定できない。文
節の区切り位置が、自立語の優先順位で決定できない場合には、後ろの文節が長くな
る方が選ばれる。よって、時刻の情報がないときには、常に「僕走る」と変換されて
しまう。

  現在有志によってテスト中の新しいバージョンの『かんな』では、読みの異なる自
立語間の優先順位も学習ファイルに保存されるようになっている。上に示した問題は
新しいバージョンでは発生しないといって良い。変換ロジックの改善にあたっては、
自立語の優先順位の学習については全く問題がないものとする。


4 cannaserver の変換効率の測定

  現在のcannaserver の変換ロジックの問題点を洗い出すために変換効率を測定する。

4.1 変換効率の測定にあたって

  変換効率の測定を自動化する試みがいくつか行われているが[1, 2]、これらは学習
によって変換効率が大きく変化しないような、かな漢字変換システムを対象としてい
る。『かんな』の変換ロジックは学習結果によって変換結果が大きく異なるので、こ
れらの自動化の試みを適用することはできない。よって文章の入力変換は手作業で行
う。
  変換は句読点までの読みを一度に入力して句読点をトリガとして行う。これは『か
んな』の変換ロジックが、文節をどれくらい正確に区切ることができるかを調べるた
めである。句読点以外のところで変換を行うと、それが文節の区切り位置のヒントに
なってしまう。
  変換効率の測定に用いる文章としては、中公新書の「理科系の作文技術」を用いる。
『かんな』はUNIX上の日本語入力システムであり、UNIX 上で作成される文書の大半
が技術文書である。必要以上に一文が長い文章や、くどい言い回しや、ていねいな言
葉使いなどを正確に変換できる必要はない。そこで、これらを排除した文体が用いら
れている「理科系の作文技術」を採用した。また、『かんな』は単純な変換ロジック
を採用しているので、どんな種類の文章についても変換効率がかなり低いことが予想
できる。従って、文章の種類について特に考慮する必要はない。
   『かんな』は会話文などのくだけた文体を容易に変換するための辞書を持ってい
る。この辞書は、電子メールの作成など日常的な文章の作成の役に立つ。しかし、こ
の辞書に登録されている単語によって、変換効率がかなり下がることが報告されてい
る。そこで、この辞書を使用する場合と、しない場合でどの程度変換効率が変化する
かも測定する。
  最初に、述べたように辞書の語彙数の不足や誤った登録を原因とする誤変換は、誤
変換としてカウントしない。これは辞書の要因を排し、純粋に変換ロジックの性能を
測定するためである。語彙数の不足が原因だった場合には、登録されていなかった語
を登録して改めて変換を行う。
  変換効率の測定は、現行バージョンと現在テスト中のバージョンの二つについて行
う。先ほど述べたように、新しいバージョンでは異なる読みの自立語間の優先順位の
学習が強化されているので、その効果を測るためである。ただし、どちらのバージョ
ンも学習内容はすべて初期化した状態で変換を行う。


4.2 測定結果

   「理科系の作文技術」の第一章5256 文字を入力するために登録した語彙は55 個
だった(付録Aに付けた)。登録した語彙は、登録しないと致命的に変換効率が下がっ
てしまうもののみにとどめた。測定結果を以下に示す。
                                                                       
変換サーバ  辞書          文節数 候補誤り   文節長誤り トータル
                                                                         
version 2.2 hojoswd.tなし 1513   166(11.0%) 52(3.4%)    212(14.0%)
                                                                          
version 2.2 hojoswd.tあり 1495   149(10.0%) 63(4.2%)    204(13.6%)
                                                                          
version 3.2 hojoswd.tあり 1493   148(9.9%)  60(4.0%)    199(13.3%)
                                                                          
   「候補誤り」は、同じ読みを持つ文節の候補について、意図したものと異なった
ものがユーザに示された場合を表している。「文節長誤り」は正しく変換するために
文節長の変更が必要だった場合を表している。「トータル」が「候補誤り」と「文節
長誤り」の合計にならないのは、一つの文節について、候補と文節長の両方の誤りが
発生した場合には、片方しかカウントしていないためである。
  入力は手作業で行ったが、変換のログを取る仕掛けをcannaserver に組み込んでお
いて、変換効率の計算はそのログファイルを用いて行った。


4.3 評価結果の考察

変換効率は本当は高くない

  まず、意外と高い変換効率を示していることに注目して欲しい。[2]に示されてい
るパソコン用の日本語入力システムで行った、変換率の評価結果である80:7%と76:8%
(これらは正解率)という数値と比べても明らかに高い。
  これは単に辞書に登録されていない語彙を追加してから評価を行ったためである。
登録した語彙は78回も用いられている。これらの語彙がなければ、さらに周辺の文節
にも誤変換が発生しただろうから、変換効率はかなり下がることになる。また、 [2] 
では文章の入力変換が完全に自動化されているため、人手による誤変換の修正、学習
は全く行われていない。それに対して今回の変換効率評価では、誤変換をいちいち手
で修正して学習させながら行った。これも変換効率を高めた要因となっている。

hojoswd.t の利点と欠点

  hojoswd.t というのが、先に述べたくだけた文体を変換するための辞書である。こ
の辞書には主に「…よ」「…ね」「…さ」「…かい」「…もの」などの、くだけた文
体で用いられる終助詞や、「けれど」「でも」「だけ」などのくだけた文体で主に用
いられる接続詞などが登録されている。
   「理科系の作文技術」では「だけ」が多用されているため、hojoswd.t なしの変
換では候補誤りが多発した。また、「理科系の作文技術」では「けれど」などのやや
くだけた接続詞も数多く用いられている。『かんな』では接続詞は付属語として扱う
ため、hojoswd.t を用いるとこれらの接続詞が付属語として変換される。このため
hojoswd.t ありの変換では、なしの場合と比べて文節数が少なくなっている。
  hojoswd.t を用いた場合に文節長の誤りが明らかに増加しているのがわかる。これ
は、先にあげた終助詞によるものである。例えば、「私の言うように書いた報告書は」
という文章を変換する際に、「かい」という終助詞によって「私の言うようにかい他
方国書は」という誤変換が生じている。表8にログファイルから終助詞を原因とする
誤変換を取り出したものを示す(見やすくなるように整形した)。

----------------------------------------------------------------------------
             誤変換 文節長変更
                 [BB]言[W5]う[w5u]よう[youda]に[kdni]かい[Zkai]
                 → [BB]い[W5]う[w5u]よう[youda]に[kdni]
             誤変換 文節長変更
                 [BB]自身[T35]が[Kga]よ[Zyo] → [BB]自身[T35]が[Kga]
             誤変換 文節長変更
                 [BB]遣い[SUC]を[Kwo]し[sxi]ても[ktemo]か[Zka]
                 → [BB]遣い[SUC]を[Kwo]し[sxi]ても[ktemo]
             誤変換 文節長変更
                 [BB]祖[T35]の[JTNO]かい[Zkai] → [BB]その[RT]
             誤変換 文節長変更
                 [BB]ことわ[R5]り[r5i]な[Zna] → [BB]ことわ[R5]り[r5i]
             誤変換 文節長変更
                 [BB]等[SUC]と[Kto]かい[Zkai] → [BB]など[T35]と[Kto]
             誤変換 文節長変更
                 [BB]能力[T35]が[Kga]な[Zna] → [BB]能力[T35]が[Kga]
             誤変換 文節長変更
                 [BB]声[T35]を[Kwo]よ[Zyo] → [BB]声[T35]を[Kwo]
----------------------------------------------------------------------------
                        表8: 終助詞を原因とする誤変換


学習の利点と欠点

  変換の学習によって、誤変換を回避できたパターンは非常に多い。例えば、冒頭の
「英国の宰相の座についた」という文章で「ついた」が平仮名になっているが、ここ
で一つ誤変換が発生している。

     誤変換 [BB]付[K5]い[k5iO]た[kta] -> [BB]つ[K5]い[k5iO]た[kta]

ここで「つ」という自立語に関する学習が行われているので、「この順に従ってつけ
た」の「つけた」や、「事実や状況について」の「ついて」などで誤変換を回避でき
ている。これは候補選択を学習した例である。文節長変換を学習した例では、「報告
書をもっと短くするように」という文章で、以下の誤変換が発生している。

     誤変換 文節長変更 [BB]方[T35] -> [BB]報告[T30]

これは「報告書」が「方国書」という誤変換になっていることを表している。ここで
「書」について学習が行われているので、以降の「報告書」は正しく変換されている。
  逆に学習によって誤変換が生じている場合もある。「どれだけ生き生きと描かれて
いるかによって」という文章で、以下の誤変換が発生している。

 誤変換[BB] 書[K5]か[k5a]れ[reru]て... -> [BB]描[K5]か[k5a]れ[reru]て...

ここで「描」についての学習が行われるため、その後の「思い浮かべるだろうと書い
たのは」という文章で、「思い浮かべるだろうと描いたのは」という誤変換が生じて
いる。この種の誤変換は、同音候補に対する特別な解決策を持たない、かな漢字変換
では避けることができない。

不完全な学習

  一つ気になるのが、「理科系の作文技術」で多用されている「理科系の」という文
節の学習がうまくいっていないことである。最初に学習情報がない状態で変換したと
きには、「理 家系の」と変換されてしまう。「理科 系」という単語は辞書に登録さ
れていないので2文節になるのはやむを得ない。この変換結果は、後の文節が長くな
るように取るという、学習情報がないときの文節長決定のアルゴリズム通りである。
これを「理科 系の」に修正すると「系」の学習効果から、以降は「理科系の」と変
換されるはずである。
  ところが、なぜか以降に7回も「理科系の」が「理 家系の」と変換される誤変換が
発生している。これはすべてのバージョンのすべての場合について全く同様である。
ちなみに「理科系の作文技術」では「家系」という単語は一回も用いられていない。

  この原因は、学習に基づいて文節長を決定するアルゴリズムにある。先に述べたよ
うにcannaserver は連続2文節が最長になる解釈が複数存在する場合には、第2文節の
自立語の優先順位を調べて、優先順位が一番高いものが採用されるように第1文節の
文節長を決定する。この優先順位を調べる際に、第2文節のすべての候補の自立語の
優先順位を調べて、一番高いもの同士を比較している。
   「理科系」と「理家系」はどちらも連続2文節が最長になる解釈である。「理科」
と「理」のどちらで切るかは第2文節の候補の自立語の優先順位で決定される。「理」
で文節を切ったときの第2文節の候補を表9に、「理科」で文節を切ったときの第2文
節の候補を表10に示す。

----------------------------------------------------------------------------
             化[T30]   可[T35]   火[KJ]    価[JS]     下[SUC]
             化[N2T30] か[T35]   かけ[KS]  欠け[KSr]  掛[KJ]
             加計[JCN] 賭[T35]   書[K5]け[k5e]        家系[T35]
             筧[KJ]    筧[JNS]   家系[T35]の[Kno]     筧[JNS]の[Kno]
----------------------------------------------------------------------------
                     表9: 理で切ったときの第2文節の候補

----------------------------------------------------------------------------
         家[JNSUC] ヶ[KJ]   毛[T35] け[T35] 系[T35]
         計[KJ]    啓[T30]  圭[JNM] 形[SUC] 系[T35]の[Kno]
         啓[T30]の[Kno]  圭[JNM]の[Kno]  形[SUC]の[Kno]
----------------------------------------------------------------------------
                     表10: 理科で切ったときの第2文節の候補

  表9に「書け」が含まれていることに注目して欲しい。「書く」と変換すると「書」
の優先順位が上がるため、「書け」がこの候補の中で一番高い優先順位を持つように
なる。そして「系」よりも「書」の方が最近に用いられている場合には、優先順位は
「系の」よりも「書け」の方が高くなるので、第1文節の文節長が「理科」でなく
「理」となってしまうのである。
  第2文節として実際に採用された「家系の」と「系の」についだけ比較すれば、
「系」の方が優先順位が高いので「理科系の」と正しく変換される。しかし、第2文
節として何が採用されるかは、次の文節について2文節最長一致法を用いないとわか
らない。したがって、すべての候補の自立語について優先順位を検討するという方針
は誤りとはいえない。

新しいバージョンは意外と変換効率が低い？

  現在テスト中の新しいバージョンであるversion 3.2ff0 の変換効率が思ったより
上がっていない。この原因は、異なる読みの自立語の優先順位が長期間に渡って残っ
ていることを原因とする誤変換が数個発生したためである。このうち一部は、文節長
の決定に学習結果を適用するアルゴリズムが、悪い方に影響して発生したものである。
ただし、学習が長期間に渡って残っていることがいい方に影響した場合が、それ以上
に多いので、文節長の決定については古いバージョンよりもよい結果が出ている。
  古いバージョンでは同じ読みの自立語間の優先順位しか保存されない。しかし、新
しいバージョンでは異なる読みの自立語の優先順位が、サーバとの接続を切った後に
も持ち越されるようになっている。よって、学習情報が存在している状態での評価で
は、新しいバージョンの方が大幅によい結果が出ることが予想できる。
--
____
  | ＡＩＳＴ    北陸先端科学技術大学院大学
  | HOKURIKU    情報科学研究科 落水研究室
o_/ 1990        藤枝 和宏 fujieda at jaist dot ac dot jp

