Date: Fri, 19 Sep 1997 20:26:09 +0900 (JST) Message-Id: <199709191126.UAA04739@rialto.m1.uxd.fc.nec.co.jp> From: Akira Kon To: Canna@nec.co.jp In-Reply-To: <199709080712.QAA24689@mikan.jaist.ac.jp> References: <199709080712.QAA24689@mikan.jaist.ac.jp> Mime-Version: 1.0 Content-Type: text/plain; charset=ISO-2022-JP Reply-To: Canna@nec.co.jp X-Distribute: distribute [version 2.1 (Alpha) patchlevel=19] X-Sequence: Canna 5005 Subject: [Canna 5005] Re: =?ISO-2022-JP?B?GyRCSjhAYTZoQFokajNYPSwbKEI=?= Errors-To: Canna-request@nec.co.jp Sender: Canna-request@nec.co.jp こんにちは、今です。 藤枝 和宏(FUJIEDA Kazuhiro) さんの 08 September 1997 の電子メール [Canna 4982] 文節区切り学習 にて、 > -divオプションで大きさを指定することもできるので、 > dic/ideo/words/Imakefile で > CRFREQ = $(CANNACMDDIR)/crfreq/crfreq -div 4096 > と-divオプションを加えると文節学習するようになります。 > ただ、僕はこの辺のコードを真面目に読んでないので、どのくらいの数値が > 適切なのか見当もつきません。お忙しいとは思いますが、ちょろっと教えて > もらえませんか > 今さん 確認しました(時間がかかりましたねえ(^^;) _o_)。 512 ぐらいが適当かと思われます。また、全ての学習ファイルに -div が必要なわけでもありません。自立語が入っている学習ファ イルにあれば十分でしょう(そういう意味でデフォルトが 0 になっ ています)。 フリーのソースで学習ファイルを作る時は -div オプションを使っ ていないので文節長学習がうまくないのかもしれないですね(事実 関係未確認)。 ちなみにここに確保されるエリアには文節長学習データが「学習文 節の読み」の生データで格納されます。大きく領域を取るとかなり 昔のまで学習します。まあバランスするのが 512 ぐらいかな、と いったレベルです。 -- 今 昭(こん あきら) http://www.nec.co.jp/Canna/