Research topics

Statistical Estimation of Vocabulary Size Including "Unseen" Words.

The number of unique words in children’s speech is one of most basic statistics indicating their language development. We may face, however, to a difficulty to accurately evaluate the number of unique words in a child’s growing corpus over time with a limited sample size. This study proposes a novel technique to estimate the latent number of words from a series of words uttered by children. This technique utilizes statistical properties of the number of types as a function of the number of sampled tokens. We tested the practical effectiveness of the proposed method in the empirical data analysis of the cross-sectional and longitudinal samples. The converging empirical evidence suggests that the proposed estimator improves the accuracy of vocabulary size estimation over a naïve type-counting estimators. Utilizing this efficient estimator, we propose a new sampling scheme for vocabulary assessment that has lower cost and higher accuracy compared to existing methods.


Vocabulary growth; Small sample size; Number of latent types; Type–token ratio;


任意のある確率分布に従って単語を抽出する場合に,抽出単語数に対する単語の 種類数の確率分布がポアソン二項分布に漸近的に従うことを証明しました (Hidaka, 2014, Biometrika)。 この結果を用いると,抽出した単語数に対する単語種類数のデータから,潜在的 にどの程度の数の未知の単語種類数が存在するか統計的に見積もることが可能に なります。従って,この成果を応用することで,言語獲得期の幼児の獲得単語数, コーパスデータの単語数,生態系における種数,など,様々な分野で未知の項目 の種類数をより正確に概算する事が可能になります。

この理論的な結果を受けて、実際の幼児の語彙数を分析したところ,従来のように単に観察された語彙数 よりもより正確に語彙数を見積もることが可能である事が分かりました。 この研究成果はJournal of Child Language誌(Hidaka, S., accepted)にて発表しました.

Related papers (See also other publications/ 関連する発表論文 (その他の論文など)

トップ   編集 凍結解除 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2014-12-11 (木) 20:00:01 (1132d)