[ 言語情報科学論 A] 統計的言語モデル -grams 2007 年 04 月 23 日 言語情報科学講座林良彦教授 Text: Courtesy of Dr. Jurafsky D. ad Dr. Marti J.H: Speech ad Laguage rocessig st editio retice Hall 2000 & 2 d editio http://.cs.colorado.edu/~marti/slp2.html Copyright 2007 Yoshihiko Hayashi Osaka Uiversity
Ageda: Text: Jurafsky D. ad Marti J.H: Speech ad Laguage rocessig 2 d Editio CH 4 http://.cs.colorado.edu/~marti/slp2.html [] の中は Text の対応箇所 統計的言語モデルコーパスと頻度統計 [4.] Simple -grams [4.2] -gram と学習データへの依存性 [4.3] erplexity: -grams の評価 [4.4] ゼロ頻度問題とその対応 Smoothig [4.5] Iterpolatio [4.6] Backoff [4.7] Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 2
統計的言語モデルとコーパス 言語に対する自然科学的アプローチ ある言語 例 : 英語 の発話された 記録された言語を観察し よく近似するモデルを数学的な立場から作るコーパス corpus corpora plural 発話された 記録された言語を電子的に記録したデータ コーパス言語学 corpus liguistics 数学的なモデル : 統計的言語モデル statistical laguage model または単に laguage model 次に来る語を予測 : I d like to make a collect ある言語においてある表現 単語列 が生成される確率を推定する Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 3
言語モデルの学習と適用 学習データ コーパス 学習 traiig 言語モデル テストデータ 言語表現 文 単語列 適用 applicatio 言語表現の推定生起確率 評価 : close test: 学習データ 評価データ ope test: 学習データ 評価データ -fold cross validatio: 学習データを 分割し - を評価データとして取っておき 回の評価の平均をとる Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 4
補足 : コーパスに関連して 言語学研究のスタンス コーパス利用はどちらかというと後者の立場 演繹的 deductive 帰納的 iductive 理論的 ratioal 経験的 empirical コーパスの分類 サンプル sample モニター moitor 通時的 diachroic 共時的 sychroic コーパスの加工 生 ra コーパス タグ付 tagged コーパス有名なコーパス Bro Corpus 964; Bro Uiv. 00 万語規模のサンプルコーパス LOB Corpus Lacaster-Oslo/Berge Corpus of British Eglish 978 Bro Corpus の英国版 The Bak of Eglish 99~; COBUILD team ~4.5 億語 BC Corpus 994; Oxford Uiv. ress ほか 億語規模 Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 5
コーパスと頻度統計 ordform と lemma ordform: 単語の出現形 cat と cats は別 lemma: 単語の原形 cats と cat を同一視 lemmatize: 原形を求めること type と toke type: 異なり単語 distict ord type の数 vocabulary size toke: type の一つ一つの istace 例 : Bro Corpus: 00 万の ordform tokes 6805 の ordform type 3785 の lemma type TTR type/toke ratio: この値が高いということは 多様な語が使用されている傾向にある Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 6
-grams 0 2 3 --- -gram: 個の単語の連鎖に注目する -gram 確率 probability: ある -gram が出現する確率を求める / 推定する Zero-gram: 全ての単語に一定の出現確率を与える Ui-gram -gram: ある単語の出現確率を考える とりあえず ある単語の出現確率 出現頻度 toke 数 / 総出現単語数 全ての type についての toke 数の和 Bi-gram 2-gram: 隣の単語とのペアの出現確率を考える Tri-gram 3-gram: 3 つの単語の組の出現確率を考える Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 7
重み付きオートマトン eighted automata 前回 : ノードが状態 アークが入力文字 今回 : ノードが単語 アークが単語の連鎖確率 bi-gram probability として考える これを 次の ;first-order マルコフ連鎖 Markov chai という 0.6 have.0 0.3 book.0 I 0.4.0 a 0.7.0. buy pe 確率なので あるノードから出て行くアークに付与された値を合計すると になる 文の確率は 通過するアークに付与された値の積となる Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 8
Bi-gram model - : - の次に が来る確率 事後確率 単語列 2... 2 L k have I k k 0.6 have.0 0.3 book.0 <s>.0 I 0.4.0 a 0.7.0. buy pe Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 9
Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 0 文の生起確率と Bi-gram model の意味ひるがえって考えてみると 文 単語列 2... の生起確率は 次のように計算されるはず一方 先ほどの式は つまり k 番目の単語の生起確率は k- 番目の単語にのみ依存するという近似がなされている! 2 3 2 2 k k L L L 2 k k k L
Copyright 2007 Yoshihiko Hayashi Osaka Uiversity -gram -gram: k 番目の単語の生起確率は k- 番目から k- 番目までの単語にのみ依存するという近似 式で書くと 6.8 式 Tri-gram: 前 2 つの単語を考慮する. 実用的に良く使われる 6.8 式の右辺の各項はどのようにして求めるのか? 最尤推定 Maximum Likelihood Estimatio: コーパス中における生起頻度を数えて その相対頻度 relative frequecy を確率だと考える C C C C bi-gram の場合 -gram
-gram と学習データへの依存性 [4.3] を大きくすると : よりよいモデルを構築できる 可能性がある Shakespeare 風テキスト生成の例 Fig.4.3 : が大きくなるとそれっぽくなっていく学習データ traiig data への依存性 WSJ から学習した -gram を使って生成したテキストの例 Fig.4.4: やはり新聞風? 包括的な comprehesive な英語のモデルを作ろうとするなら 異なるジャンルのテキストを含んだ大量のデータが必要逆にあるジャンルに特化したモデルを作ろうとするならば 目的にあったテキストの収集が必要 Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 2
erplexity [4.4] 言語モデルの評価 : 応用システムに適用して評価する edto-ed evaluatio べきであるが 大変なので 性能の推定ができると良い perplexity : より良くテストデータに当てあまるモデル すなわち テストデータに対してより高い確率を割り当てる の方が良いモデル. 定義は下式. 小さいほどよい. 例 : 2---0 からなる整数 : 各数字が等確率で出現すると仮定すると W 0. どれかの数字が他に比べて良く出現するなら W は小さくなる W 2 L L 2 L i i i 推定確率を長さで正規化 chai rule で書き換え Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 3
ゼロ頻度問題とその対応 -gram の をどんどん大きくしていくと 細かな言語現象をとらえることができる 可能性がある 単位の数が指数的に増加する 組み合わせの爆発 コーパス中に生起するデータが不足する data sparseess の問題 zero probability 基本的な対応 smoothig: 確率が 0 あるいは 非常に低い値になるものを補正する " 見えるもの " コーパスに存在するもの 以外のデータを想定する 基本的な方法 discoutig: o-zeroのものの確率を 最尤推定の値から 割り引いて zeroになっているものに割り当てる back-off / iterpolatio: より低次の Tri-gramがzero-coutならBi- gram Ui-gramの 頻度を用いる Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 4
Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 5 Laplace smoothig [4.5.] add-oe: すべての単位の頻度を する V C C V c c V c c Laplace i i i i Laplace i i * * bi-gram の場合も Courtesy of Dr. Jurafsky D. ad Dr. Marti J.H: Speech ad Laguage rocessig 2d editio http://.cs.colorado.edu/~marti/slp2.html
Good-Turig Discoutig [4.5.2] すべての単位の頻度を一律に するのは いかにもよろしくない頻度の頻度 frequecy of frecuecy を考える 頻度 0 の単位の数 頻度 の単位の数 頻度 c の単位の推定生起頻度を頻度 c の単位の生起頻度から求める c * c * GT : 頻度がcの単位の数 c c c usee Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 6
Good-Turig の例 J&M 2 d CH.4 pp.20~2 fishes i a lake 8 species: bass carp catfish eel perch salmo trout hitefish today s results: 0 carp 3 perch 2 hitefish trout salmo eel What is the probability that ext fish e catch ill be a e species that is catfish or bass? Courtesy of Dr. Jurafsky D. ad Dr. Marti J.H: Speech ad Laguage rocessig 2d editio http://.cs.colorado. edu/~marti/slp2.html * GT catfish 2 3 8 0.85 Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 7
Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 8 Iterpolatio [4.6] / Backoff [4.6] 基本的な考え方 : より低次の情報で補完する 常に一定の割合で混合する : Iterpolatio ゼロ頻度の場合のみ低次の情報で補完する : Backoff Iterpolatio Backoff i i 3 2 2 2 ^ λ λ λ λ Courtesy of Dr. Jurafsky D. ad Dr. Marti J.H: Speech ad Laguage rocessig 2d editio http://.cs.colorado.edu/~marti/slp2.html
補足 : Zipf の法則 Zipf's La 単語の出現頻度の分布に関する経験則 ありふれた語ほど良く出現する tautology? 番目に良く出現する語の出現頻度は 番良く出現する後の出現頻度の / 程度 式で書くと 出現順位 の単語の出現確率 は C を定数として C C0. としたグラフ Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 9
補足 : 言語のエントロピー エントロピー : 系の複雑さを測る指標 値が大きいほど複雑. 予測が難しい 言語のエントロピー H 単語列のエントロピー 言語 Lの単位エントロピー H L lim H L lim log p L log p 英語のエントロピー試算 by Shao 仮定 : 単語が Zipf の法則にしたがって独立に生起 C:0. type の数 :2367.82 bit/ord 2.62 bit/letter 平均単語長 : 4.5 letter/ord space 含まず 被験者実験 : 直前 00 文字をみて次の文字を推測.0.6~.3 bit/letter 単語単位エントロピーを考えて 無限長の極限を想定する 定常性とエルゴード性 生成される十分に長い系列に情報源の統計的性質が完全に現れていること を仮定 Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 20