[ 言語情報科学論 A] 統計的言語モデル,N-grams

[ 言語情報科学論 A] 統計的言語モデル -grams 2007 年 04 月 23 日言語情報科学講座林良彦教授 Text: Courtesy of Dr. Jurafsky D. ad Dr. Marti J.H: Speech ad Laguage rocessig st editio retice Hall 2000 & 2 d editio http://.cs.colorado.edu/~marti/slp2.html Copyright 2007 Yoshihiko Hayashi Osaka Uiversity

Ageda: Text: Jurafsky D. ad Marti J.H: Speech ad Laguage rocessig 2 d Editio CH 4 http://.cs.colorado.edu/~marti/slp2.html [] の中は Text の対応箇所統計的言語モデルコーパスと頻度統計 [4.] Simple -grams [4.2] -gram と学習データへの依存性 [4.3] erplexity: -grams の評価 [4.4] ゼロ頻度問題とその対応 Smoothig [4.5] Iterpolatio [4.6] Backoff [4.7] Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 2

統計的言語モデルとコーパス言語に対する自然科学的アプローチある言語例 : 英語の発話された記録された言語を観察しよく近似するモデルを数学的な立場から作るコーパス corpus corpora plural 発話された記録された言語を電子的に記録したデータコーパス言語学 corpus liguistics 数学的なモデル : 統計的言語モデル statistical laguage model または単に laguage model 次に来る語を予測 : I d like to make a collect ある言語においてある表現単語列が生成される確率を推定する Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 3

言語モデルの学習と適用学習データコーパス学習 traiig 言語モデルテストデータ言語表現文単語列適用 applicatio 言語表現の推定生起確率評価 : close test: 学習データ評価データ ope test: 学習データ評価データ -fold cross validatio: 学習データを分割し - を評価データとして取っておき回の評価の平均をとる Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 4

補足 : コーパスに関連して言語学研究のスタンスコーパス利用はどちらかというと後者の立場演繹的 deductive 帰納的 iductive 理論的 ratioal 経験的 empirical コーパスの分類サンプル sample モニター moitor 通時的 diachroic 共時的 sychroic コーパスの加工生 ra コーパスタグ付 tagged コーパス有名なコーパス Bro Corpus 964; Bro Uiv. 00 万語規模のサンプルコーパス LOB Corpus Lacaster-Oslo/Berge Corpus of British Eglish 978 Bro Corpus の英国版 The Bak of Eglish 99~; COBUILD team ~4.5 億語 BC Corpus 994; Oxford Uiv. ress ほか億語規模 Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 5

コーパスと頻度統計 ordform と lemma ordform: 単語の出現形 cat と cats は別 lemma: 単語の原形 cats と cat を同一視 lemmatize: 原形を求めること type と toke type: 異なり単語 distict ord type の数 vocabulary size toke: type の一つ一つの istace 例 : Bro Corpus: 00 万の ordform tokes 6805 の ordform type 3785 の lemma type TTR type/toke ratio: この値が高いということは多様な語が使用されている傾向にある Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 6

-grams 0 2 3 --- -gram: 個の単語の連鎖に注目する -gram 確率 probability: ある -gram が出現する確率を求める / 推定する Zero-gram: 全ての単語に一定の出現確率を与える Ui-gram -gram: ある単語の出現確率を考えるとりあえずある単語の出現確率出現頻度 toke 数 / 総出現単語数全ての type についての toke 数の和 Bi-gram 2-gram: 隣の単語とのペアの出現確率を考える Tri-gram 3-gram: 3 つの単語の組の出現確率を考える Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 7

重み付きオートマトン eighted automata 前回 : ノードが状態アークが入力文字今回 : ノードが単語アークが単語の連鎖確率 bi-gram probability として考えるこれを次の ;first-order マルコフ連鎖 Markov chai という 0.6 have.0 0.3 book.0 I 0.4.0 a 0.7.0. buy pe 確率なのであるノードから出て行くアークに付与された値を合計するとになる文の確率は通過するアークに付与された値の積となる Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 8

Copyright 2007 Yoshihiko Hayashi Osaka Uiversity -gram -gram: k 番目の単語の生起確率は k- 番目から k- 番目までの単語にのみ依存するという近似式で書くと 6.8 式 Tri-gram: 前 2 つの単語を考慮する. 実用的に良く使われる 6.8 式の右辺の各項はどのようにして求めるのか? 最尤推定 Maximum Likelihood Estimatio: コーパス中における生起頻度を数えてその相対頻度 relative frequecy を確率だと考える C C C C bi-gram の場合 -gram

-gram と学習データへの依存性 [4.3] を大きくすると : よりよいモデルを構築できる可能性がある Shakespeare 風テキスト生成の例 Fig.4.3 : が大きくなるとそれっぽくなっていく学習データ traiig data への依存性 WSJ から学習した -gram を使って生成したテキストの例 Fig.4.4: やはり新聞風? 包括的な comprehesive な英語のモデルを作ろうとするなら異なるジャンルのテキストを含んだ大量のデータが必要逆にあるジャンルに特化したモデルを作ろうとするならば目的にあったテキストの収集が必要 Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 2

erplexity [4.4] 言語モデルの評価 : 応用システムに適用して評価する edto-ed evaluatio べきであるが大変なので性能の推定ができると良い perplexity : より良くテストデータに当てあまるモデルすなわちテストデータに対してより高い確率を割り当てるの方が良いモデル. 定義は下式. 小さいほどよい. 例 : 2---0 からなる整数 : 各数字が等確率で出現すると仮定すると W 0. どれかの数字が他に比べて良く出現するなら W は小さくなる W 2 L L 2 L i i i 推定確率を長さで正規化 chai rule で書き換え Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 3

ゼロ頻度問題とその対応 -gram のをどんどん大きくしていくと細かな言語現象をとらえることができる可能性がある単位の数が指数的に増加する組み合わせの爆発コーパス中に生起するデータが不足する data sparseess の問題 zero probability 基本的な対応 smoothig: 確率が 0 あるいは非常に低い値になるものを補正する " 見えるもの " コーパスに存在するもの以外のデータを想定する基本的な方法 discoutig: o-zeroのものの確率を最尤推定の値から割り引いて zeroになっているものに割り当てる back-off / iterpolatio: より低次の Tri-gramがzero-coutならBi- gram Ui-gramの頻度を用いる Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 4

Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 5 Laplace smoothig [4.5.] add-oe: すべての単位の頻度をする V C C V c c V c c Laplace i i i i Laplace i i * * bi-gram の場合も Courtesy of Dr. Jurafsky D. ad Dr. Marti J.H: Speech ad Laguage rocessig 2d editio http://.cs.colorado.edu/~marti/slp2.html

Good-Turig Discoutig [4.5.2] すべての単位の頻度を一律にするのはいかにもよろしくない頻度の頻度 frequecy of frecuecy を考える頻度 0 の単位の数頻度の単位の数頻度 c の単位の推定生起頻度を頻度 c の単位の生起頻度から求める c * c * GT : 頻度がcの単位の数 c c c usee Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 6

Good-Turig の例 J&M 2 d CH.4 pp.20~2 fishes i a lake 8 species: bass carp catfish eel perch salmo trout hitefish today s results: 0 carp 3 perch 2 hitefish trout salmo eel What is the probability that ext fish e catch ill be a e species that is catfish or bass? Courtesy of Dr. Jurafsky D. ad Dr. Marti J.H: Speech ad Laguage rocessig 2d editio http://.cs.colorado. edu/~marti/slp2.html * GT catfish 2 3 8 0.85 Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 7

Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 8 Iterpolatio [4.6] / Backoff [4.6] 基本的な考え方 : より低次の情報で補完する常に一定の割合で混合する : Iterpolatio ゼロ頻度の場合のみ低次の情報で補完する : Backoff Iterpolatio Backoff i i 3 2 2 2 ^ λ λ λ λ Courtesy of Dr. Jurafsky D. ad Dr. Marti J.H: Speech ad Laguage rocessig 2d editio http://.cs.colorado.edu/~marti/slp2.html

補足 : 言語のエントロピーエントロピー : 系の複雑さを測る指標値が大きいほど複雑. 予測が難しい言語のエントロピー H 単語列のエントロピー言語 Lの単位エントロピー H L lim H L lim log p L log p 英語のエントロピー試算 by Shao 仮定 : 単語が Zipf の法則にしたがって独立に生起 C:0. type の数 :2367.82 bit/ord 2.62 bit/letter 平均単語長 : 4.5 letter/ord space 含まず被験者実験 : 直前 00 文字をみて次の文字を推測.0.6~.3 bit/letter 単語単位エントロピーを考えて無限長の極限を想定する定常性とエルゴード性生成される十分に長い系列に情報源の統計的性質が完全に現れていることを仮定 Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 20