[ 言語情報科学論 A] 統計的言語モデル,N-grams

Similar documents
Intermediate Conversation Material #10

U N I T. 1. What are Maxine and Debbie talking about? They are talking about. 2. What doesn t Maxine like? She doesn t like. 3. What is a shame?

Omochi rabbit amigurumi pattern

アルゴリズムの設計と解析. 教授 : 黄潤和 (W4022) SA: 広野史明 (A4/A8)

Lesson 5 What The Last Supper Tells Us

相関語句 ( 定型のようになっている語句 ) の表現 1. A is to B what C is to D. A と B の関係は C と D の関係に等しい Leaves are to the plant what lungs are to the animal.

研究開発評価に関する国際的な視点や国際動向

TED コーパスを使った プレゼンにおける効果的な 英語表現の抽出

The seven pillars of Data Science

D80 を使用したオペレーション GSL システム周波数特性 アンプコントローラー設定. Arc 及びLine 設定ラインアレイスピーカーを2 から7 までの傾斜角度に湾曲したアレイセクションで使用する場合 Arcモードを用います Lineモード

Decisions in games Minimax algorithm α-β algorithm Tic-Tac-Toe game

Installation Manual WIND TRANSDUCER

Chronicle of a Disaster: Understand

L1 Cultures Go Around the World

Final Product/Process Change Notification Document # : FPCN22191XD1 Issue Date: 24 January 2019

Standardization of Data Transfer Format for Scanning Probe Microscopy

レーダー流星ヘッドエコー DB 作成グループ (murmhed at nipr.ac.jp) 本規定は レーダー流星ヘッドエコー DB 作成グループの作成した MU レーダー流星ヘッド エコーデータベース ( 以下 本データベース ) の利用方法を定めるものである


Ⅲ. 研究成果の刊行に関する一覧表 発表者氏名論文タイトル名発表誌名巻号ページ出版年. lgo/kourogi_ pedestrian.p df. xed and Augmen ted Reality

Delivering Business Outcomes

P (o w) P (o s) s = speaker. w = word. Independence bet. phonemes and pitch. Insensitivity to phase differences. phase characteristics

次の対話の文章を読んで, あとの各問に答えなさい ( * 印の付いている単語 語句には, 本文のあとに 注 がある )

CER7027B / CER7032B / CER7042B / CER7042BA / CER7052B CER8042B / CER8065B CER1042B / CER1065B CER1242B / CER1257B / CER1277B

Effects and Problems Coming in Sight Utilizing TRIZ for Problem Solving of Existing Goods

GDC2009 ゲーム AI 分野オーバービュー

修士 / 博士課程専門課題 Ⅱ 試験問題

CPM6018RA Datasheet 定電流モジュール. Constant-current Power Modules. TAMURA CORPORATION Rev.A May, / 15

TDK-Lambda A C 1/27

XG PARAMETER CHANGE TABLE

Big thank you from Fukushima Friends UK (FF)

4. Contact arrangement 回路形式 1 poles 1 throws 1 回路 1 接点 (Details of contact arrangement are given in the assembly drawings 回路の詳細は製品図による )

磁気比例式 / 小型高速応答単電源 3.3V Magnetic Proportion System / Compact size and High-speed response. Vcc = +3.3V LA02P Series

Effective Utilization of Patent Information in Japanese global companies

On Endings 終結について. Ted Goossen

The Current State of Digital Healthcare

Study on Multipath Propagation Modeling and Characterization in Advanced MIMO Communication Systems. Yi Wang

artist Chim Pom Chim Pom (Ryuta Ushiro, Ellie)

Finding Near Optimal Solutions for Complex Real-world Problems

PH75A280-* RELIABILITY DATA 信頼性データ

HARD LOCK Technical Reports

Omni LED Bulb. Illustration( 实际安装, 설치사례, 設置事例 ) Bulb, Downlight OBB. OBB-i15W OBB-i20W OBB-i25W OBB-i30W OBB-i35W. Omni LED.

P Z N V S T I. センサ信号入力仕様 Input signal type. 1 ~ 5 V 4 ~ 20 ma 1 ~ 5 V 4 ~ 20 ma 1 ~ 5 V 4 ~ 20 ma 1 ~ 5 V 4 ~ 20 ma

SanjigenJiten : Game System for Acquiring New Languages Visually 三次元辞典 : 第二言語学習のためのゲームシステム. Robert Howland Emily Olmstead Junichi Hoshino

無線通信デバイスの技術動向 松澤昭 東京工業大学大学院理工学研究科電子物理工学専攻 TiTech A. Matsuzawa 1

1XH DC Power Module. User manual ユーザマニュアル. (60V 15A module version) HB-UM-1XH

F01P S05L, F02P S05L, F03P S05L SERIES

Creation of Digital Archive of Japanese Products Design process

Specifications characterize the warranted performance of the instrument under the stated operating conditions.

車載カメラにおける信号機認識および危険運転イベント検知 Traffic Light Recognition and Detection of Dangerous Driving Events from Surveillance Video of Vehicle Camera

国際会議 ACM CHI ( ) HCI で生まれた研究例 2012/10/3 人とコンピュータの相互作用 WHAT IS HCI? (Human-Computer Interaction (HCI)

宇宙飛行生物学 (Bioastronautics( 宇宙飛行生物学 (Bioastronautics) の大学院教育への利用. Astrobiology)? 宇宙生物学 (Astrobiology( 宇宙生物学 カリキュラム詳細

Glycymeris totomiensis Glycymeris rotunda. Glycymeris rotunda

Present Status of SMEs I

IMPORTANT SAFETY INSTRUCTIONS Regulatory Safety Information

Keio University Global Innovator Accelera6on Program 2015 Day 7 Design Process Exercise

9 th TRIZ symposium Meltex, Inc. Tajima. QFD and TRIZ Case Study in Surface Treatment Chemical

超小型 Very small (L:3.2 W:1.5 t:0.4mm) 高利得 High gain 無指向性 Omini-directional. < 用途 Applications> PHS 機器 DECT 機器 その他 PHS & DECT systems, etc ST01

Lepton Flavor Physics with Most Intense DC Muon Beam Yusuke Uchiyama

科学研究費助成事業 ( 科学研究費補助金 ) 研究成果報告書

ITU-R WP5D 第 9 回会合報告書

超伝導加速空洞のコストダウン. T. Saeki (KEK) 24July ILC 夏の合宿一ノ関厳美温泉

TDK Lambda A /9

Studies on Modulation Classification in Cognitive Radios using Machine Learning

Season 15: GRAND FINAL PLAYER GUIDE. ver.2019/1/10

Toward The Organisational Innovation Study: A Critical Study of Previous Innovation Research

Instruction Manual. Model IB100 Interface Box. IM 12B06J09-01E-E 2nd edition. IM 12B06J09-01E-E_ed02.indd 1 01/12/16 15:52

科学技術 学術審議会大型プロジェクト作業部会 2015 年 12 月 22 日 永野博

Page No. 原文 リライト EDITOR'S NOTES 1 4 NATURAL ART

How Capturing the Movement of Ions can Contribute to Brain Science and Improve Disease Diagnosis

品名 :SCM1561M 製品仕様書. LF No RoHS 指令対応 RoHS Directive Compliance 発行年月日 仕様書番号 SSJ SANKEN ELECTRIC CO., LTD. 承認審査作成 サンケン電気株式会社技術本部 MCD 事業部

The Bright Side of Urban Shrinkage: Steps toward Restructuring Cities

(Osaka Industrial Technology - Platform)

記号 / 定格 /Ratings. B. 電気的特性 /Electrical Characteristics 測定条件 /Measure Condition (Tc = 25 ±3 ) 記号 / 測定条件 /Measure Condition

Developing Visual Information Processing Technology through Human Exploration

Establishing an international cooperative strategy for the conservation of Oriental White Storks in Northeast Asia

2018 年 3 月期決算説明会 筒井公久. Presentation on Business Results of FY 3/2018 (April 1, 2017 to March 31, 2018)

Keysight 16451B Dielectric Test Fixture

[1] 大橋和也, 森拓哉, 古関隆章 運転整理時における乗車率に応じた旅客行動の変化のモデル化 電気学会論文誌 D,J-Rail 2013 特集,2015,pp

Private Equity: where should you invest today? P&I Global Pension Symposium, Tokyo

128 Dental Materials Journal 10(2): , 1991

Supporting Communications in Global Networks. Kevin Duh & 歐陽靖民

Preparation and Properties of Retted Kenaf Bast Fiber Pulp and Evaluation as Substitute for Manila Hemp Pulp

TDK Lambda C /35

特集 米国におけるコンシューマ向けブロードバンド衛星サービスの現状

Sales are increasing every year!

Ansible 紹介 R&Dセンター OSS 戦略企画室 OSS 技術第二課角馬文彦 本文中の会社名 商品名は 各社の商標及び登録商標です

Title inside of Narrow Hole by Needle-Typ. Issue Date Journal Article. Text version author.

JSPS Science Dialog Program Kofu Higashi High School

屋内用 SSPA パッケージ. 余裕ある高出力 : 1.1kW S-Band 1.1kW C-Band 1.0kW X-Band 500W Ku-Band ユニバーサル電圧電源力率補正型

Gary McLeod is a Tokyo-based teacher of English and

りれきしょ. What to do before writing. Advice on writing your Entry Sheet Content. Entry Sheets and rirekisho. III. To Succeed in the Screening Process

Wideband Compact Antennas for MIMO Wireless Communications Dinh Thanh Le

TDK Lambda INSTRUCTION MANUAL. TDK Lambda C A 1/35

Local Populations Facing Long- Term Consequences of Nuclear Accidents: Lessons learned from Chernobyl and Fukushima

都市基盤工学 ( リモートセンシングと GIS 入門 ) Introduction to Remote Sensing and GIS. Ground-based sensors 地上からのセンサ 第 4 回 千葉大学大学院融合理工学府

Title of the body. Citation. Issue Date Conference Paper. Text version author. Right

NI PXI/PCI-5411/5431 Specifications

MULTILAYER HIGH CURRENT/HIGH FREQUENCY FERRITE CHIP BEAD

第 1 回先進スーパーコンピューティング環境研究会 (ASE 研究会 ) 発表資料

Big Data and High Performance Computing

Transcription:

[ 言語情報科学論 A] 統計的言語モデル -grams 2007 年 04 月 23 日 言語情報科学講座林良彦教授 Text: Courtesy of Dr. Jurafsky D. ad Dr. Marti J.H: Speech ad Laguage rocessig st editio retice Hall 2000 & 2 d editio http://.cs.colorado.edu/~marti/slp2.html Copyright 2007 Yoshihiko Hayashi Osaka Uiversity

Ageda: Text: Jurafsky D. ad Marti J.H: Speech ad Laguage rocessig 2 d Editio CH 4 http://.cs.colorado.edu/~marti/slp2.html [] の中は Text の対応箇所 統計的言語モデルコーパスと頻度統計 [4.] Simple -grams [4.2] -gram と学習データへの依存性 [4.3] erplexity: -grams の評価 [4.4] ゼロ頻度問題とその対応 Smoothig [4.5] Iterpolatio [4.6] Backoff [4.7] Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 2

統計的言語モデルとコーパス 言語に対する自然科学的アプローチ ある言語 例 : 英語 の発話された 記録された言語を観察し よく近似するモデルを数学的な立場から作るコーパス corpus corpora plural 発話された 記録された言語を電子的に記録したデータ コーパス言語学 corpus liguistics 数学的なモデル : 統計的言語モデル statistical laguage model または単に laguage model 次に来る語を予測 : I d like to make a collect ある言語においてある表現 単語列 が生成される確率を推定する Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 3

言語モデルの学習と適用 学習データ コーパス 学習 traiig 言語モデル テストデータ 言語表現 文 単語列 適用 applicatio 言語表現の推定生起確率 評価 : close test: 学習データ 評価データ ope test: 学習データ 評価データ -fold cross validatio: 学習データを 分割し - を評価データとして取っておき 回の評価の平均をとる Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 4

補足 : コーパスに関連して 言語学研究のスタンス コーパス利用はどちらかというと後者の立場 演繹的 deductive 帰納的 iductive 理論的 ratioal 経験的 empirical コーパスの分類 サンプル sample モニター moitor 通時的 diachroic 共時的 sychroic コーパスの加工 生 ra コーパス タグ付 tagged コーパス有名なコーパス Bro Corpus 964; Bro Uiv. 00 万語規模のサンプルコーパス LOB Corpus Lacaster-Oslo/Berge Corpus of British Eglish 978 Bro Corpus の英国版 The Bak of Eglish 99~; COBUILD team ~4.5 億語 BC Corpus 994; Oxford Uiv. ress ほか 億語規模 Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 5

コーパスと頻度統計 ordform と lemma ordform: 単語の出現形 cat と cats は別 lemma: 単語の原形 cats と cat を同一視 lemmatize: 原形を求めること type と toke type: 異なり単語 distict ord type の数 vocabulary size toke: type の一つ一つの istace 例 : Bro Corpus: 00 万の ordform tokes 6805 の ordform type 3785 の lemma type TTR type/toke ratio: この値が高いということは 多様な語が使用されている傾向にある Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 6

-grams 0 2 3 --- -gram: 個の単語の連鎖に注目する -gram 確率 probability: ある -gram が出現する確率を求める / 推定する Zero-gram: 全ての単語に一定の出現確率を与える Ui-gram -gram: ある単語の出現確率を考える とりあえず ある単語の出現確率 出現頻度 toke 数 / 総出現単語数 全ての type についての toke 数の和 Bi-gram 2-gram: 隣の単語とのペアの出現確率を考える Tri-gram 3-gram: 3 つの単語の組の出現確率を考える Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 7

重み付きオートマトン eighted automata 前回 : ノードが状態 アークが入力文字 今回 : ノードが単語 アークが単語の連鎖確率 bi-gram probability として考える これを 次の ;first-order マルコフ連鎖 Markov chai という 0.6 have.0 0.3 book.0 I 0.4.0 a 0.7.0. buy pe 確率なので あるノードから出て行くアークに付与された値を合計すると になる 文の確率は 通過するアークに付与された値の積となる Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 8

Bi-gram model - : - の次に が来る確率 事後確率 単語列 2... 2 L k have I k k 0.6 have.0 0.3 book.0 <s>.0 I 0.4.0 a 0.7.0. buy pe Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 9

Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 0 文の生起確率と Bi-gram model の意味ひるがえって考えてみると 文 単語列 2... の生起確率は 次のように計算されるはず一方 先ほどの式は つまり k 番目の単語の生起確率は k- 番目の単語にのみ依存するという近似がなされている! 2 3 2 2 k k L L L 2 k k k L

Copyright 2007 Yoshihiko Hayashi Osaka Uiversity -gram -gram: k 番目の単語の生起確率は k- 番目から k- 番目までの単語にのみ依存するという近似 式で書くと 6.8 式 Tri-gram: 前 2 つの単語を考慮する. 実用的に良く使われる 6.8 式の右辺の各項はどのようにして求めるのか? 最尤推定 Maximum Likelihood Estimatio: コーパス中における生起頻度を数えて その相対頻度 relative frequecy を確率だと考える C C C C bi-gram の場合 -gram

-gram と学習データへの依存性 [4.3] を大きくすると : よりよいモデルを構築できる 可能性がある Shakespeare 風テキスト生成の例 Fig.4.3 : が大きくなるとそれっぽくなっていく学習データ traiig data への依存性 WSJ から学習した -gram を使って生成したテキストの例 Fig.4.4: やはり新聞風? 包括的な comprehesive な英語のモデルを作ろうとするなら 異なるジャンルのテキストを含んだ大量のデータが必要逆にあるジャンルに特化したモデルを作ろうとするならば 目的にあったテキストの収集が必要 Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 2

erplexity [4.4] 言語モデルの評価 : 応用システムに適用して評価する edto-ed evaluatio べきであるが 大変なので 性能の推定ができると良い perplexity : より良くテストデータに当てあまるモデル すなわち テストデータに対してより高い確率を割り当てる の方が良いモデル. 定義は下式. 小さいほどよい. 例 : 2---0 からなる整数 : 各数字が等確率で出現すると仮定すると W 0. どれかの数字が他に比べて良く出現するなら W は小さくなる W 2 L L 2 L i i i 推定確率を長さで正規化 chai rule で書き換え Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 3

ゼロ頻度問題とその対応 -gram の をどんどん大きくしていくと 細かな言語現象をとらえることができる 可能性がある 単位の数が指数的に増加する 組み合わせの爆発 コーパス中に生起するデータが不足する data sparseess の問題 zero probability 基本的な対応 smoothig: 確率が 0 あるいは 非常に低い値になるものを補正する " 見えるもの " コーパスに存在するもの 以外のデータを想定する 基本的な方法 discoutig: o-zeroのものの確率を 最尤推定の値から 割り引いて zeroになっているものに割り当てる back-off / iterpolatio: より低次の Tri-gramがzero-coutならBi- gram Ui-gramの 頻度を用いる Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 4

Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 5 Laplace smoothig [4.5.] add-oe: すべての単位の頻度を する V C C V c c V c c Laplace i i i i Laplace i i * * bi-gram の場合も Courtesy of Dr. Jurafsky D. ad Dr. Marti J.H: Speech ad Laguage rocessig 2d editio http://.cs.colorado.edu/~marti/slp2.html

Good-Turig Discoutig [4.5.2] すべての単位の頻度を一律に するのは いかにもよろしくない頻度の頻度 frequecy of frecuecy を考える 頻度 0 の単位の数 頻度 の単位の数 頻度 c の単位の推定生起頻度を頻度 c の単位の生起頻度から求める c * c * GT : 頻度がcの単位の数 c c c usee Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 6

Good-Turig の例 J&M 2 d CH.4 pp.20~2 fishes i a lake 8 species: bass carp catfish eel perch salmo trout hitefish today s results: 0 carp 3 perch 2 hitefish trout salmo eel What is the probability that ext fish e catch ill be a e species that is catfish or bass? Courtesy of Dr. Jurafsky D. ad Dr. Marti J.H: Speech ad Laguage rocessig 2d editio http://.cs.colorado. edu/~marti/slp2.html * GT catfish 2 3 8 0.85 Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 7

Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 8 Iterpolatio [4.6] / Backoff [4.6] 基本的な考え方 : より低次の情報で補完する 常に一定の割合で混合する : Iterpolatio ゼロ頻度の場合のみ低次の情報で補完する : Backoff Iterpolatio Backoff i i 3 2 2 2 ^ λ λ λ λ Courtesy of Dr. Jurafsky D. ad Dr. Marti J.H: Speech ad Laguage rocessig 2d editio http://.cs.colorado.edu/~marti/slp2.html

補足 : Zipf の法則 Zipf's La 単語の出現頻度の分布に関する経験則 ありふれた語ほど良く出現する tautology? 番目に良く出現する語の出現頻度は 番良く出現する後の出現頻度の / 程度 式で書くと 出現順位 の単語の出現確率 は C を定数として C C0. としたグラフ Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 9

補足 : 言語のエントロピー エントロピー : 系の複雑さを測る指標 値が大きいほど複雑. 予測が難しい 言語のエントロピー H 単語列のエントロピー 言語 Lの単位エントロピー H L lim H L lim log p L log p 英語のエントロピー試算 by Shao 仮定 : 単語が Zipf の法則にしたがって独立に生起 C:0. type の数 :2367.82 bit/ord 2.62 bit/letter 平均単語長 : 4.5 letter/ord space 含まず 被験者実験 : 直前 00 文字をみて次の文字を推測.0.6~.3 bit/letter 単語単位エントロピーを考えて 無限長の極限を想定する 定常性とエルゴード性 生成される十分に長い系列に情報源の統計的性質が完全に現れていること を仮定 Copyright 2007 Yoshihiko Hayashi Osaka Uiversity 20