Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Gengo Africa

7,088 views

Published on

Published in: Business, Career
  • Be the first to comment

Gengo Africa

  1. 1. 言語アフリカ起源説(Science, Atkinson 2011)<br />niam<br />江原 遥<br />1<br />
  2. 2. 自己紹介<br />計算言語学の院生です<br />ユーザの語学力を推定して、分からなそうな語にあらかじめ訳をつけておく読解支援システムの研究をしてきました。<br />ローマ字で書くと名前が7文字です。<br />http://yoehara.com/<br />2<br />
  3. 3. Science, Atkinson 2011の衝撃<br />3<br />NLP界でも話題になっている<br />
  4. 4. 大学にいるメリット:論文をダウンロード出来る<br />特徴:<br />論文本体はたった3ページ!<br />(Scienceだから)<br />ただし、Supporting Online Materialが付いており、これは38ページぐらいある<br />データはzipで配布されてるWALSdataset<br />手法:Phonemic diversity(音素数)をアフリカからの距離で線形回帰。<br />アフリカ起源:2,560箇所の候補地からBICでモデル選択して結果アフリカ。<br />4<br />
  5. 5. 図でざっと見る<br />5<br />
  6. 6. 音素が減る原理:創始者効果 (founder effect)<br />すぐに思いつく疑問:<br />音素が増える場合を考えてるの?->考えてます。<br />創始者効果とは:「隔離された個体群が新しく作られるときに、新個体群の個体数が少ない場合、元になった個体群とは異なった遺伝子頻度の個体群が出来ること」<br />個体群が分裂する<br />際に、音素が減る<br />ケースの方が多ければ、<br />音素は<br />アフリカからの距離に対して<br />漸減する。<br />6<br />新個体群<br />旧個体群<br />
  7. 7. 遺伝学領域との関連<br />アフリカからの距離は<br />Neutral genetic markersの80%~85%<br />Human mitochondrial DNAの18%<br />Phenotypic dataの14%~18%<br />Phonemic diversityの19%<br />を説明する。<br />7<br />←この論文の貢献<br />
  8. 8. 本日の流れ<br />音素と発音<br />子音<br />母音<br />古代の音を復元してみる<br />ラテン語の[r]の音を例に取って復元を体験してみる<br />音が減るとき増えるとき<br />アフリカの言語の音<br />線形回帰<br />BIC<br />8<br />音声学の基本的な話。<br />音声学の専門家では<br />全然ないので間違いが<br />きっとあります。<br />PRMLや情報理論の基礎<br />の方が分かりやすく正確に<br />書いてあります<br />
  9. 9. 音素<br />この論文は、phonemic diversity(音素数)をアフリカの言語からの距離で線形回帰している<br />世界の言語の音は、大体、IPA(国際音声字母)で表現できる。<br />子音、母音の順に見ていきます。<br />9<br />
  10. 10. 子音:調音位置x調音方法<br />10<br />調音位置<br />ここにきちんと現れていない区別:<br />無声音、有声音、有気音<br />
  11. 11. 有声音、無声音、有気音:<br />閉鎖音に有声音、無声音、有気音の区別。<br />p/b, p/phの区別はよくある。日本語や英語はp/b。p/phの区別は中国語・韓国語でおなじみ。<br />p/b/phの3つを区別する言語の例:古代ギリシア語。ギリシア文字はもともと…<br />π /β/ φ: p/b/ph<br />τ/δ/θ: t/d/th<br />κ/γ/χ: k/g/kh<br />という音だった。<br />11<br />
  12. 12. 有声音、無声音、有気音は何が違う?:Voice Onset Time<br />p/bの区別は我々には母語。p/phの区別は、中国語の入門書でも「phは強く発音します」などの不正確な記述が多く入門者は混乱。厳密にはvoice onset time<br />12<br />声帯を震わせるタイミングが違う。<br />b<br />p<br />ph<br />
  13. 13. 色々な言語のVOT<br />13<br />
  14. 14. 余談:無声鼻音<br />鼻音(Nasal)は、世界のどの言語でも大抵有声。<br />しかし、無声鼻音は発音<br />できないわけではない。<br />/m/は最も基本的な音なのに、<br />なぜp/phの区別をする<br />言語でも/m/は有声<br />なのか?<br />->母音が続かないと<br />聞こえないから。<br />14<br />
  15. 15. 異音 (allophone)<br />15<br />摩擦<br />破裂<br />鼻<br />
  16. 16. 異音 (allophone)<br />16<br />摩擦<br />ざ<br />が<br />破裂<br />だ<br />鼻<br />な<br />どの音素を区別して音韻に対応させるかは言語に<br />よって恣意的。<br />「言語とは恣意的なものである」byソシュール<br />余談:格助詞の「が」は/ a/で発音すべきか?<br />アナウンサーの鼻母音問題。<br />
  17. 17. 母音:openness x backness x roundedness<br />17<br />
  18. 18. 日本語の母音<br />最大の特徴:「う」~非円唇のu~<br />「い->う」でbacknessの練習が出来る!<br />18<br />
  19. 19. Backnessは第2フォルマントに対応<br />Praatで、「い->う->い」と連続的に発音してみる<br />19<br />い<br />い<br />う<br />
  20. 20. California Englishの母音<br />20<br />
  21. 21. 日本語の母音と英語の母音を重ねてみる<br />21<br />黒:日本語<br />セピア色:英語<br />
  22. 22. 日本語の母音と英語の母音を重ねてみる<br />22<br />この辺が日本語話者<br />にとって難しいはず。<br />
  23. 23. 英語の母音の練習方法:<br />23<br />father<br />cat<br />日本語の/あ/から、<br />Backnessを前後に振る<br />練習を僕はしました。<br />
  24. 24. Father-brother merger<br />24<br />
  25. 25. Suprasegmentals:vowel lengthやtoneなど<br />25<br /><ul><li>長短x高低x5母音=20種類ある?</li></ul>通常、「音素」といった場合にSuprasegmentalsはカウントしない。が、今回の解析では、toneの数は前処理でカウントしているらしい。<br />Suprasegmentalsの他の例:vowel nasality(台湾語)や母音調和(モンゴル語)<br />
  26. 26. 母音調和<br />一語の中に現れる母音の組み合わせに一定の制限が生じる現象のこと。<br />上のモンゴル語の例では、「女性母音と男性母音はそれぞれ一語中で共存できないが、中性母音はどちらとも共存できる」らしい。<br />アルタイ語系の言語には、母音調和が見られる。<br />日本語がアルタイ語系統であることを示すには、古代日本語に母音調和が存在したかどうかが議論される。<br />26<br />
  27. 27. 古代語の音を復元する~ラテン語の場合~<br />ラテン語の簡単な紹介:<br />長短2つのVowel lengthの区別があった:<br />日本語と同じ!<br />母音の長短が表記されていないだけ。<br />Ave Maria->Ave: Maria<br />Puella magi Madokamagica-><br />Puella magi: Madokamagica<br />母音の数もa,e,i,o,uの5つで日本語と同じ。<br />27<br />
  28. 28. ラテン語を例にあげた理由:系統が分かっているから<br />28<br />
  29. 29. ラテン語の[r]<br />ラテン語の[r]の音は何だったか?<br />Dental/alveolar trillかuvular trillかどっち?<br />29<br />“r”と表記される<br />音は、現代語<br />でもこんなに<br />たくさんある。<br />Rはlitteracanina<br />(犬の字)<br />との記述から<br />たぶん、trillである。<br />(犬の唸り声)<br />
  30. 30. 古代の音を復元する~Rhotacism~<br />母音に挟まれた/s/が/r/の音になる!<br />ラテン語 genus (種は)->英語genus<br />ラテン語 generis (種の) ->英語generics<br />/s/が/r/に変化するということは、ラテン語の[r]の調音位置は/s/と同じ部分であった可能性が高い<br />->uvular trillの可能性が消えて、ラテン語の[r]はalveolar trillであったことが分かる。<br />30<br />
  31. 31. GutturalR<br />ラテン語の[r]はalveolar trillであることが分かった。一方、今のフランス語の[r]はuvular fricative.<br />いつ[r]はuvularになったのか?<br />18世紀中頃~後半<br />と言われている。<br />31<br />
  32. 32. “qu”の音<br />ラテン語では”c”の文字は/k/の音になる。”K”の音になるのは毎月一日を表すKalendaeという語のみ。<br />”question”の語源である”quaestio:”の”qu”の音はどう発音していたのか?<br />sequere<br />32<br />
  33. 33. 音素が減るとき:日本語の「ひ」と「し」の区別<br />33<br />ひ<br />し<br />
  34. 34. 音素が増えるときの一例:suprasegmentalsが崩れるとき<br />34<br />古典ラテン語<br />->Vulgar Latin<br />の変化の際に、<br />vowel lengthの区別が<br />消失し、代わりに、<br />音価で音を区別する<br />ようになった。<br />フランス語-><br />
  35. 35. 図でざっと見る(再掲)<br />35<br />
  36. 36. アフリカの言語の音~クリック音~<br />Khoekhoe語のビデオ<br />36<br />
  37. 37. Xhosa語 (コサ語)<br />37<br />話者約160万人<br />Nelson Mandela<br />元大統領は<br />Xhosa語話者<br />らしいです。<br />
  38. 38. 図でざっと見る(再掲)<br />38<br />
  39. 39. Piraha語<br />39<br />
  40. 40. WALSデータセット<br />The World ATLAS of language structures<br /> 504言語について色々な特徴が記述されている。全部ダウンロード出来る。<br />言語処理学会でも使われていたりする<br />Relation between Word Order Characteristics and Suicide/Homicide Rates (2), ○江原暉将 (山梨英和大), NLP2011<br />数理的手法を用いた日本語の系統に関する考察, ○小橋昌明, 田中久美子 (東大), NLP2011<br />この手の研究をしようと思うと、実質、これ一択?<br />40<br />
  41. 41. Phonemic diversity<br />Phoneme diversityとphonemic diversityの2種類が使われているが…たぶん、同じ。<br />WALSには、consonantの数、vowelの数、toneの数の3つの情報が入っている。(small [2-4], medium [5-6], large [7-14]), consonant (small [6-14], moderately small <br />[15-18], average [19-25], moderately large [26-33], large [34+])<br />前処理として、どうやら、次のことをやり、phonemic diversityと呼んでいるらしい。<br />pd = n(n(c)+n(v)+n(t))<br />n(x)は平均0、分散1で正規化。<br />41<br />
  42. 42. 線形回帰<br />42<br />
  43. 43. アフリカ起源<br />2,560箇所の候補地を作る。候補地からの距離とphonemic diversityを線形回帰し、BICでモデル選択した結果、アフリカ起源だと思うのが一番良いという結果に。<br />Controlling for other demographic variables in this way,sub-Saharan Africa remains the most likely area of origin (fig. S7). <br />43<br />
  44. 44. BIC<br />BICはベイズ的にはモデルエビデンスの近似<br />モデルエビデンス:<br />データが出てくる確率をパラメータで周辺かしたもの。PRML3章, 4章。<br />また、MDLの枠組みでは、モデルとデータの総符号長(MDL)と一致。オッカムのかみそり。<br />44<br />
  45. 45. 線形回帰<br />45<br />
  46. 46. 線形回帰<br />46<br />
  47. 47. BIC<br />47<br />
  48. 48. BIC<br />48<br />PRML4章章末<br />情報理論の基礎5.4<br />
  49. 49. BIC<br />49<br />5.5<br />
  50. 50. BIC<br />50<br />PRML4.4.1<br />w_2が<br />well-determined<br />パラメータ。<br />PRML3.5.3<br />
  51. 51. 論文中でやっているが今回省いたこと<br />線形回帰のP値も出している。Mantel testもしている。<br />言語の起源が複数ある場合とも比較して、アフリカ単一起源の方が当てはまりがよいことを示している。<br />語族(Language family)による影響を考えるために、<br />Language familyでまとめて回帰をかけたり<br />階層線形回帰をやったり<br />している。<br />Language expansionとしては、人類のアフリカからのexodusの他に、より新しく、最終氷河期(LGM)の後のものが考えられる。そこで、LGMの後に言語拡散したモデルとも比較している。<br />51<br />
  52. 52. まとめ<br />言語の起源がアフリカであること自体は、信じていいんじゃないでしょうか。<br />創始者効果を表していることも信じていいのかなぁ…?<br />ただ、BICだけに頼っているのはちょっと不安。モデルエビデンスをより正確に近似してもいいのでは。<br />Vowel, consonant, toneの3次元の空間で線形回帰したらどうなるのだろう…?<br />52<br />
  53. 53. ご清聴ありがとうございました。<br />53<br />

×