アラビア語とペルシャ語の見分け方 #DSIRNLP 5

8,780 views
7,979 views

Published on

コメントの指摘を受けて修正しました(2014/1/14)

Published in: Technology
2 Comments
3 Likes
Statistics
Notes
  • コメントありがとうございます。
    きっとお気づきかと思いますが、アラビア語・ペルシャ語については素人です……。
    ご指摘を受けてスライドを修正しました。

    19枚目のスライドは実際の両言語のツイートで頻度の多い単語を順に7個ずつ選んだものです。
    رو は face ってことはないだろうなあと思いつつちゃんと調べる余裕が発表前にはなくてそのままにしてました。でも今実際の用法を見てみても正確な意味はよくわかりませんでした……。
    https://twitter.com/search?q=%D8%B1%D9%88

    とりあえず資料では保留的にかっこを付けておくことにします。

    #一度お返事書いたのですがなぜか消えてしまいました……
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • 細かい指摘なのですが、、
    ・16スライド ペルシャ語の'私'はmenでなくmanだと思います。
    ・19スライド ペルシャ語の語彙2番目のazはfrom、5番目のdarはinに近く、顔と言う意味ではصورت(soret)のほうが一般的に本に載ってる気がします。rouも使われるんでしょうか?
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
No Downloads
Views
Total views
8,780
On SlideShare
0
From Embeds
0
Number of Embeds
393
Actions
Shares
0
Downloads
10
Comments
2
Likes
3
Embeds 0
No embeds

No notes for slide

アラビア語とペルシャ語の見分け方 #DSIRNLP 5

  1. 1. アラビア語とペルシャ語の 見分け方 DSIRNLP#5 2014/1/11 Nakatani Shuyo @ Cybozu Labs
  2. 2. アラビア語とペルシャ語を 見分ける一番簡単な方法 5
  3. 3. Chrome で開く
  4. 4. ダメ? 7
  5. 5. 「ペルシャ語…… ペルシャってまだあったっけ」 なんて人いませんよね?
  6. 6. ペルシャ語はイランの公用語 • 4000万人以上の話者 – タジキスタンのタジク語、アフガニスタンの ダリー語もほぼペルシャ語 via http://ja.wikipedia.org/wiki/%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:MapOfPersianSpeakers.png
  7. 7. アラビア語とペルシャ語とか wktk が止まらないよね 読める?
  8. 8. 読める? • wktk • ktkr • kwsk • mjsk • mjd 全部読めちゃった人は 生活を見直しましょう • gkbr • ggrks 11
  9. 9. 母音を補完 • wktk → wAkUtEkA → わくてか • ktkr → きたこれ → kItAkOrE • kwsk → kUwAsIkU → くわしく • mjsk → mAjIsUkA → まじすか • mjd → まじで → mAjIdE • gkbr → gAkUbUrU → がくぶる • ggrks → gUgUrEkAsU → ぐぐれかす 12
  10. 10. 実はアラビア語は 「全文 wktk 状態」 13
  11. 11. アラビア文字 • 原則子音のみ表記し、母音は文脈から推定 – クルアーン(コーラン)や子供向け文章には母音記 号が付加される – ウイグル語など一部は母音にも文字を割り当て アラビア語 綴り 読み 意味 ‫كتب‬ ‫مكتب‬ ‫مكتبة‬ ktb kataba book mktb makitab office/desk mktbẗ maktabaa library 14
  12. 12. アラビア文字 • 右から左に書く&続け書きで形が変わる –‫ع ل ى‬ → ‫على‬ –‫ك ت ب‬ → ‫كتب‬ –‫ل ا‬ → ‫ال‬ 15
  13. 13. アラビア語とペルシャ語 • どっちがどっち? ‫من یک گربه‬ ‫أنا لست القط‬ • 難しそう? – そうでもないよ! 16
  14. 14. アラビア語とペルシャ語 • 文法はぜんぜん違う – アラビア語はアフロ・アジア語族 • 語順は VSO型、be動詞にあたるものはない – ペルシャ語はインド・ヨーロッパ語族 • 語順は SOV型、名詞の性や格変化はない – が、言語の区別にはあまり役立たないかな… 17
  15. 15. アラビア語とペルシャ語 • 文字セットは一部違う – 基本28字は両方で用いる – アラビア語のみ用いる:ハムザ ‫( ء‬ハムザ付き文字含む) とター・マルブータ ‫ة‬ – ペルシャ語のみ用いる:ペルシャ語で追加された6文字 (‫)ی گ ک ژ چ پ‬ – いずれも頻度の高い文字が含まれるので、十分役に立つ • 数字セットも違うが…… – 「アラビア文字の数字」より「アラビア数字」の方がもっ ぱら使われるので役には立たない 18
  16. 16. アラビア語とペルシャ語 • 語彙はぜんぜん違う(特に機能語) – アラビア語起源の単語もそれなりにある(特にイ スラム関連)が、異なる機能語が圧倒的に多いの で見分けるのは意外と容易 – たまたま両言語共通の頻出単語 ‫( من‬mn) でも • アラビア語では min と読んで from の意味 • ペルシャ語では man と読んで I(一人称単数)の意味 19
  17. 17. アラビア語とペルシャ語は 文字と単語でだいたい見分けられる 20
  18. 18. 見分け文字 アラビア語 ‫ء‬ ‫أ‬ ‫ؤ‬ ‫إ‬ ‫ئ‬ ‫ة‬ U+0621 U+0623 U+0624 U+0625 U+0626 U+0629 ペルシャ語 ‫پ‬ ‫چ‬ ‫ژ‬ ‫ک‬ ‫گ‬ ‫ی‬ U+067e U+0686 U+0698 U+06a9 U+06af U+06cc
  19. 19. 見分け単語 アラビア語 ‫في‬ ‫ال‬ ‫هللا‬ ‫على‬ ‫كل‬ ‫أن‬ ‫وال‬ in no God to each that or ペルシャ語 ‫که‬ ‫از‬ ‫تو‬ ‫رو‬ ‫در‬ ‫این‬ ‫با‬ that from you (face) in this with 22
  20. 20. まとめ • 6個の文字&7個の単語をカウントする だけで – アラビア語ツイートは82%くらい – ペルシャ語ツイートは97%くらい • 判別できます 23

×