Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
大学院の研究で
どんなことをやってたかの話
鈴木雄登
自己紹介
• 鈴木 雄登
• @moc_yuto
• 自然言語処理をやってた
– 最近はめっきり。。
• 今はScalaメイン
はじめに
そういえば、
大学時代の研究の話って
ほぼしてないなーっと思った。
じゃあ久しぶりにしよう!
研究の話
(自然言語処理って身近だよ)
カタカナ動詞の意味を獲得
パフェる
語源:パーフェクト
言い換え:制覇する
解析器入力 出力
カタカナ動詞をどうやって集めるか
カタカナ動詞の収集
• Twitterコーパス
– 2011年5月から2011年9月まで
– 約1億3千万ツイート
– どうしてTwitter?
気軽に投稿でき,カタカナ動詞が多く出現しやすいため
• 収集法
– MeCabでパースして、以下の...
カタカナ動詞の例
頻度 カタカナ動詞 頻度 カタカナ動詞
75249 モテる 12149 ハゲる
40873 バレる ・
36879 イケる 2014 キョドる
23472 ググる ・
20373 ウケる 1152 アピる
15887 デレる ...
提案手法
言い換えと語源の類似性や共起を考慮したリランキング
カタカナ動詞
入力 「アガる」
既存辞書
での有無
辞書見出し
出力
1. パフェ
2. パーフェクト
3. パフェー
4. パーフェクトジオング
5. パーフェクトポーション
1. 暗譜
2...
言い換えと語源の類似性や共起を考慮したリランキング
カタカナ動詞
入力 「パフェる」
既存辞書
での有無
辞書見出し
出力
1. パフェ
2. パーフェクト
3. パフェー
4. パーフェクトジオング
5. パーフェクトポーション
1. 暗譜
...
言い換えと語源の類似性や共起を考慮したリランキング
カタカナ動詞
入力 「パフェる」
既存辞書
での有無
辞書見出し
出力
1. パフェ
2. パーフェクト
3. パフェー
4. パーフェクトジオング
5. パーフェクトポーション
1. 暗譜
...
言い換えと語源の類似性や共起を考慮したリランキング
カタカナ動詞
入力 「パフェる」
既存辞書
での有無
辞書見出し
出力
1. パフェ
2. パーフェクト
3. パフェー
4. パーフェクトジオング
5. パーフェクトポーション
1. 暗譜
...
言い換え獲得のアイディア
ゲーセンで 曲を パフェった
ゲーセンで 曲を 制覇した
・カタカナ動詞
・言い換え
格要素の類似性を利用
カタカナ動詞入力
パフェる
IPA辞書内の
全動詞
制覇する
食べる
寝る
走る
クリアする
...
ランキングして出力
で:24
ゲーセンで:20
・
・
曲を : 15
連続で:24
ゲーセンで:20
・
・
曲を : 15
ベクトル作成
...
…
パフェる=
曲を : 36
ポップンで : 23
連続で:21
ツ
イ
ー
ト
集
合
帰り際に遊んだら
ポップンでパフェった.
ミスした時に限って
あの曲を パフェる
練習してた 曲を
パフェった!
…
連続で
あの曲を パフェる
ベクト...
ベクトル間の類似度計算
格要素ベクトルを用いてカタカナ動詞と候補間の類似度を
計算する.
Jaccard係数,コサイン類似度を利用して評価した.
x, y の各ベクトルは頻度を要素とした格要素ベクトルである.
X,Yは格要素ベクトルの単語集合で...
簡単に言うと
曲を : 36
ポップンで : 2
連続で:0
曲を : 242
ポップンで : 23
連続で:103
36 × 242 + 2 × 23 + 0 × 103 + … = 合計
合計 ÷ ベクトルの列数 = 類似度
単純に両方で同...
言い換えと語源の類似性や共起を考慮したリランキング
カタカナ動詞
入力 「パフェる」
既存辞書
での有無
辞書見出し
出力
1. パフェ
2. パーフェクト
3. パフェー
4. パーフェクトジオング
5. パーフェクトポーション
1. 暗譜
...
• ゲーセンで 曲を パフェった
• ゲーセンで パーフェクトを 取れた.
語源獲得のアイディア
• ゲーセンで 曲を パフェった
• ゲーセンで パーフェクトを 取れた.
語源獲得のアイディア
語源獲得のアイディア
• ゲーセンで 曲を パフェった
• ゲーセンで パーフェクトを 取れた.
• ゲーセンで 曲を パフェった
• ゲーセンで パーフェクトを 取れた
語源獲得のアイディア
語源候補の獲得
カタカナ名詞集合
カタカナ名詞全てを
調べるには膨大
ルールを用いて候補を絞る
候補を絞るルール
• 表層的なルール
単語の先頭から見て,促音・長音は無視し,それ以外の文字が出てきた
ら選択しない.
例)目的の単語:テク
候補として選択 候補として選択しない
テクニック テイク
テック ハイテク
テーク 心理テクニック
テ...
カタカナ名詞集合
格要素
ベクトル作成
類似度計算
語源候補
パラダイス
パーフェクト
パイソン
パーツ
ピース
... カタカナ動詞入力
パフェる
明日で:24
ゲーセンで:20
・
・
曲を : 15
パフェ
パーフェクト
パフェー
......
類似度計算
• 作成された格要素ベクトルに対して言い換えの場合と同じく
以下を適用
– コサイン類似度
語源候補の頻度考慮
• 語源の頻度を考慮
リクる
頻度 語源候補
9737 リクエスト
823 リク
505 リクルートスーツ
471 リクスー
461 リクナビ
頻度の多いものを優先!
言い換えと語源の類似性や共起を考慮したリランキング
カタカナ動詞
入力 「パフェる」
既存辞書
での有無
辞書見出し
出力
1. パフェ
2. パーフェクト
3. パフェー
4. パーフェクトジオング
5. パーフェクトポーション
1. 暗譜
...
言い換えと語源の関連性
• 2つの手法
– ペア類似度(スコアの足しあわせ)
– 共起
ペア類似度(スコアの足しあわせ)
言い換えのスコア
語源のスコア ペア類似度のスコア
パフェる
語源 :
言い換え :
2つの関連性を考慮
達成
パーフェクト
共起
グーグル で 検索 する
ググる
語源 言い換え
共起しているかどうかを調べる
実験
評価指標
• MRR (Mean Reciprocal Rank)
正解がどのくらい上位に出て来やすいかをスコア化したもの
Rは入力したカタカナ動詞の数,Rankは正解順位.
• Accuracy @ N
上位N位以内に正解がある確率
順位 結...
言い換え獲得例
コラボる 類似度 ハモる 類似度
1 合作 0.637 輪唱 0.527
2 演奏 0.571 合作 0.527
3 練習 0.55 合唱 0.514
4 重奏 0.549 熱唱 0.514
5 レコーディング 0.523 歌う...
語源獲得例
チャリる 類似度 ポジる 類似度
1 チャリンコ 0.576 ポジ 0.250
2 チャリ 0.574 ポジショニング 0.225
3 チャーリー 0.229 ポジション 0.185
4 チャリチャリ 0.187 ポジティブシンキン...
みんないろんな研修やってたよねー
どんなのやってたか興味あり!
時間があるとき、教えてくださいー!
ご清聴ありがとうございました
大学の時の研究の話
大学の時の研究の話
Upcoming SlideShare
Loading in …5
×

大学の時の研究の話

443 views

Published on

カタカナ動詞の意味を取得する話

Published in: Technology
  • Be the first to comment

  • Be the first to like this

大学の時の研究の話

  1. 1. 大学院の研究で どんなことをやってたかの話 鈴木雄登
  2. 2. 自己紹介 • 鈴木 雄登 • @moc_yuto • 自然言語処理をやってた – 最近はめっきり。。 • 今はScalaメイン
  3. 3. はじめに
  4. 4. そういえば、 大学時代の研究の話って ほぼしてないなーっと思った。
  5. 5. じゃあ久しぶりにしよう!
  6. 6. 研究の話 (自然言語処理って身近だよ)
  7. 7. カタカナ動詞の意味を獲得 パフェる 語源:パーフェクト 言い換え:制覇する 解析器入力 出力
  8. 8. カタカナ動詞をどうやって集めるか
  9. 9. カタカナ動詞の収集 • Twitterコーパス – 2011年5月から2011年9月まで – 約1億3千万ツイート – どうしてTwitter? 気軽に投稿でき,カタカナ動詞が多く出現しやすいため • 収集法 – MeCabでパースして、以下のようなカタカナの動詞を収集 ex. 「パフェ」+「っ」(動詞非自立),「リム」+「る」(助動詞)
  10. 10. カタカナ動詞の例 頻度 カタカナ動詞 頻度 カタカナ動詞 75249 モテる 12149 ハゲる 40873 バレる ・ 36879 イケる 2014 キョドる 23472 ググる ・ 20373 ウケる 1152 アピる 15887 デレる ・ 13905 リムる ・ 12523 パクる 342 ポジる 上位200位を利用
  11. 11. 提案手法
  12. 12. 言い換えと語源の類似性や共起を考慮したリランキング カタカナ動詞 入力 「アガる」 既存辞書 での有無 辞書見出し 出力 1. パフェ 2. パーフェクト 3. パフェー 4. パーフェクトジオング 5. パーフェクトポーション 1. 暗譜 2. 倒す 3. 解禁 4. 達成 5. クリア 1. 達成 パーフェクト 2. レコーディング パフェ 3. 合体 パフェ 4. 録 パフェ 5. テスト パフェ 3 言い換え獲得 語源獲得1 2 有 無 あが・る 【上がる/揚がる/挙がる】 全体のフロー
  13. 13. 言い換えと語源の類似性や共起を考慮したリランキング カタカナ動詞 入力 「パフェる」 既存辞書 での有無 辞書見出し 出力 1. パフェ 2. パーフェクト 3. パフェー 4. パーフェクトジオング 5. パーフェクトポーション 1. 暗譜 2. 倒す 3. 解禁 4. 達成 5. クリア 1. 達成 パーフェクト 2. レコーディング パフェ 3. 合体 パフェ 4. 録 パフェ 5. テスト パフェ 3 言い換え獲得 語源獲得1 2 有 無 全体のフロー
  14. 14. 言い換えと語源の類似性や共起を考慮したリランキング カタカナ動詞 入力 「パフェる」 既存辞書 での有無 辞書見出し 出力 1. パフェ 2. パーフェクト 3. パフェー 4. パーフェクトジオング 5. パーフェクトポーション 1. 暗譜 2. 倒す 3. 解禁 4. 達成 5. クリア 1. 達成 パーフェクト 2. レコーディング パフェ 3. 合体 パフェ 4. 録 パフェ 5. テスト パフェ 3 言い換え獲得 語源獲得1 2 有 無 全体のフロー
  15. 15. 言い換えと語源の類似性や共起を考慮したリランキング カタカナ動詞 入力 「パフェる」 既存辞書 での有無 辞書見出し 出力 1. パフェ 2. パーフェクト 3. パフェー 4. パーフェクトジオング 5. パーフェクトポーション 1. 暗譜 2. 倒す 3. 解禁 4. 達成 5. クリア 1. 達成 パーフェクト 2. レコーディング パフェ 3. 合体 パフェ 4. 録 パフェ 5. テスト パフェ 3 言い換え獲得 語源獲得1 2 有 無 全体のフロー
  16. 16. 言い換え獲得のアイディア ゲーセンで 曲を パフェった ゲーセンで 曲を 制覇した ・カタカナ動詞 ・言い換え 格要素の類似性を利用
  17. 17. カタカナ動詞入力 パフェる IPA辞書内の 全動詞 制覇する 食べる 寝る 走る クリアする ... ランキングして出力 で:24 ゲーセンで:20 ・ ・ 曲を : 15 連続で:24 ゲーセンで:20 ・ ・ 曲を : 15 ベクトル作成 で:24 ゲーセンで:20 ・ ・ 曲を : 15 で:24 ゲーセンで:20 ・ ・ 曲を : 15 で:24 ゲーセンで:20 ・ ・ 曲を : 15 連続で:24 ゲーセンで:20 ・ ・ 曲を : 15 類似度を計算 言い換えの 獲得
  18. 18. … パフェる= 曲を : 36 ポップンで : 23 連続で:21 ツ イ ー ト 集 合 帰り際に遊んだら ポップンでパフェった. ミスした時に限って あの曲を パフェる 練習してた 曲を パフェった! … 連続で あの曲を パフェる ベクトルの作り方
  19. 19. ベクトル間の類似度計算 格要素ベクトルを用いてカタカナ動詞と候補間の類似度を 計算する. Jaccard係数,コサイン類似度を利用して評価した. x, y の各ベクトルは頻度を要素とした格要素ベクトルである. X,Yは格要素ベクトルの単語集合である.
  20. 20. 簡単に言うと 曲を : 36 ポップンで : 2 連続で:0 曲を : 242 ポップンで : 23 連続で:103 36 × 242 + 2 × 23 + 0 × 103 + … = 合計 合計 ÷ ベクトルの列数 = 類似度 単純に両方で同じ単語が頻度高く出現すれば、 類似度は高くなる
  21. 21. 言い換えと語源の類似性や共起を考慮したリランキング カタカナ動詞 入力 「パフェる」 既存辞書 での有無 辞書見出し 出力 1. パフェ 2. パーフェクト 3. パフェー 4. パーフェクトジオング 5. パーフェクトポーション 1. 暗譜 2. 倒す 3. 解禁 4. 達成 5. クリア 1. 達成 パーフェクト 2. レコーディング パフェ 3. 合体 パフェ 4. 録 パフェ 5. テスト パフェ 3 言い換え獲得 語源獲得1 2 有 無 全体のフロー
  22. 22. • ゲーセンで 曲を パフェった • ゲーセンで パーフェクトを 取れた. 語源獲得のアイディア
  23. 23. • ゲーセンで 曲を パフェった • ゲーセンで パーフェクトを 取れた. 語源獲得のアイディア
  24. 24. 語源獲得のアイディア • ゲーセンで 曲を パフェった • ゲーセンで パーフェクトを 取れた.
  25. 25. • ゲーセンで 曲を パフェった • ゲーセンで パーフェクトを 取れた 語源獲得のアイディア
  26. 26. 語源候補の獲得 カタカナ名詞集合 カタカナ名詞全てを 調べるには膨大 ルールを用いて候補を絞る
  27. 27. 候補を絞るルール • 表層的なルール 単語の先頭から見て,促音・長音は無視し,それ以外の文字が出てきた ら選択しない. 例)目的の単語:テク 候補として選択 候補として選択しない テクニック テイク テック ハイテク テーク 心理テクニック テクニカル
  28. 28. カタカナ名詞集合 格要素 ベクトル作成 類似度計算 語源候補 パラダイス パーフェクト パイソン パーツ ピース ... カタカナ動詞入力 パフェる 明日で:24 ゲーセンで:20 ・ ・ 曲を : 15 パフェ パーフェクト パフェー ... 候補を絞る ランキングして出力 獲得フロー 格要素 ベクトル作成
  29. 29. 類似度計算 • 作成された格要素ベクトルに対して言い換えの場合と同じく 以下を適用 – コサイン類似度
  30. 30. 語源候補の頻度考慮 • 語源の頻度を考慮 リクる 頻度 語源候補 9737 リクエスト 823 リク 505 リクルートスーツ 471 リクスー 461 リクナビ 頻度の多いものを優先!
  31. 31. 言い換えと語源の類似性や共起を考慮したリランキング カタカナ動詞 入力 「パフェる」 既存辞書 での有無 辞書見出し 出力 1. パフェ 2. パーフェクト 3. パフェー 4. パーフェクトジオング 5. パーフェクトポーション 1. 暗譜 2. 倒す 3. 解禁 4. 達成 5. クリア 3 言い換え獲得 語源獲得1 2 有 無 1. 達成 パーフェクト 2. レコーディング パフェ 3. 合体 パフェ 4. 録 パフェ 5. テスト パフェ
  32. 32. 言い換えと語源の関連性 • 2つの手法 – ペア類似度(スコアの足しあわせ) – 共起
  33. 33. ペア類似度(スコアの足しあわせ) 言い換えのスコア 語源のスコア ペア類似度のスコア パフェる 語源 : 言い換え : 2つの関連性を考慮 達成 パーフェクト
  34. 34. 共起 グーグル で 検索 する ググる 語源 言い換え 共起しているかどうかを調べる
  35. 35. 実験
  36. 36. 評価指標 • MRR (Mean Reciprocal Rank) 正解がどのくらい上位に出て来やすいかをスコア化したもの Rは入力したカタカナ動詞の数,Rankは正解順位. • Accuracy @ N 上位N位以内に正解がある確率 順位 結果 1 パフェ 2 パーフェクト 3 パフェー
  37. 37. 言い換え獲得例 コラボる 類似度 ハモる 類似度 1 合作 0.637 輪唱 0.527 2 演奏 0.571 合作 0.527 3 練習 0.55 合唱 0.514 4 重奏 0.549 熱唱 0.514 5 レコーディング 0.523 歌う 0.493 cosine類似度 • 言い換え獲得:1位のみ表示で約3割の精度 誤り分析 – 格要素をあまり取らないものの精度が良くなかった. 例)タクる,バグる
  38. 38. 語源獲得例 チャリる 類似度 ポジる 類似度 1 チャリンコ 0.576 ポジ 0.250 2 チャリ 0.574 ポジショニング 0.225 3 チャーリー 0.229 ポジション 0.185 4 チャリチャリ 0.187 ポジティブシンキング 0.163 5 チャリチョコ 0.187 ポジティブ 0.141 語源獲得:1位のみ表示で約6割 誤り分析 派生の派生が結果として出力されてしまった. 「リプる」の語源は「リプライ」,だが「リプる」から「リプ」が生まれそれが 頻出している. cosine類似度
  39. 39. みんないろんな研修やってたよねー
  40. 40. どんなのやってたか興味あり! 時間があるとき、教えてくださいー!
  41. 41. ご清聴ありがとうございました

×