Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

ggrmcne

1,130 views

Published on

ssmjp 2014/10での資料です。

Published in: Software
  • Be the first to comment

ggrmcne

  1. 1. 代わりにググる まっすぃーん作った 作りたかった @haru2036 #ssmjp 2014/10
  2. 2. おわび
  3. 3. やってみたけど あんまうまくいかなかった
  4. 4. 残念な感じ
  5. 5. そもそも内容が ささみっぽくない (参加2回め)
  6. 6. ごめんなさい
  7. 7. @haru2036    • 自然言語処理とか機械学習興味あるけどできない • 数学できません • Haskell好き • サイボウズ・ラボユース2期コアメンバーひよっこ担当 • ドール沼 • 武装神姫沼
  8. 8.
  9. 9. 嫁 is (実体化して)ほしい • 作りたい • ガワは今ある技術でも何とかできそう • 人間にできてコンピュータにできないこと is 必要 • コンピュータにそれできたら嫁できる • 神姫はよ
  10. 10. たとえば • 質問文からググるためのワードをかんがえるとか • かわいいとか • しゃべれるとか
  11. 11. てはじめに • ぐぐってもらうとかできそう
  12. 12. どうやって • 素人なりに考えました • なんか文の構造に依存しそう
  13. 13. 少し具体的に • 教師あり機械学習のようなもの • 品詞に変換したあとのtrigramを素性にする • [(“名詞”, “助詞”, “動詞”), (“助詞”, “動詞”, “助 詞”)…] • ラベルを文の中での単語の順番にする • 分類器に入れてみる
  14. 14. 実装 • 分類器: ナイーブベイズ(手前味噌のNagato) • モデル: Bag-of-Trigrams(品詞)(?) • 形態素解析器: MeCab • Nagato&今回のコレ: Haskell製
  15. 15. コーパス • あんまり質問文にフォーカスしたコーパスがあるか わからない • ぐぐったけど見つからなかった • 諦めて適当に手ででっち上げた質問文を使う • はてなの質問からも引っ張ってきて手でラベルふる
  16. 16. 結果以前の問題 • どんなものが出力されればいいのかわからない • 正解がない? • 人によって違いそう
  17. 17. 結果 • ダメでした • 単純な質問文でも精度が低い • 上:質問文, 下:検索用クエリ
  18. 18. 原因? • 学習する元の量が少ない • そもそも手法がダメ • 文中での単語の位置のズレが補正できてない
  19. 19. 位置ずれ補正 • 文の構造が微妙に違うと文中の単語位置では違いが • 一番近い同じ品詞の部分を抜き出すように修正 • あんまり意味なかった
  20. 20. 選択肢 • ダメっぽい手法を投げ捨てて別の手法を考える • 学習させる量を増やす
  21. 21. 結論 • むずかしい • 他の先行研究的なの調べる必要 is ある • これtrigramにしないで全文でやったほうが…… • 素人考えはやっぱりあてにならない • つぎはもっと調べます • そもそもGoogleなら質問文から検索できるやん
  22. 22. ご清聴 ありがとうございました
  23. 23. リポジトリ • githubにあります • nagato: haru2036/nagato • 今回のアレ: haru2036/nl-query

×