More Related Content
Similar to おとなのテキストマイニング (20)
More from Munenori Sugimura (8)
おとなのテキストマイニング
- 8. テキストマイニング
テキストマイニング( text mining )は、テキストを対象と
したデータマイニングのことである。通常の文章からなる
データを単語や文節で区切り、それらの出現の頻度や共出現
の相関、出現傾向、時系列などを解析することで有用な情報
を取り出す、
テキストデータの分析方法である。
http://ja.wikipedia.org/wiki/テキストマイニング
- 14. 英語の場合
Mankind has arrived at Jupiter for
the first time today.
日本語の場合
今日人類が初めて木星に着いたよ
。
- 15. 英語の場合
Mankind has arrived at Jupiter for
the first time today.
日本語の場合
今日人類が初めて木星に着いたよ
。
わかち書きが必要
- 17. わかち書き(形態素解析)
$ 今日人類が初めて木星に着いたよ
今日 名詞 , 副詞可能 ,*,*,*,*, 今日 , キョウ , キョー
人類 名詞 , 一般 ,*,*,*,*, 人類 , ジンルイ , ジンルイ
が 助詞 , 格助詞 , 一般 ,*,*,*, が , ガ , ガ
初めて 副詞 , 一般 ,*,*,*,*, 初めて , ハジメテ , ハジメテ
木星 名詞 , 一般 ,*,*,*,*, 木星 , モクセイ , モクセイ
に 助詞 , 格助詞 , 一般 ,*,*,*, に , ニ , ニ
着い 動詞 , 自立 ,*,*, 五段・カ行イ音便 , 連用タ接続 , 着く ,
ツイ , ツイ
た 助動詞 ,*,*,*, 特殊・タ , 基本形 , た , タ , タ
よ 助詞 , 終助詞 ,*,*,*,*, よ , ヨ , ヨ
- 39. Luigi とは
• Perl で書かれた類似検索エンジン。
• 近似型のインデックスを使っています
。
• そこそこ精度がよく高速に動作します
。
実験的なコードなので CPAN にはアップされていません
GitHub: https://github.com/miki/Luigi
Editor's Notes
- 嗜好 = しこう
- 嗜好 = しこう
- 説明はしないで 類似検索を実現するために使っているライブラリです。