Ci niiによるリアルタイムデータマイニングの可能性

701 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
701
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
1
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Ci niiによるリアルタイムデータマイニングの可能性

  1. 1. CiNiiによるリアルタイムデータマイニングの可能性<br />平成22年1月30日<br />マイニング探検会 前田朗<br />
  2. 2. CiNiiと決定木を組み合わせる?<br />「CiNiiと決定木しばり」で何ができるかを考える<br />CiNiiの制約<br />雑誌論文検索<br />「雑誌名」「巻号」「年次」「タイトル」「ページ」「要旨」「全文リンク」などの情報を取り出し可能<br />決定木<br />分類器のひとつ<br />人間にわかりやすい結果を出す<br />学習データ(パターンと正解)が必要<br />データマイニングのしばりとして、相応のデータ数が必要<br />
  3. 3. CiNiiで学習データを用意する<br />検索結果をそのまま解析する方向で「思考実験」<br />
  4. 4. 検索結果をパターン化する<br />ある程度、入力と正解をパターン化しないとデータマイニングがうまく働かないというのはあります<br />雑誌タイトル -> パターンとして使えるかも<br />第一著者 -> パターンとして使えるかも<br />年次 -> 連続値として使用可能<br />論文タイトル&要旨 工夫をすれば使えるかも<br />ちょっとしたブレイクスルーが必要<br />
  5. 5. 論題&要旨をパターン化<br />単純にクラスタリング(教師データ不要の分類)をすればパターン化可能<br />クラスタB<br />クラスタA<br />クラスタC<br />そういえば、GETAにはクラスタの代表単語を出す機能があったような….<br />
  6. 6. どう決定木にかけるか<br />入力データ<br />雑誌名(クラス=離散値)<br />第一著者(クラス=離散値)<br />年次(連続値)<br />正解データ<br />論題&要旨のクラスタ(with クラスタの代表単語)<br />これらのデータを多数集めることで「教師データ」とする。<br />ヒット件数が(たとえば)100件以上のときに動かすとか<br />
  7. 7. CiNiiへの付加価値<br />決定木なので、「雑誌名」「第一著者」「年次」がどの条件のときに、どの論文グループになるかを図示できる<br />リアルタイムで決定木を使うのはセオリー外だがそれはそれで面白いかも<br />制約上、ヒット件数が多いときのみ有効<br />逆転の発想で、ヒット件数が多いときのレポート機能と考える<br />CiNii検索結果のリアルタイムレポート機能として有効かどうか?<br />
  8. 8. アイデアをどう評価する?<br />机上で検討<br />実験(今回はちょっと面倒そう)<br />実装(さらに面倒そう)<br />ほかにも有効な方法があるかもしれないので、それを考えるとか<br />
  9. 9. 参考<br />決定木のWikipedia記事<br />http://ja.wikipedia.org/wiki/%E6%B1%BA%E5%AE%9A%E6%9C%A8<br />データクラスタリングのWikipedia記事<br />http://ja.wikipedia.org/wiki/%E3%83%87%E3%83%BC%E3%82%BF%E3%83%BB%E3%82%AF%E3%83%A9%E3%82%B9%E3%82%BF%E3%83%AA%E3%83%B3%E3%82%B0<br />

×