Ci niiによるリアルタイムデータマイニングの可能性
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share

Ci niiによるリアルタイムデータマイニングの可能性

  • 692 views
Uploaded on

 

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
692
On Slideshare
692
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
0
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. CiNiiによるリアルタイムデータマイニングの可能性
    平成22年1月30日
    マイニング探検会 前田朗
  • 2. CiNiiと決定木を組み合わせる?
    「CiNiiと決定木しばり」で何ができるかを考える
    CiNiiの制約
    雑誌論文検索
    「雑誌名」「巻号」「年次」「タイトル」「ページ」「要旨」「全文リンク」などの情報を取り出し可能
    決定木
    分類器のひとつ
    人間にわかりやすい結果を出す
    学習データ(パターンと正解)が必要
    データマイニングのしばりとして、相応のデータ数が必要
  • 3. CiNiiで学習データを用意する
    検索結果をそのまま解析する方向で「思考実験」
  • 4. 検索結果をパターン化する
    ある程度、入力と正解をパターン化しないとデータマイニングがうまく働かないというのはあります
    雑誌タイトル -> パターンとして使えるかも
    第一著者 -> パターンとして使えるかも
    年次 -> 連続値として使用可能
    論文タイトル&要旨 工夫をすれば使えるかも
    ちょっとしたブレイクスルーが必要
  • 5. 論題&要旨をパターン化
    単純にクラスタリング(教師データ不要の分類)をすればパターン化可能
    クラスタB
    クラスタA
    クラスタC
    そういえば、GETAにはクラスタの代表単語を出す機能があったような….
  • 6. どう決定木にかけるか
    入力データ
    雑誌名(クラス=離散値)
    第一著者(クラス=離散値)
    年次(連続値)
    正解データ
    論題&要旨のクラスタ(with クラスタの代表単語)
    これらのデータを多数集めることで「教師データ」とする。
    ヒット件数が(たとえば)100件以上のときに動かすとか
  • 7. CiNiiへの付加価値
    決定木なので、「雑誌名」「第一著者」「年次」がどの条件のときに、どの論文グループになるかを図示できる
    リアルタイムで決定木を使うのはセオリー外だがそれはそれで面白いかも
    制約上、ヒット件数が多いときのみ有効
    逆転の発想で、ヒット件数が多いときのレポート機能と考える
    CiNii検索結果のリアルタイムレポート機能として有効かどうか?
  • 8. アイデアをどう評価する?
    机上で検討
    実験(今回はちょっと面倒そう)
    実装(さらに面倒そう)
    ほかにも有効な方法があるかもしれないので、それを考えるとか
  • 9. 参考
    決定木のWikipedia記事
    http://ja.wikipedia.org/wiki/%E6%B1%BA%E5%AE%9A%E6%9C%A8
    データクラスタリングのWikipedia記事
    http://ja.wikipedia.org/wiki/%E3%83%87%E3%83%BC%E3%82%BF%E3%83%BB%E3%82%AF%E3%83%A9%E3%82%B9%E3%82%BF%E3%83%AA%E3%83%B3%E3%82%B0