OPAC検索ログによる関連キーワード提示のさらなるビジョン平成23年1月28日(金)マイニング探検会 前田朗
いままでのまとめ
いままでの実験で試した手法用語から直に用語を連想させる用語・用語行列用語の連接をもとに行列を作成OPAC検索ログデータGETAssocのStemmerにかけるStemmerが検索式を用語に分割し行列を作成検索式・用語行列上位の検索式n件中の重要語(GETA独自手法)細かい用語のコントロールや重みづけ可重みづけを付与した行列を作成する
結果イメージと抽出用語働きにくい面白い結果が連想が入力そのまま言選Webの用語形態素(日本語名詞のみ)いまいち働きすぎかも言語選Webの用語はバランスがよいかも
「言選WEB」で用語中の形態素も出力する「言選WEB」をカスタマイズし、形態素出力用のパラメータ指定も可能に本来の「言選Web」の抽出用語は、重要度を定数倍(仮に10としている)用語中の形態素は、上記の重要度の定数倍なし。ただし、LFの値があるのでTF=1でもそれなりの重要度にはなる「定数倍」でよいか、またオプション機能として正式作用するかどうかは要検討
Suffix Arrayを使う?Amazonの米国特許をみるとSuffix Arrayを使ってキーワード補完を行っている(らしい)中川研究室のKIWIシステム手法をOPAC検索ログに流用は可能だが…プライバシー対策がとりずらいKIWIの手法は高速だがノイズがでることもある
プライバシー保護誰がキーワードを入力したか推測ができると問題特定性の高い用語「形態素」 < 「言選Web用語」 < 「フレーズ」有用性とプライバシーのバランスから「言選Web」用語も悪くない?検索語・文書行例作成後に、全データ中で一度しか出現しない語を削除連想対象にならない語、低頻度語が除かれるノイズも減る?
関連語提示の性能評価機械的なマッチングYahoo! 関連検索ワードほか人手による評価サンプルイメージ(結果はダミー)たとえば感触としては機械的なマッチングは難しそう(あまりマッチしそうにない)
今後の展開
方針転換がんがんいこうぜじっくりいこうぜ!
成果の公開許諾とプライバシー「OPAC検索ログも成果の公開となると、附属図書館に許諾を得る必要がある」ことを確認許諾を得るためには危険度がどの程度になるか -> 調査有用性について -> 説明許諾のための要件をまとめたものを、まずは学会発表にする
インターフェイスの作成大きくパターン化できるが、どれを選ぶ?関連語から情報資源にナビゲート検索窓で関連語を提示タグクラウドなど?関連語提示のインターフェイスはレベルが高い新書MAPMIMA Search作成してくれる人を募集中!
OPAC検索ログを「見せない」選択肢OPAC検索ログに出現する用語に限定用語A学術用語の可能性大?Yahoo!関連検索サーチ APIなど用語B用語C用語C
OPAC検索ログ以外の可能性Amazonのリコメンドと、関連語提示の仕組みを組み合わせる(要調査)?その他、情報源をいろいろと工夫でききるかも
学会での成果発表の形態学会への論文投稿かなり手間がかかるので、見合わせ研究会での口頭発表成果が記憶に残りづらいデモセッションプライバシーに関係ない結果のみ「紙芝居」で見せるとかイベント企画という形態もある
イベント企画について考える学会では、テーマ特定で研究発表を募集し、開催する方式があるとのことマイニング探検会で開催?ログデータ利用許諾系で募集(図書館貸出ログ利用にも声かける?)などなど企画書を要作成参考(プライバシー保護データマイニング)http://www.ipsj.or.jp/10jigyo/taikai/73kai/event_1-4.html

opac検索ログさらなるビジョン