More Related Content
PPT
PDF
PDF
PPT
BIMobject for manufacturers 2013 PPTX
Annual Open house & Free Music Workshop Luciano PDF
Proven Oilfield Cost Reduction & Environmental Results PDF
PDF
Viewers also liked
PPT
Freelance Workshop Lecture 2 PPTX
Cash analysis & management PDF
PPTX
Linkedin Profile 2.0 Presentation PDF
PPT
PPTX
DOCX
PDF
October 2014 Ireland Commercial Bulletin PPSX
GlobalPinas - Team Exodus DOC
PPSX
PPTX
PDF
China Social Media Recruiting & Talent Management Summit 2012 - opening r... PDF
PPTX
Similar to Code4lib2014.09.06 fujiwara
PDF
WWW2018 論文読み会 Web Search and Mining PDF
Code4lib2013.09.01 fujiwara PDF
PDF
Code4Lib 2010報告会・発表ダイジェスト PPTX
図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に PDF
マイニング探検会#09 情報レコメンデーションとは PDF
PDF
PDF
PDF
PPTX
The Web Conference 2019 参加報告会資料 PPTX
テキストアナリティクスの知見を社会に活かすには? -シーズ指向の視点とニーズ指向の視点- PPT
Web-Gakkai Symposium 2010 PDF
PDF
マイニング探検会#31 情報検索システムのユーザーのニーズを考える PDF
図書館総合展ネクスト主催フォーラム「アカデミックとリアルの谷を埋める道」基調講演 2011年11月11日 PDF
20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピ... PDF
PDF
PPTX
Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation Code4lib2014.09.06 fujiwara
- 1.
2014.9.6 – 9.7Code4Lib JAPAN カンファレンス2014 @鯖江市図書館
(文化の館)
ライトニングトーク(5分)用
連想検索エンジンGETAssocを活用した「発見
対象文書」×「ユーザーペルソナ」検索
― 2013年LT「連想検索へのユーザー目的モデルの追加と,「連想ストーリー」のパッケー
ジ化の試み(言語の経験空間の動的モデル化に向けて)」の経過報告―
藤原剛(Takeshi FUJIWARA)
所属:DAYPLA株式会社
http://wiki.code4lib.jp/wiki/C4ljp2014/presentation#fujiwara 1
- 2.
連想検索エンジンGETAssocを活用した
「発見対象文書」×「ユーザーペルソナ」検索
•2013年のLTで発表した「連想検索へのユーザー目的モデルの追加と,「連想ス
トーリー」のパッケージ化の試み(言語の経験空間の動的モデル化に向けて)」の
経過報告を行う.
• 昨年発表の構想を整理し直すと次のようであった.【連想検索にファセットナビ
ゲーションを組み合わせる際,情報検索にあたってのユーザーの「目的」といった
指向性を仮定し,それを,検索対象やターゲットとなる文書とは別に,連想検索の
文書ファイル(プロファイル辞書)として作成する.これにより,ベクトル空間モデル
で,連想計算用にインデクシングされる多次元空間には,ユーザーの目的軸がで
き,ファセット検索に応用できる.また,動的(オートマトン的)にサジェストでき
る. 】
• その後,制約等からファセットナビゲーションの実装に至らないでいるが,より簡
易な方法としてユーザー「ペルソナ」を文書ファイル化し,これを,検索・発見対象
の文書に掛け合わせてインデクシングをした.今回,取引先クライアントの好意に
より,実際のサービスサイトで簡易な実証実験を行う.
2
http://wiki.code4lib.jp/wiki/C4ljp2014/presentation#fujiwara
- 3.
昨年2013 LT資料から(一部補足改定)
はじめに・・・連想検索とは?
• 「連想検索とは、文書と文書の言葉の重なり具合をもとに、ある文書
(検索条件)に近い文書(検索結果)を探し出す検索技術です。」
• 「→平たくいえば、使われている言葉の集まりを手がかりにした仲間
探しです。{あなたが選んだ} 言葉の集まりをたよりに、1000万冊以
上の膨大な本の中から、{あなたの関心に} 近い本を探します。」
• (Webcat Plusの説明から引用)
3 検索条件(文書) 検索結果(文書)
- 4.
昨年2013 LT資料から(一部補足改定)
今回の取り組みは
ユーザーの経験的(明示的・非明示的)な目的(及びそのフィードバック)を変数
化 対象となる文書空間に(新たな軸として)加えて計算する・・・
4
SEARCH
QUERY
TEXT.. space
Structured
or not
schemed
QUERY
TEXT.. Space
/ corpus
Feedback
To user(s)
or artificial
user models
information filtering systems,
machine learning, HCI,
personalization,
profiling,
behavioral targeting,
collaborative filtering,
recommender systems …etc.
Information retrieval
Feedback to
Search query
and/or
Interface UX MY/OUR
KNOWN OR UNKNOWN
GOAL
© DAYPLA Corporation, not including smiley pics etc.
- 5.
昨年2013 LT資料から(一部補足改定)
今回の取り組みは
ユーザーの経験的(明示的・非明示的)な目的(及びそのフィードバック)を変数
化 対象となる文書空間に(新たな軸として)加えて計算する・・・
といった検索技術において広くかつ多様に取り組まれている試みを
連想検索に適用
• GETAssoc を活用
5
http://getassoc.cs.nii.ac.jp/
GETAssoc
国立情報学研究所連想情報学研究開発セン
ターで開発された連想検索エンジン
特長:
・高速な文書検索
・HTTPインターフェースのサポート
・複数データベース間の横断検索が可能
・複数CPU対応による負荷分散
・インデックスの差分更新対応
・検索インデックスの構築が容易
・任意の類似度尺度が記述可能
・オープンソース
- 6.
昨年2013 LT資料から(一部補足改定)
ユーザーの目的とファセット検索:WebcatPlusでの参考例※
6
検索結果1
関連するキー
ワード
「連想ワード」
で絞り込みを
提供
検索結果2(絞り込み)
※上記例の場合、正確には、文書中の語につけられた「行為」のメタ情報であり、ユー
ザーの目的とするゴールと一致するとは限らない。他方、ユーザーに対し、アクター的
視座の要素を提案するファセットであり、情報探索の目的との親和性がある。
ファセット
①と② http://webcatplus.nii.ac.jp/
から※キャプチャー画面引用の明確性区別
① ②
- 7.
昨年2013 LT資料から(一部補足改定)
今回の試みは、「連想ストーリー」のパッ
ケージ化
• 今回の試みは、イメージとしてはこのようなファセット
ナビゲーションに、
より可変的な粒度での、ユーザーの「目的」を仮定的に付加し、
および情報サービス提供者側(例:教育目的や事実や研究探索上の構
成的な情報探索)の提案する「目的」を考慮し、
情報の体験空間にツアー的なシークエンスを持たせ、また、
そこからの行動計測から、
仮定された目的が、ユーザーと情報サービス提供者間で、マッチングし
やすいようなフィードバックを行います。
7
- 8.
昨年2013 LT資料から(一部補足改定)
連想検索のデータの面では、
• より具体的には、文書DBとなるコーパスファイルにユーザの目的を
表すデータを仮定的に含め、
• 「目的」を連想計算に含めたベクトル空間モデルを形成します。
• バリエーションのある語用空間のモデル(プロファイル辞書)を連想計
算用に作成し、
• それをユーザにフィードバックします。
8
- 9.
- 10.
- 11.
- 12.
- 13.
昨年2013 LT資料から(一部補足改定)
連想ストーリー:
インタラクションによる探索行動
• ユーザの手動アクションを織り込むことにより)によってずれが小さくなっていくことは、連想検索
のコンセプト
• 連想検索を用いれば,目的の検索結果に少しずつ近づいていく連想された事柄を次々と巡る
ことで,いつのまにか利用者が思いもしなかった事柄へと興味が移ろいゆく(*1)
• 理解の深まりを対話的に支援
• ファセット絞り込みは手動要素が多い
現在→ ユーザーの自発的なインタラクティブ行動を前提
動的サジェストの視点→ ユーザーが逐次に自発的に働き
かけなくとも、インタラクティブに(オートマトン的・自律的な
適合を行う)探索支援
13 *1 「連想検索について-コンテンツ提供側から見た連想検索-」2010/11/16連想出版青木隆平様の資料から使用許諾済み
- 14.
- 15.
- 16.
- 17.
- 18.
- 19.
- 20.
- 21.
- 22.
- 23.
- 24.
現時点では企画の前提条件が揃っていない
• インタラクティブなファセットナビゲーションの実装に至って
いない
– ユーザー「目的」のフィードバックを受ける機構としても必要
– GETAssocへのクエリーを管理者が登録するスタティックな仕掛けまで実装
– 反省点 はじめにファセットナビゲーションに対応したオープンソースの全
文検索システムを活用した開発アプローチを優先してもよかったかもしれな
い。また、経済的・時間的・制約・参加アプローチの不足等の反省材料。現ス
テージの制約なら、どこまで事業企画のシーズとすることが妥当か、の線引
き等。
そこで
• より簡易な方法としてユーザー「ペルソナ」を文書ファイル
化し,検索・発見対象の文書に掛け合わせて連想検索用
に・・・サービス側の仮説観点ではあるが、データを入れ
ていくモデル(雛形)としてはかたちをつくる価値はありそう
だ
24
- 25.
- 26.
使用データ
• カスタマーサイト、約400ページ(対象文書)
• ステップ1.そのまま
• ステップ2.ペルソナのユースケースでタギング
• ステップ3.特徴語をもとにWikipediaで対象文書を補足的に拡張(未)
• ステップ4.データへ適合性フィードバック(未)
• ユーザー・ペルソナ文書
• ステップ1.クライアント・インタビューによる簡易プロ
ファイリング(5ペルソナ×2桁キーワードレベル)
• ステップ2.クライアント・アンケート(約19万全角文字)による、カスタマー
観点からのユーザープロファイル仮説(着手)
• ステップ3.セグメント・メルマガ配信等からページ計測(未)
• ステップ4.データへ適合性フィードバック、プロファイル仮説検証(未)
26
- 27.
- 28.
- 29.
- 30.
- 31.
- 32.
- 33.
- 34.
- 35.
- 36.
- 37.
- 38.
- 39.
- 40.
- 41.
反省点・・・間接的表現として
• オープンソース系ツールを組み合わせるなど、初期段
階で、スクラッチでプロトタイプ開発をしないという路線
もありえたかも
– プロトタイプの試みが先か、各種利用可能ツールの調査
と活用が先か、そのときの事情による?
– 今回は、商用サービスでの実証実験の可能性、また、時
間・リソース・経済的制約から、小さな一歩という位置づけ
– オープンソース化は、最初からか後からか
• 研究面での踏み込みが足りず
– そのときどきの、ビジネスとしての選択と集中の事情が多
少なりともあるとはいえ、バランスを確立したい
41
- 42.
これからは・・・
• 研究方面へのアプローチ
– 多様な連想検索の研究分野があり、様々な研究成果やモデルを取り
入れ
– 情報検索やデータ処理についてのモデルやアルゴリズム寄りのサー
ビス開発ができないだろうか
• (ライブラリ/ブック系以外でも)実用サービスへの応用可能性を検
討できないか
例えば
– 情報のスクレーピングと併せて、簡易なウェブBIツール開発?
– 簡易なサーチエンジン対応/サイトページデータ最適化ツールとして、
サイト内のHTML要素と文書の目的最適化、(サービスとユーザー双方のクエリー設定
検証と併せ)目的適合性の高いコンテンツ作成支援?
42
- 43.
昨年2013 LT資料から(一部補足改定)
可能性・メリット(中期的な目標)
[発展性・応用性]
• ドキュメント・図書・書籍の探索補助として、ユーザ目的辞書の形成や、
目的に適合しやすいリコメンドシナリオ型のファセットナビゲーション。
{{Information |Description= Class
diagram for the LOD datasets
|Source=http://umbel.org/lod_const
ellation.html |Date=2008-10-10
|Author=Michael K. Bergman
|other_versions= }}
43
• Webブラウズ時の関連情報の補助ツールとして提供することで、
Linked Dataの前処理としての、統制タギングを促す。
• 情報アーカイブの空間探索用ツールとして提供することで、多様な経験
空間を纏まりとして追体験、また視座を発見することを促す。
- 44.
- 45.
その他検討メモ
• 認知行動上のコンテキスト(背景として目的/動因構成)で動的なサジェスチョンを提供する際の、ファセット(※1)の切り
替え時に着眼。(仮にこれを認知ファセットと呼ぶ)
• 「認知ファセット」の切り替えにおいて、ある知的能動態(もしくは複数)が探索的な状況におかれた際、オートマト
ン様の試行錯誤(認知ファセットの切り替え)が単体または相互にいわばチューナー的に行われる、という仮説を
置く
• その際、そのチューナー的オートマトンの作用対象の粒度において、状況感知、その複合としての感性形成、表
現のシンボル化や構造化・概念化(認知体の内または外に向けたそれ)、といった形成のレイヤーがあると考え
る
• そこにおける、実際の現象(認知の正誤や差異の発生)、および、それらの発生・変容のシミュレーションの研究
やビジネスの可能性(コミュニケーションモデルも関係)
• 中長期的な応用分野として意識する方面: ビッグデータやリンクドデータ(web)の活用機会、環境や社会サステ
イナビリティ等、制約を設けたビジネス機会性・継続性・リスク分析、また、(ソーシャルバリューまた消費対象を流
動または固定された認知対象と置いた場合の)社会や市場の形成・変容・循環の課題抽出と機会創出
※1 ファセット自体について、ここでは下記のようなメカニカルな機能としてのファセッティングという意味で用います。インデックスされた検索対象をインデックスによりカテゴライズされた
表示を提供するメカニズム。
https://cwiki.apache.org/confluence/display/solr/Faceting
から引用: As described in the section Overview of Searching in Solr, faceting is the arrangement of search results into categories based on indexed terms. Searchers are presented with the
indexed terms, along with numerical counts of how many matching documents were found were each term. Faceting makes it easy for users to explore search results, narrowing in on
exactly the results they are looking for.
45
Copyright © DAYPLA Corporation All rights reserved.
- 46.
- 47.
Editor's Notes
- #2 タイトル:連想検索(association search)へのユーザー目的モデルの追加と、「連想ストーリー」のパッケージ化の試み(言語の経験空間の動的モデル化に向けて)
「連想検索とは、文書と文書の言葉の重なり具合をもとに、ある文書(検索条件)に近い文書(検索結果)を探し出す検索技術です。」(Webcat Plusの説明から引用)
今回の取り組みは、検索技術にユーザーの経験的(明示的・非明示的)な目的またそのフィードバックを変数化し、対象となる文書空間に加えて計算するといった、検索技術において広くかつ多様に取り組まれている試みを、この連想検索に適用し、また、フリーソフトのアプリケーションGETAssoccを活用ます。
参考事例として、書籍を対象としたWebcat Plusの連想検索においては、すでに、フリーテキストからの検索結果の書籍に関連する「連想ワード」のうち「行為」の属性のある語を、分類(クラスタ表示)するファセットナビゲーションがあります。
今回の試みは、イメージとしてはこのようなファセットナビゲーションに、より可変的な粒度での、ユーザーの「目的」を仮定的に付加し、および情報サービス提供者側(例:教育目的や事実や研究探索上の構成的な情報探索)の提案する「目的」を考慮し、情報の体験空間にツアー的なシークエンスを持たせ、また、そこからの行動計測から、仮定された目的が、ユーザーと情報サービス提供者間で、マッチングしやすいようなフィードバックを行います。
より具体的には、文書DBとなるコーパスファイルにユーザのユーザの目的を表すデータを仮定的に含め、「目的」を連想計算に含めたベクトル空間モデルを形成します。バリエーションのある語用空間のモデル(プロファイル辞書)を連想計算用に作成し、それをユーザにフィードバックします。
なお、初回実装とサービス実験を予定していますが、最初は書籍関連ではない一般的なサービス企業のサイトへの適用となる見込みです。