ナヌザ䞻導による䞻芳・客芳を考慮した 情報蓄積ず掚薊に関する研究 
耇雑系工孊講座 調和系工孊研究宀 
修士幎 山䞋晃匘 
User Initiated Information Accumulation and Recommendation Considering Objective-Subjective Distinction 
平成19幎床修士論文発衚䌚
2007/2/13 平成19幎床修士論文発衚䌚 2 /17 
研究背景 
Amazon.com 
Wikipedia 
䞻芳的情報 
客芳的情報 
個人が発信する情報には が含たれおいる 
客芳的 䞻芳的 客芳的 
札幌にある矎味しいラヌメン店 
耇雑系 
䞻芳ず客芳が混圚した情報の利甚䟡倀は閲芧者が刀断 
䟋 
本圓に矎味しい 
個々の自埋的振る舞いが党䜓を構成 
個々は互いに圱響を及がしあう 
個人の自埋的な閲芧・発信が党䜓を構成 
ある情報発信が他者の行動に圱響 
Web 
䞻芳ず客芳が分離できれば様々な技術が適甚可胜 
食べログ 
Flickr 
耇雑性を持぀情報源から技術やアむディアで䟡倀を生み出す実システム 
゜ヌシャルブックマヌク 
Google ロヌカル
平成19幎床修士論文発衚䌚 
2007/2/13 
/17 
3 
研究目的 
(A) 䞻芳性客芳性を区別した情報収集・提䟛システムの構築 (B) 䞻芳・客芳情報の利点を生かした情報掚アルゎリズムの提案
平成19幎床修士論文発衚䌚 
2007/2/13 
/17 
4 
提案システム 
情報デヌタベヌス 
情報掚薊 アルゎリズム 
客芳的属性テヌブル 
䞻芳的属性テヌブル 
䞻芳性ず客芳性を 
区別した情報カヌドずしお蓄積 
札幌に来た 
芳光客 
ラヌメンに 詳しいナヌザ 
矎味しいランチ を捜す利甚者 
客芳的情報 
䜏所札幌垂䞭倮区・・・・ 
電話番号011:1234:5678 
メニュヌ味噌・塩 
䟡栌500~1000円 
䞻芳的情報 おいしさ 雰囲気 
情報提䟛 
Webサヌビス 
情報掚薊 
ブログなどでの 
情報利甚 
ナヌザによっお情報が発信され その情報をナヌザが利甚する
平成19幎床修士論文発衚䌚 
2007/2/13 
/17 
5 
情報収集 
米Technorati調べ 
2003幎3月2007幎4月 
ブログの特城 
[Aimeur, E. 2003] ナヌザ数が倚い 誰でも利甚可胜 個人が線集䞻䜓であり䞻芳を含む 頻繁な曎新ず時系列衚瀺 アヌカむブ圢匏 
情報提䟛者にずっお利益になる仕組みが必芁 
ブロガヌにずっおの利点 ブログ蚘事にカヌドを挿入・・・・・・・・・・蚘事の充実 カヌドにブログぞのリンクを蚘茉・・・・・ブログの宣䌝効果 䞻芳的情報を利甚したカヌド掚薊・・・・新たな情報の発芋 
ブログの蚘事投皿時にカヌドを䜜ったり線集しおもらう 
ブログに着目
2007/2/13 平成19幎床修士論文発衚䌚 6 /17 
情報掚薊 
䞻芳的属性の量 
類䌌ナヌザの数 
党䜓の嗜奜分垃 
に䟝存する 
各デヌタの 
属性倀が類䌌 
䞻芳が類䌌 
結果 結果 
奜み 
奜み 
掚薊アルゎリズムの効果は 
アむテム間の類䌌床を利甚[Sarwar,01] 
利点新芏ナヌザにも掚薊可 
欠点倚様性に乏しい 
個人の䞻芳の類䌌床を利甚[Resnick,94] 
利点倚様性が期埅できる 
欠点:新芏ナヌザには掚薊䞍可 
䞻芳を考慮する掚薊 
協調フィルタリングを利甚 
既存アルゎリズム 
耇雑系の分析手法であるマルチ゚ヌゞェントを甚いお掚薊の効果を怜蚌 
Collaborative Filtering (CF)
2007/2/13 平成19幎床修士論文発衚䌚 7 /17 
ナヌザ集合 U {i | i 1,...,n} 
( ,..., ) i i1 inF p  p p 
効甚 exp( || ||) i, j i j s  α p  v 
( ) {1,2,3,4,5} , ,   i j i j 栌付け r f s 
嗜奜ベクトル 
アむテム集合 
特城ベクトル 
掚薊効果の分析シミュレヌションモデル 
C { j | j 1,...,m} 
( ,..., ) j j1 jnF v  v v 
掚薊システム 
ランダム掚薊 
人気掚薊 
ナヌザ間CF 
アむテム間CF 
タヌゲットナヌザ
2007/2/13 平成19幎床修士論文発衚䌚 8 /17 
ナヌザ集合 U {i | i 1,...,n} 
( ,..., ) i i1 inF p  p p 
効甚 exp( || ||) i, j i j s  α p  v 
( ) {1,2,3,4,5} , ,   i j i j 栌付け r f s 
嗜奜ベクトル 
アむテム集合 
特城ベクトル 
掚薊効果の分析シミュレヌションモデル 
C { j | j 1,...,m} 
( ,..., ) j j1 jnF v  v v 
掚薊システム 
ランダム掚薊 
人気掚薊 
ナヌザ間CF 
アむテム間CF 
掚薊システムによる 
栌付けの予枬 
予枬倀が最も高い 
アむテムを掚薊
2007/2/13 平成19幎床修士論文発衚䌚 9 /17 
ナヌザ集合 U {i | i 1,...,n} 
( ,..., ) i i1 inF p  p p 
効甚 exp( || ||) i, j i j s  α p  v 
( ) {1,2,3,4,5} , ,   i j i j 栌付け r f s 
嗜奜ベクトル 
アむテム集合 
特城ベクトル 
掚薊効果の分析シミュレヌションモデル 
C { j | j 1,...,m} 
( ,..., ) j j1 jnF v  v v 
掚薊システム 
ランダム掚薊 
人気掚薊 
ナヌザ間CF 
アむテム間CF 
掚薊システムによる 
栌付けの予枬 
予枬倀が最も高い 
アむテムを掚薊 
効甚・栌付け 
の蚈算 
効甚 0.8 ,  i j s 
5 ,  i j 栌付け r 
掚薊システムに 
栌付けを入力
2007/2/13 平成19幎床修士論文発衚䌚 10 /17 
掚薊効果の分析実隓結果 
ナヌザ数n 100,500,1000,2000 
アむテム数m 500 
嗜奜ベクトル 䞀様乱数 
特城ベクトル 䞀様乱数 
ベクトルの次元 5 
i p 
j v 
実隓蚭定 
ナヌザ数=500の結果
平成19幎床修士論文発衚䌚 
2007/2/13 
/17 
11 
掚薊効果の分析考察 
各アむテムの栌付け数掚薊された回数を芳察 
アむテム毎の掚薊回数に差が少ない 
薄→掚薊回数倚 
濃→掚薊回数少 
アむテム毎の掚薊回数の差が倧きい 
アむテム間CFの方が人気掚薊に近い
平成19幎床修士論文発衚䌚 
2007/2/13 
/17 
12 
掚薊効果の分析実隓結果 
最初はアむテム間CFで掚薊し途䞭でナヌザ間CFに切り替える 
実運甚では途䞭で掚薊アルゎリズムを切り替える方法が有効 
誰も栌付けを入力しおいない状態から開始 
初期状態で他ナヌザの栌付けあり
2007/2/13 平成19幎床修士論文発衚䌚 13 /17 
システムぞの実装 
拡匵モゞュヌル 
衚瀺サヌバ 
ナヌザむンタフェヌス 
HTTP 
サヌバ 
JavaVM 
デヌタサヌバ 
情報管理・提䟛 
XOOPS 
カヌド情報提䟛 
Webサヌビス 
DB 
掚薊アルゎリズム 
カヌドデヌタ管理 
カヌド情報衚瀺 
モゞュヌル 
ブログ 
モゞュヌル 
HTTP 
サヌバ 
PHP DB 
Web 
サヌビス 
構築コストを最小化 (オヌプン゜ヌスの技術を利甚) 
動䜜環境ずしおの汎甚性・拡匵性・メンテナンスの容易性を考慮
2007/2/13 平成19幎床修士論文発衚䌚 14 /17 
プロトタむプシステムの動䜜䟋 
省略 
システムは、入力された蚘事内容ず 
カヌド情報を基にブログ蚘事を構築する 
入力むンタフェヌス ブログ蚘事 
カヌド情報
2007/2/13 平成19幎床修士論文発衚䌚 15 /17 
プロトタむプシステムの動䜜䟋 
ブログ蚘事 
情報サむト 
個人のブログ 䞀般に公開される情報サむト
2007/2/13 平成19幎床修士論文発衚䌚 16 /17 
プロトタむプシステムの動䜜䟋 
䞻芳的情報 
客芳的情報 
• 飲食店名 
• 䜏所 
• 電話番号 
• 䌑業日 
• 地図 
• メニュヌ 
• 䟡栌 
etc. 
ブログ蚘事 
カヌド詳现情報 
個人のブログ 䞀般に公開される情報サむト
平成19幎床修士論文発衚䌚 
2007/2/13 
/17 
17 
結論 
Lecture Notes in Computer Science 4881, Springer-Verlag Berlin Heidelberg, pp.1112-1121 (2007). 
孊䌚発衚  囜際2回査読あり2回囜内8回査読あり1回 
受賞  情報凊理孊䌚北海道支郚研究奚励賞 ナヌザから発信される情報を䞻芳・客芳を区別しお蓄積 それを情報源ずしお他のナヌザに適切に提䟛 
研究業瞟 
䞻芳・客芳を区別した情報収集・提䟛システムを構築 
䞻芳・客芳情報の利点を生かした掚薊手法の提案 アむテム間の類䌌性による掚薊ず䞻芳の類䌌性による掚薊の違いを分析 システムの運甚状況で䞡者を切り替える手法が有効 
Future Work 掚薊アルゎリズムを切り替える有効性を実デヌタで評䟡 システム党䜓の評䟡法の怜蚎

yamasita m

  • 1.
    ナヌザ䞻導による䞻芳・客芳を考慮した 情報蓄積ず掚薊に関する研究 耇雑系工孊講座調和系工孊研究宀 修士幎 山䞋晃匘 User Initiated Information Accumulation and Recommendation Considering Objective-Subjective Distinction 平成19幎床修士論文発衚䌚
  • 2.
    2007/2/13 平成19幎床修士論文発衚䌚 2/17 研究背景 Amazon.com Wikipedia 䞻芳的情報 客芳的情報 個人が発信する情報には が含たれおいる 客芳的 䞻芳的 客芳的 札幌にある矎味しいラヌメン店 耇雑系 䞻芳ず客芳が混圚した情報の利甚䟡倀は閲芧者が刀断 䟋 本圓に矎味しい 個々の自埋的振る舞いが党䜓を構成 個々は互いに圱響を及がしあう 個人の自埋的な閲芧・発信が党䜓を構成 ある情報発信が他者の行動に圱響 Web 䞻芳ず客芳が分離できれば様々な技術が適甚可胜 食べログ Flickr 耇雑性を持぀情報源から技術やアむディアで䟡倀を生み出す実システム ゜ヌシャルブックマヌク Google ロヌカル
  • 3.
    平成19幎床修士論文発衚䌚 2007/2/13 /17 3 研究目的 (A) 䞻芳性客芳性を区別した情報収集・提䟛システムの構築 (B) 䞻芳・客芳情報の利点を生かした情報掚アルゎリズムの提案
  • 4.
    平成19幎床修士論文発衚䌚 2007/2/13 /17 4 提案システム 情報デヌタベヌス 情報掚薊 アルゎリズム 客芳的属性テヌブル 䞻芳的属性テヌブル 䞻芳性ず客芳性を 区別した情報カヌドずしお蓄積 札幌に来た 芳光客 ラヌメンに 詳しいナヌザ 矎味しいランチ を捜す利甚者 客芳的情報 䜏所札幌垂䞭倮区・・・・ 電話番号011:1234:5678 メニュヌ味噌・塩 䟡栌500~1000円 䞻芳的情報 おいしさ 雰囲気 情報提䟛 Webサヌビス 情報掚薊 ブログなどでの 情報利甚 ナヌザによっお情報が発信され その情報をナヌザが利甚する
  • 5.
    平成19幎床修士論文発衚䌚 2007/2/13 /17 5 情報収集 ç±³Technorati調べ 2003幎3月2007幎4月 ブログの特城 [Aimeur, E. 2003] ナヌザ数が倚い 誰でも利甚可胜 個人が線集䞻䜓であり䞻芳を含む 頻繁な曎新ず時系列衚瀺 アヌカむブ圢匏 情報提䟛者にずっお利益になる仕組みが必芁 ブロガヌにずっおの利点 ブログ蚘事にカヌドを挿入・・・・・・・・・・蚘事の充実 カヌドにブログぞのリンクを蚘茉・・・・・ブログの宣䌝効果 䞻芳的情報を利甚したカヌド掚薊・・・・新たな情報の発芋 ブログの蚘事投皿時にカヌドを䜜ったり線集しおもらう ブログに着目
  • 6.
    2007/2/13 平成19幎床修士論文発衚䌚 6/17 情報掚薊 䞻芳的属性の量 類䌌ナヌザの数 党䜓の嗜奜分垃 に䟝存する 各デヌタの 属性倀が類䌌 䞻芳が類䌌 結果 結果 奜み 奜み 掚薊アルゎリズムの効果は アむテム間の類䌌床を利甚[Sarwar,01] 利点新芏ナヌザにも掚薊可 欠点倚様性に乏しい 個人の䞻芳の類䌌床を利甚[Resnick,94] 利点倚様性が期埅できる 欠点:新芏ナヌザには掚薊䞍可 䞻芳を考慮する掚薊 協調フィルタリングを利甚 既存アルゎリズム 耇雑系の分析手法であるマルチ゚ヌゞェントを甚いお掚薊の効果を怜蚌 Collaborative Filtering (CF)
  • 7.
    2007/2/13 平成19幎床修士論文発衚䌚 7/17 ナヌザ集合 U {i | i 1,...,n} ( ,..., ) i i1 inF p  p p 効甚 exp( || ||) i, j i j s  α p  v ( ) {1,2,3,4,5} , ,   i j i j 栌付け r f s 嗜奜ベクトル アむテム集合 特城ベクトル 掚薊効果の分析シミュレヌションモデル C { j | j 1,...,m} ( ,..., ) j j1 jnF v  v v 掚薊システム ランダム掚薊 人気掚薊 ナヌザ間CF アむテム間CF タヌゲットナヌザ
  • 8.
    2007/2/13 平成19幎床修士論文発衚䌚 8/17 ナヌザ集合 U {i | i 1,...,n} ( ,..., ) i i1 inF p  p p 効甚 exp( || ||) i, j i j s  α p  v ( ) {1,2,3,4,5} , ,   i j i j 栌付け r f s 嗜奜ベクトル アむテム集合 特城ベクトル 掚薊効果の分析シミュレヌションモデル C { j | j 1,...,m} ( ,..., ) j j1 jnF v  v v 掚薊システム ランダム掚薊 人気掚薊 ナヌザ間CF アむテム間CF 掚薊システムによる 栌付けの予枬 予枬倀が最も高い アむテムを掚薊
  • 9.
    2007/2/13 平成19幎床修士論文発衚䌚 9/17 ナヌザ集合 U {i | i 1,...,n} ( ,..., ) i i1 inF p  p p 効甚 exp( || ||) i, j i j s  α p  v ( ) {1,2,3,4,5} , ,   i j i j 栌付け r f s 嗜奜ベクトル アむテム集合 特城ベクトル 掚薊効果の分析シミュレヌションモデル C { j | j 1,...,m} ( ,..., ) j j1 jnF v  v v 掚薊システム ランダム掚薊 人気掚薊 ナヌザ間CF アむテム間CF 掚薊システムによる 栌付けの予枬 予枬倀が最も高い アむテムを掚薊 効甚・栌付け の蚈算 効甚 0.8 ,  i j s 5 ,  i j 栌付け r 掚薊システムに 栌付けを入力
  • 10.
    2007/2/13 平成19幎床修士論文発衚䌚 10/17 掚薊効果の分析実隓結果 ナヌザ数n 100,500,1000,2000 アむテム数m 500 嗜奜ベクトル 䞀様乱数 特城ベクトル 䞀様乱数 ベクトルの次元 5 i p j v 実隓蚭定 ナヌザ数=500の結果
  • 11.
    平成19幎床修士論文発衚䌚 2007/2/13 /17 11 掚薊効果の分析考察 各アむテムの栌付け数掚薊された回数を芳察 アむテム毎の掚薊回数に差が少ない 薄→掚薊回数倚 濃→掚薊回数少 アむテム毎の掚薊回数の差が倧きい アむテム間CFの方が人気掚薊に近い
  • 12.
    平成19幎床修士論文発衚䌚 2007/2/13 /17 12 掚薊効果の分析実隓結果 最初はアむテム間CFで掚薊し途䞭でナヌザ間CFに切り替える 実運甚では途䞭で掚薊アルゎリズムを切り替える方法が有効 誰も栌付けを入力しおいない状態から開始 初期状態で他ナヌザの栌付けあり
  • 13.
    2007/2/13 平成19幎床修士論文発衚䌚 13/17 システムぞの実装 拡匵モゞュヌル 衚瀺サヌバ ナヌザむンタフェヌス HTTP サヌバ JavaVM デヌタサヌバ 情報管理・提䟛 XOOPS カヌド情報提䟛 Webサヌビス DB 掚薊アルゎリズム カヌドデヌタ管理 カヌド情報衚瀺 モゞュヌル ブログ モゞュヌル HTTP サヌバ PHP DB Web サヌビス 構築コストを最小化 (オヌプン゜ヌスの技術を利甚) 動䜜環境ずしおの汎甚性・拡匵性・メンテナンスの容易性を考慮
  • 14.
    2007/2/13 平成19幎床修士論文発衚䌚 14/17 プロトタむプシステムの動䜜䟋 省略 システムは、入力された蚘事内容ず カヌド情報を基にブログ蚘事を構築する 入力むンタフェヌス ブログ蚘事 カヌド情報
  • 15.
    2007/2/13 平成19幎床修士論文発衚䌚 15/17 プロトタむプシステムの動䜜䟋 ブログ蚘事 情報サむト 個人のブログ 䞀般に公開される情報サむト
  • 16.
    2007/2/13 平成19幎床修士論文発衚䌚 16/17 プロトタむプシステムの動䜜䟋 䞻芳的情報 客芳的情報 • 飲食店名 • 䜏所 • 電話番号 • 䌑業日 • 地図 • メニュヌ • 䟡栌 etc. ブログ蚘事 カヌド詳现情報 個人のブログ 䞀般に公開される情報サむト
  • 17.
    平成19幎床修士論文発衚䌚 2007/2/13 /17 17 結論 Lecture Notes in Computer Science 4881, Springer-Verlag Berlin Heidelberg, pp.1112-1121 (2007). 孊䌚発衚  囜際2回査読あり2回囜内8回査読あり1回 受賞  情報凊理孊䌚北海道支郚研究奚励賞 ナヌザから発信される情報を䞻芳・客芳を区別しお蓄積 それを情報源ずしお他のナヌザに適切に提䟛 研究業瞟 䞻芳・客芳を区別した情報収集・提䟛システムを構築 䞻芳・客芳情報の利点を生かした掚薊手法の提案 アむテム間の類䌌性による掚薊ず䞻芳の類䌌性による掚薊の違いを分析 システムの運甚状況で䞡者を切り替える手法が有効 Future Work 掚薊アルゎリズムを切り替える有効性を実デヌタで評䟡 システム党䜓の評䟡法の怜蚎