SlideShare a Scribd company logo
珍スポット検索のためのランキング手法の検
討
堀内進次
静岡大学 情報学部 情報科学科
2019年2月7日
1
静岡大学情報学部 卒業論文発表
研究の背景(1/2)
移動時の変化のない道で飽きてしまう、新鮮味がない。
2
研究の背景(2/2)
 珍スポット
– 見たことがないもの、珍しいものがあれば飽きずに移動できるはず!
https://bqspot.com/photo2006/2006-02-14-01.jpg 3
システムの概要
入力 出力都市名 珍スポット
ランキング
システム
4
アルゴリズムのフロー図
5
珍スポットを抽出する都市名を入力で与える。
与えられた都市名をクエリとして𝐹𝑜𝑢𝑟𝑆𝑞𝑢𝑎𝑟𝑒1
を用いて作成した
データベースにアクセスし、該当するランドマークを取得する。
取得したランドマーク集合の各ランドマークに対してウェブ検索した
ときにヒットした文書に珍スポットに特有の形容詞がどれだけ
含まれているかでスコアを付ける。
付けられたスコアでソートし出力する。
1)https://ja.foursquare.com/
珍スポット特有の形容詞の抽出(1/3)
珍スポットをランドマーク名で検索したときに得られる
タイトルとスニペットの文書集合に多く含まれる形容詞
が珍スポット特有の形容詞であると仮定する。
𝑓 𝑤 𝑎, 𝐿 =
1
|𝐿|
𝑙∈𝐿
𝐻(𝑙, 𝑤 𝑎)
𝐻(𝑙)
この式を既知の珍スポット100件に対して適応する。
6
𝑤 𝑎 = 任意の形容詞
𝐿 = 任意のランドマーク集合
|𝐿| = ランドマーク集合の要素数
𝐻(𝑙) = 𝑙でウェブ検索したときに得られる文書数
𝐻 𝑙, 𝑤 𝑎 = 𝐻(𝑙)で取得した文書のうちの𝑤 𝑎を含む文書数
珍スポット特有の形容詞の抽出(2/3)
前述の式を伊豆の有名観光地40件に対しても適応する。
作成した2つの形容詞ランキングのリストを比較する。
双方のリストに出現する形容詞について算出した値の差
を求め、差の絶対値が0.01以下の形容詞を珍スポット特
有の形容詞リストから除外する。(「ない」,「いい」など)
7
珍スポット特有の形容詞の抽出(3/3)
8
珍スポット抽出のためのランキングアルゴリズム(1/2)
珍スポットである程度の尺度として珍スポット度を定義
する。
ランドマークをウェブ検索したときのタイトルとスニ
ペットの文書集合中に含まれる珍スポット特有の形容詞
を含む割合の大きいランドマークが珍スポットである可
能性が高い。
9
前述した珍スポット特有の形容詞リストを用いた珍ス
ポット度算出の式は次のようになる。
𝑅𝑎𝑛𝑘 𝑙, 𝑊𝑎 =
1
|𝑊𝑎|
𝑤 𝑎∈𝑊𝑎
𝐻(𝑙, 𝑤 𝑎)
𝐻(𝑙)
 本実験では珍スポット特有の形容詞リストから上位3つの形容詞
を用いる。(怪しい,ぼろい,黒い)
珍スポット抽出のためのランキングアルゴリズム(2/2)
10
𝑙 = 任意のランドマーク
𝑊𝑎 = 珍スポット特有の形容詞リスト
|𝑊𝑎| = 珍スポット特有の形容詞リストの要素数
𝐻(𝑙) = 𝑙でウェブ検索したときに得られる文書数
𝐻 𝑙, 𝑤 𝑎 = 𝐻(𝑙)で取得した文書のうちの𝑤 𝑎を含む文書
実験の概要
 提案手法の比較手法として他に2つの手法を用いてランキング手
法の性能比較を行う。ベースラインとなる手法は以下の2つであ
る。
– “ランドマーク名+ 珍スポット”でウェブ検索したときの検索結果ヒット数順に並べる手法
– “ランドマーク名”でウェブ検索したときの検索結果ヒット数順に並べる手法
 それぞれのランキングを評価する尺度としてP@kを定義する。
– P@kはk件目までに存在する正解珍スポットの割合である。
11
ランキングの評価実験
“伊豆”の1214件のランドマークを用いて評価実験を行う。
ランキングの上位30件のランドマークに対して珍スポッ
トかどうか判別するために大学生5人に判定してもらい5
人中3人が珍スポットと判定したランドマークを珍スポッ
トとした。
各手法におけるP@kを求めて性能を比較する。
12
ユーザ目線の珍スポットを用いたランキングの評価実験結果
13
考察
 既知の珍スポットを用いたランキング評価と実ユーザによる珍ス
ポットランキング評価ともに提案手法のP@kの値がkがいくつに
なってもベースラインとなるほか2手法を下回ることがないため
ランキングとして優れている。
14
今後の課題
各形容詞の重みを全て同一であるとしたが、形容詞の頻
出度合いなどから重み付けをすることでより多くの珍ス
ポットを上位にランク付けできると考える。
視覚的特徴など他の観点からパラメータを与えることで
よりランキングの精度を高めることができると考える。
15
おわりに
本実験では珍スポット特有の形容詞に着目し、ランド
マークにスコアを付けてランキング化する手法の提案を
行った。
提案手法の有用性を示すことができた。
今後の課題
– 形容詞の重み付けや視覚的特徴量を考慮したアルゴリズムの設計
– 他の地域での実験
16

More Related Content

More from ymmt3-lab

DEIM2019発表資料(藤堂晶輝)
DEIM2019発表資料(藤堂晶輝)DEIM2019発表資料(藤堂晶輝)
DEIM2019発表資料(藤堂晶輝)
ymmt3-lab
 

More from ymmt3-lab (20)

Research 20200206 nagano
Research 20200206 naganoResearch 20200206 nagano
Research 20200206 nagano
 
Journalclub 20191211 nagano
Journalclub 20191211 naganoJournalclub 20191211 nagano
Journalclub 20191211 nagano
 
研究室勉強会資料「データ分析チュートリアル」
研究室勉強会資料「データ分析チュートリアル」研究室勉強会資料「データ分析チュートリアル」
研究室勉強会資料「データ分析チュートリアル」
 
Journalclub sato 20191218
Journalclub sato 20191218Journalclub sato 20191218
Journalclub sato 20191218
 
Journal club 20191211_murata
Journal club 20191211_murataJournal club 20191211_murata
Journal club 20191211_murata
 
Journal_club_1120
Journal_club_1120Journal_club_1120
Journal_club_1120
 
ジャーナルクラブ_20191120
ジャーナルクラブ_20191120ジャーナルクラブ_20191120
ジャーナルクラブ_20191120
 
Journalclub sato 20191031
Journalclub sato 20191031Journalclub sato 20191031
Journalclub sato 20191031
 
静岡大学 山本研究室 勉強会資料 機械学習
静岡大学 山本研究室 勉強会資料 機械学習静岡大学 山本研究室 勉強会資料 機械学習
静岡大学 山本研究室 勉強会資料 機械学習
 
Journal club 20191030 ito
Journal club 20191030 itoJournal club 20191030 ito
Journal club 20191030 ito
 
Journalclub 20191023 nagano
Journalclub 20191023 naganoJournalclub 20191023 nagano
Journalclub 20191023 nagano
 
Journal club 20191023_murata
Journal club 20191023_murataJournal club 20191023_murata
Journal club 20191023_murata
 
DEIM2019発表資料(藤堂晶輝)
DEIM2019発表資料(藤堂晶輝)DEIM2019発表資料(藤堂晶輝)
DEIM2019発表資料(藤堂晶輝)
 
DEIM2019 発表資料 「飲食店レビュー情報の集合知分析と意思決定支援」
DEIM2019 発表資料 「飲食店レビュー情報の集合知分析と意思決定支援」DEIM2019 発表資料 「飲食店レビュー情報の集合知分析と意思決定支援」
DEIM2019 発表資料 「飲食店レビュー情報の集合知分析と意思決定支援」
 
DEIM2019 発表資料 「笑えるウェブ情報検索のためのクエリ推薦」
DEIM2019 発表資料 「笑えるウェブ情報検索のためのクエリ推薦」DEIM2019 発表資料 「笑えるウェブ情報検索のためのクエリ推薦」
DEIM2019 発表資料 「笑えるウェブ情報検索のためのクエリ推薦」
 
DEIM2019 発表資料 「脚本の内容と構成要素に基づく映画印象推定」
DEIM2019 発表資料 「脚本の内容と構成要素に基づく映画印象推定」DEIM2019 発表資料 「脚本の内容と構成要素に基づく映画印象推定」
DEIM2019 発表資料 「脚本の内容と構成要素に基づく映画印象推定」
 
DEIM2019 発表資料 「文章表現の曖昧さ指摘による情報精査の態度・行動促進」
DEIM2019 発表資料 「文章表現の曖昧さ指摘による情報精査の態度・行動促進」DEIM2019 発表資料 「文章表現の曖昧さ指摘による情報精査の態度・行動促進」
DEIM2019 発表資料 「文章表現の曖昧さ指摘による情報精査の態度・行動促進」
 
Bookreading7
Bookreading7Bookreading7
Bookreading7
 
誰のためのデザイン?3章
誰のためのデザイン?3章誰のためのデザイン?3章
誰のためのデザイン?3章
 
誰のためのデザイン?2章
誰のためのデザイン?2章誰のためのデザイン?2章
誰のためのデザイン?2章
 

DEIM2019_horiuchi

Editor's Notes

  1. 情報科学科 堀内進次が珍スポット検索のためのランキング手法の検討というテーマで研究の卒業論文発表をさせていただきたいと思います。
  2. 研究の背景として、まず問題に挙げるのは自動車などでの移動時が退屈であることです。住み慣れた地や何度も訪れたことのある地の変化のない道で飽きてしまう、新鮮味がないなどがあります。
  3. そこで珍スポットに注目し、見たことがないもの、珍しいものがあれば飽きずに移動できると考えました。 また本研究における珍スポットの定義を他では見かけないような一般的でない施設、像、あるいは観光地と定義しました
  4. 次に僕が提案するシステムの概要です。システムは入力として都市名を受け取り、出力は珍スポットのランキングとなります。
  5. 次に具体的なシステムのアルゴリズムのフローについて説明します。システムは入力として都市名を受け取り入力からFoursquareを用いて作成したデータベースにアクセスし該当するランドマークを取得します。 取得した各ランドマークに対してウェブ検索したときのタイトルとスニペットの文書集合に珍スポットが言及される文書に特有の形容詞がどれだけ含まれているかでスコアを付けます。 システムは付けられたスコアでソートしランキングとして出力します。
  6. 珍スポットに特有の形容詞の抽出方法について説明します。 既知の珍スポットが言及される文書に特徴的に現れる形容詞に着目します。 具体的には,珍スポットをランドマーク名で検索したときに得られるタイトルとスニペットの文書集合に多く含まれる形容詞が珍スポット特有の形容詞であると仮定しました。 任意のランドマークLをウェブ検索したときの文書集合中に任意の形容詞waが含まれる文書の割合を求める式を次に示します。 関数fはランドマーク集合Lと形容詞waを与えるとランドマーク集合Lの各ランドマークをウェブ検索したときの形容詞waが含まれる文書の割合を出力します。 関数Hは与えられた入力で検索したときの取得したタイトルとスニペットの文書数になります。 この式を既知の珍スポット100件に対して適応する。
  7. また前述の式を伊豆の有名観光地40件に対しても適応します 作成した2つの珍スポットと観光地の形容詞ランキングのリストを比較し、双方のリストに出現する形容詞について前述の式を用いて算出した値の差を求め、差の絶対値が0.01以下となったないやいいなどといった全てのランドマークに共通してあらわれるような形容詞を珍スポット特有の形容詞リストから除外しました
  8. 実際に完成した珍スポット特有の形容詞リストの上位15件はこのようになりました。この珍スポット特有の形容詞リストを用いて各ランドマークに対してスコアを付けます。
  9. 珍スポットである程度の尺度として珍スポット度を定義する。 ランドマークをウェブ検索したときのタイトルとスニペットの文書集合中に含まれる珍スポット特有の形容詞を含む割合の大きいランドマークが珍スポットである可能性が高いと仮定しました。
  10. その仮定を元に前述の珍スポット特有の形容詞リストを用いた任意のランドマークLの珍スポット度算出の式は次のようになります。 関数Rankは任意のランドマークLと珍スポット特有の形容詞リストWaを入力として与えると任意のランドマークLの珍スポット度を出力する関数になります。 この式を珍スポットを抽出するランドマーク集合各ランドマークに適応し、珍スポット度を算出してランキングを作成する。 本実験では珍スポット特有の形容詞リストから上位3つの形容詞を用いました。
  11. 提案手法の比較手法として他に2つの手法を用いてランキング手法の性能比較を行う。ベースラインとなる手法は “ランドマーク名+ 珍スポット”でウェブ検索したときの検索結果ヒット数順に並べる手法 “ランドマーク名”でウェブ検索したときの検索結果ヒット数順に並べる手法 の2つです。 それぞれのランキングを評価する尺度としてP@kを定義します P@kはk件目までに存在する正解珍スポットの割合です
  12. データベース上から伊豆とクエリを与えてヒットした1214件のランドマークを用いて評価実験を行います。 提案手法とベースラインとなる2手法によるランキングを作成し、できたランキングの上位30件のランドマークに対して珍スポットかどうか判別するために大学生5人に判定してもらい5人中3人が珍スポットと判定したランドマークを珍スポットとしました ランキングを珍スポットと判定されたランドマークを正解珍スポットとして各手法におけるP@kを求めて性能を比較します
  13. 3 手法の各ランキングの上位30 件にランクインした珍スポットと判別されたランドマークは合計9 件存在しました. 提案手法は9件中5件の珍スポットと判別されたランドマークを上位30件にランクインさせました 提案手法におけるP@k のグラフはk の値がいくつになってもその他2 つの手法よりも下回ることはありませんでした
  14. 既知の珍スポットを用いたランキング評価と実ユーザによる珍スポットランキング評価ともに提案手法のP@kの値がkがいくつになってもベースラインとなるほか2手法を下回ることがないためランキングとして優れているといえます.
  15. 実験を行う際に3つの珍スポット特有の形容詞を用いた。その際、各形容詞の重みを全て同一であるとしたが、形容詞の頻出度合いなどから重み付けをすることでより多くの珍スポットを上位にランク付けできると考える。 また、今回はランドマークをウェブ検索したときのタイトルとスニペットの文書の文書集合中に含まれる珍スポット特有の形容詞が含まれる割合以外に視覚的特徴など他の観点からパラメータを与えることでよりランキングの精度を高めることができると考える。
  16. 本実験では珍スポット特有の形容詞に着目し、ランドマークにスコアを付けてランキング化する手法の提案を行いました その結果として提案手法の有用性を示すことができました 今後の課題として形容詞の重み付けや視覚的特徴量を考慮したアルゴリズムの設計や他の地域での実験があります。