SlideShare a Scribd company logo
1 of 27
Download to read offline
DEIM 2021 D33-2
丸田敦貴(筑波大学), 加藤誠(筑波大学)
視覚化意図を考慮した
データの効果的な視覚化方法の推定
データの視覚化はデータの内容を伝えるのに効果的
問題点
• 効果的な視覚化には専門的知識が必要
○ どのツールを使えば良い? どんなグラフが良い?
背景 2
数値の羅列では内容がわかりづらい グラフにするとひと目で理解できる
効果的な視覚化を推薦する研究が行われている
関連研究
視覚化推薦システムは大きく分けると二つ
3
機械学習ベース
表形式データの統計情報を特徴として
機械学習を行う[4][5][6][7]
- 例) 列の値の分散や列同士の相関
を特徴とする
ルールベース
表形式データの統計情報を用いて
ルールを人間が設定[1][2][3]
- 例) 行の数が大きいと
円グラフは適していない
[1] Stolte Chris et al. Polaris: A system for query, analysis, and visualization of multidimensional relational databases. IEEE TVCG. 2002, vol. 8, no. 1, p. 52-65.
[2] Wongsuphasawat Kanit et al. Voyager: Exploratory analysis via faceted browsing of visualization recommendations. IEEE TVCG. 2015, vol. 22, no. 1, p. 649-658.
[3] Eberhardt A, Milene S. Show me the data! A systematic mapping on open government data visualization. DG.O 2018. 2018, p. 1-10.
[4] Moritz Dominik et al. Formalizing visualization design knowledge as constraints: Actionable and extensible models in draco. IEEE TVCG. 2018, vol. 25, no. 1, p. 438-448.
[5] Dibia Victor, Demiralp Çağatay. Data2vis: Automatic generation of data visualizations using sequence-to-sequence recurrent neural networks. IEEE CGA. 2019, vol. 39, no. 5, p. 33-46.
[6] Luo, Y et al. Deepeye: Towards automatic data visualization. IEEE 34th ICDE, 2018, p. 101-112.
[7] Hu, Kevin et al. Vizml: A machine learning approach to visualization recommendation. CHI, 2019, p. 1-12.
本研究はこちら!
既存の研究では視覚化の意図が考慮されていなかった
視覚化意図 ~ データの内容をどう表現したいかという意図 4
日本の人口の推移
日本の人口における
大学生の割合
推移
割合
折れ線グラフ
円グラフ
視覚化意図を考慮することでより適切な視覚化を行う
視覚化意図
グラフの種類
視覚化意図の中にある
視覚化方法の予測に効果的な単語
人口の推移
年 人口 年少
人口
生産年齢
人口
老年
人口
2017 300 60 170 70
2018 350 50 210 90
2019 370 50 220 100
入力
自動視覚化
システム
出力
• データ視覚化の初学者でも簡単に視覚化することができる
• 大量の表データに適用することで視認性が上がり、データの検索がしやすくなる
2018年の人口区分
表形式データ
視覚化意図
視覚化意図を考慮したデータの自動視覚化システムの提案
目的 5
0
100
200
300
400
2017 2018 2019 年
人口の推移
グラフの種類
人口
年少人口 生産年齢人口 老年人口
2018年の人口区分
使用する列
視覚化方法
提案手法の主なアイデア 1 / 2 6
• 視覚化意図と表形式データの各列の特徴は
ともにグラフの種類予測に有効
- しかし、全ての単語や列が必要というわけではない
• 視覚化意図はどの列が視覚化に使われるべきかを
示す
- 直感的には,視覚化意図に合致する見出しを
持つ列は視覚化に使われるべき
• 双方向アテンションは二つのデータから
それぞれの重要な部分を予測する技術[8]
年 人口 年少人口
2017 300 60
2018 350 50
2019 370 50
表形式データ
日本の人口の推移
視覚化意図
これらの列が使われるべき
双方向アテンションを用いて
視覚化意図と表形式データがお互いの重要な部分を推定する
[8] Seo, Minjoon et al. Bidi-rectional attention flow for machine comprehension. arXiv.org e-Print archive, 2016, 1611.01603. https://arxiv.org/pdf/1611.01603.pdf, (accessed 2020-12-19).
提案手法の主なアイデア 2 / 2 7
• 双方向アテンションは各列の重要度を出力可能
- 各列の重要度から使用する列を推定
• 使用する列とグラフの種類の予測で共通して学習する部分がある
マルチタスク学習を行い、グラフの種類の予測モデルと使用する列の
予測モデルの両方を同時に学習させる
共通学習部分
グラフの種類予測
使用する列の予測
共通学習部分と2つの出力をそれぞれ学習する部分に分かれている
提案モデル 8
年 人口 年少
人口
2017 300 60
2018 350 50
2019 370 50
人口の推移
年 人口 年少
人口
2017 300 60
2018 350 50
2019 370 50
入力
列の重要度ベクトル
視覚化意図の重要度ベクトル
FFNN
で予測
グラフの種類
視覚化意図と対応する列の特徴に注目してデータの特徴を抽出
表形式データ
人口の推移
視覚化意図
年
人口
年少
人口
人口
推移
① 列と視覚化意図の
重要な部分を予測
(双方向アテンションモデル)
② 重要度ベクトル
同士を結合
③ 予測
使用する列
双方向アテンション
の値から予測
• 表形式データから視覚化意図の重要な部分を推定し、視覚化意図から表形式データの重要な部分を推定する
• 重要度を加味したベクトルでグラフの種類を予測 、アテンションの値から使用する列を予測
提案モデルの概要図 9
!1
・・・
・・・
!2
!#
"1
"2
"$
#1
#2
#$
Intent2Table
and
Table2Intent
!
#
ReLU softmax
表形式データ埋め込み 双⽅向アテンション 出⼒
視覚化意図埋め込み
max
!1 !2
Table2In
"1
"2
"$
max
softmax
Intent2T
"1
"2
"$
!1 !2 !#
視覚化種類の出⼒
max
softmax
"1
"2
"$
!1 !2 !#
視覚化列の出⼒
u1
u2
uN
・・・
・・・
6層
linear
日本
人口
推移
年
人口
年少人口 60
50
50
列情報
グラフの種類の出力
使用する列の出力
モデルの詳細 10
年 人口 GDP
2017 300 4
2018 350 3
2019 370 4
日本の人口の推移
ベクトル化
Softmax
Softmax
双方向アテンション
max
max
年 人口 GDP
年 人口 GDP
日本 人口 推移
日本
人口
推移
日本
人口
推移
年 人口 GDP
表形式データ
各列の統計情報
(列の値の分散、
平均、最大値など)
を要素とした
ベクトルを作成
単語ごとに
ベクトル化
視覚化意図
: 類似度
意図の中の重要
な単語を推定
重要な列を推定
双方向アテンションの説明 11
年 人口 GDP
2017 300 4
2018 350 3
2019 370 4
日本の人口の推移
ベクトル化
Softmax
Softmax
双方向アテンション
max
max
年 人口 GDP
年 人口 GDP
日本 人口 推移
日本
人口
推移
日本
人口
推移
年 人口 GDP
年、人口列が
重要と推定
: 類似度
列の重み
- 列の予測に使用
列ベクトル
単語
ベクトル
重要度を加味した
列ベクトル
意図の中の重要
な単語を推定
重要な列を推定
モデルの詳細 12
年 人口 GDP
2017 300 4
2018 350 3
2019 370 4
日本の人口の推移
ベクトル化
Softmax
Softmax
双方向アテンション
max
max
年 人口 GDP
年 人口 GDP
日本 人口 推移
日本
人口
推移
日本
人口
推移
年 人口 GDP
: 類似度
人口、推移が
重要と推定
重要度を加味した
単語ベクトル
学習 13
年
人口
GDP
日
本
人口
推移
①重要度を加味した
ベクトルを結合
②8層のFFNNで学習
③予測ラベルを出力
ReLU Softmax
入力 出力
・・・・
・・・・
・・・
・・・・
・・・・・
・・・・・
・・・・・
・・・・・
列の重み
入力
①線形変換+それぞれの値で二値分類
出力 0.8
0.9
0.3
グラフの
種類予測
使用する
列予測
②使用する列である確率を出力
グラフの種類
年
人口
GDP
年
人口
使用
使用
誤差関数 : 交差エントロピー誤差
誤差関数 : バイナリ交差エントロピー誤差
• 取得できるデータ タイトル、グラフの種類、表データ、使用する列、軸
• グラフの種類 棒グラフ、折れ線グラフ、円グラフ、ツリーマップ、面グラフ、散布図、ハイライト表
マップグラフ
https://www.tableau.com/
データ グラフ
データセット 14
Tableauからクローリング
- 視覚化されたデータを共有しているWebサイト
タイトル
視覚化意図
グラフ作成者
が指定したもの
• データ数 : 183,427
• 評価指標 : F値(適合率と再現率の調和平均)
• 比較対象 : ベースライン、視覚化意図のみと表形式データのみを
用いた手法、双方向アテンションを用いていない手法
本実験で明らかにすること
1. 視覚化意図を利用することで視覚化方法の推定精度は向上するか?
2. 双方向アテンションモデルは視覚化方法の推定精度を向上させるか?
実験設定(グラフの種類予測) 15
グラフの種類予測の結果 16
0
0.1
0.2
0.3
0.4
0.5
0.6
ロジスティック回帰 ランダムフォレスト
意図 表
意図&表 意図+アテンション
表+アテンション 意図&表+アテンション
1. 視覚化意図を利用することで視覚化方法の推定精度が向上した
2. 双方向アテンションモデルは
視覚化方法の推定精度を向上させた
意図&表(提案手法)
ベースライン[7] 双方向アテンションなし 双方向アテンションあり
意図のみ 意図&表
表のみ 意図のみ 表のみ
[7] Hu, Kevin et al. Vizml: A machine learning approach to visualization recommendation. CHI, 2019, p. 1-12.
双方向アテンションの視覚化 17
図1. 折れ線グラフを正しく予測したときの双方向アテンションの視覚化
• 視覚化意図ごとに大きく色が変化しており、双方向アテンションは視覚化意図に大きく影響を
受けている
• “vs”, “ strong”, “for”といった視覚化方法の予測に関係のない単語は双方向アテンションの値が低
くなっているため、視覚化意図の情報を選択的に抽出していると考えられる
Order date列
(視覚化に使用
された列)と
trendという
単語が重要
視覚化意図
列の見出し
グラフの種類ごとの予測結果 18
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
F値
面グラフと折れ線グラフは
グラフの形が似ているため
低い予測精度を示した
マップグラフと円グラフのような
グラフの形に特徴があるものは
高い予測精度を示した
面グラフ 折れ線グラフ ツリーマップ 散布図
ハイライト表
棒グラフ
円グラフ
マップグラフ
グラフの種類ごとの予測に効果的な単語 1/2 19
グラフの
種類
単語
アテンション
の値
面グラフ
trend 0.19
area 0.16
sheet 0.15
state 0.14
折れ線
グラフ
bar 0.26
across 0.23
trend 0.19
trends 0.18
グラフの
種類
単語
アテンション
の値
棒グラフ
axis 0.26
bar 0.25
filter 0.22
bars 0.22
散布図
bubble 0.28
donut 0.26
map 0.24
cross 0.24
予測精度の低い
面グラフと折れ線グラフは
視覚化意図の単語が似ている
グラフの形が似ていると
視覚化意図の単語も
似てしまうため予測精度が下がる
グラフの種類ごとにアテンションの値が高かった視覚化意図の単語を示した
グラフの種類ごとの予測に効果的な単語 2/2 20
グラフの種類 単語
アテンション
の値
ハイライト表
map 0.26
filter 0.25
icon 0.21
circle 0.21
ツリーマップ
map 0.26
table 0.23
country 0.16
sheet 0.15
グラフの
種類
単語
アテンション
の値
マップグラフ
zip 0.25
map 0.25
across 0.24
geographical 0.22
円グラフ
pie 0.33
map 0.26
donut 0.24
you 0.17
予測精度の高い
マップグラフは
地図に関連する単語が多く
含まれている
特徴的な形のグラフは
視覚化意図も特徴的であるため
高い予測精度を示す
グラフの種類ごとにアテンションの値が高かった視覚化意図の単語を示した
• データ数 : 159,494
• 評価方法 : 使用する列である確率の高い順にランキングを作り、ランキング
の評価を行なった
• 評価指標 : nDCG@30, R精度, F値
○ R精度 : 使用する列の数だけランキングの上位から判定したとき、
使用する列が含まれる割合
• 比較対象 : ランダムな値を出力したもの、使用する列予測モデルのみ
とグラフの種類予測モデルのみを学習したもの
実験設定(使用する列の予測とグラフの種類の予測を同時に行う場合) 21
年 人口 GDP
2017 300 60
2018 350 50
2019 370 50
年
人口
GDP
0.8
0.9
0.3
双方向
アテンション
日本の人口の推移
表形式データ
視覚化意図
入力 出力
列の重み
二値分類
使用する列
である確率
使用する列予測の概要図
0
0.1
0.2
0.3
0.4
0.5
0.6
R精度 nDCG@30 F値
ランダムベースライン 使用する列予測モデルのみ学習
提案手法(列とグラフの種類を同時に学習) グラフの種類予測モデルのみ学習
使用する列とグラフの種類予測を同時に行った結果 22
使用する列の予測 グラフの種類予測
ランダムベースラインとの精度の差が生まれなかった
種類予測モデルのみを学習させた
結果が提案手法を上回った
使用する列の予測は効果的に機能しなかった 使用する列とグラフの種類を
同時に学習することは効果的ではなかった
列のみ
種類のみ
提案手法
ベース
ベース 列のみ
提案手法
種類のみ
ベース 列のみ
提案手法
種類のみ
まとめ 23
研究の目的
• 表形式データの視覚化を自動的に行う
提案手法
• 視覚化意図と表形式データからそれぞれの重要な部分を特定し(双方向アテンション)、
重要度を加味した重要度を加味したベクトルでグラフの種類を予測
• 列の重みから使用する列を予測
データセット
• 視覚化されたデータを共有しているWebサイトTableauからクローリングした183,427データ
(使用する列予測では159,494データ)
結果
• 視覚化意図を利用することで視覚化方法の推定精度は向上した
• 双方向アテンションモデルは視覚化方法の推定精度を向上させた
• 使用する列の予測はうまく機能せず、同時に予測することは効果的ではなかった
補足資料
24
グラフの種類ごとの予測結果 25
グラフの種類 データ数 適合率 再現率 F値
面グラフ 978 0.555 0.443 0.493
棒グラフ 4,506 0.551 0.600 0.575
散布図 3,464 0.517 0.529 0.523
折れ線グラフ 2,485 0.513 0.493 0.503
マップグラフ 1,399 0.625 0.674 0.649
円グラフ 2,075 0.595 0.611 0.603
ハイライト表 1,877 0.558 0.541 0.550
ツリーマップ 1,559 0.572 0.464 0.512
マップグラフや円グラフなど
グラフの形に特徴があるものは
高い予測精度を示した
面グラフと折れ線グラフは
グラフの形が似ているため
それぞれの予測精度が低い値を示した
• 意図 : 視覚化意図の単語ベクトルの平均値を8層のFFNNで学習
• 表 : 列ベクトルの平均値を8層のFFNNで学習
• 意図&表 : 意図と表を結合したものを8層のFFNNで学習
• ロジスティック回帰 : 意図と表を結合したものをロジスティック回帰で学習
• ランダムフォレスト : 意図と表を結合したものをランダムフォレストで学習
• 意図+アテンション : 重要度を加味した視覚化意図ベクトルを8層のFFNN
で学習
• 表+アテンション : 重要度を加味した表形式データベクトルを8層のFFNN
で学習
• 意図&表+アテンション : 提案手法
提案手法の比較対象 26
グラフの図 27
ツリーマップ ハイライト表 散布図
面グラフ マップグラフ

More Related Content

Featured

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Deim2021 maruta

  • 1. DEIM 2021 D33-2 丸田敦貴(筑波大学), 加藤誠(筑波大学) 視覚化意図を考慮した データの効果的な視覚化方法の推定
  • 2. データの視覚化はデータの内容を伝えるのに効果的 問題点 • 効果的な視覚化には専門的知識が必要 ○ どのツールを使えば良い? どんなグラフが良い? 背景 2 数値の羅列では内容がわかりづらい グラフにするとひと目で理解できる
  • 3. 効果的な視覚化を推薦する研究が行われている 関連研究 視覚化推薦システムは大きく分けると二つ 3 機械学習ベース 表形式データの統計情報を特徴として 機械学習を行う[4][5][6][7] - 例) 列の値の分散や列同士の相関 を特徴とする ルールベース 表形式データの統計情報を用いて ルールを人間が設定[1][2][3] - 例) 行の数が大きいと 円グラフは適していない [1] Stolte Chris et al. Polaris: A system for query, analysis, and visualization of multidimensional relational databases. IEEE TVCG. 2002, vol. 8, no. 1, p. 52-65. [2] Wongsuphasawat Kanit et al. Voyager: Exploratory analysis via faceted browsing of visualization recommendations. IEEE TVCG. 2015, vol. 22, no. 1, p. 649-658. [3] Eberhardt A, Milene S. Show me the data! A systematic mapping on open government data visualization. DG.O 2018. 2018, p. 1-10. [4] Moritz Dominik et al. Formalizing visualization design knowledge as constraints: Actionable and extensible models in draco. IEEE TVCG. 2018, vol. 25, no. 1, p. 438-448. [5] Dibia Victor, Demiralp Çağatay. Data2vis: Automatic generation of data visualizations using sequence-to-sequence recurrent neural networks. IEEE CGA. 2019, vol. 39, no. 5, p. 33-46. [6] Luo, Y et al. Deepeye: Towards automatic data visualization. IEEE 34th ICDE, 2018, p. 101-112. [7] Hu, Kevin et al. Vizml: A machine learning approach to visualization recommendation. CHI, 2019, p. 1-12. 本研究はこちら!
  • 4. 既存の研究では視覚化の意図が考慮されていなかった 視覚化意図 ~ データの内容をどう表現したいかという意図 4 日本の人口の推移 日本の人口における 大学生の割合 推移 割合 折れ線グラフ 円グラフ 視覚化意図を考慮することでより適切な視覚化を行う 視覚化意図 グラフの種類 視覚化意図の中にある 視覚化方法の予測に効果的な単語
  • 5. 人口の推移 年 人口 年少 人口 生産年齢 人口 老年 人口 2017 300 60 170 70 2018 350 50 210 90 2019 370 50 220 100 入力 自動視覚化 システム 出力 • データ視覚化の初学者でも簡単に視覚化することができる • 大量の表データに適用することで視認性が上がり、データの検索がしやすくなる 2018年の人口区分 表形式データ 視覚化意図 視覚化意図を考慮したデータの自動視覚化システムの提案 目的 5 0 100 200 300 400 2017 2018 2019 年 人口の推移 グラフの種類 人口 年少人口 生産年齢人口 老年人口 2018年の人口区分 使用する列 視覚化方法
  • 6. 提案手法の主なアイデア 1 / 2 6 • 視覚化意図と表形式データの各列の特徴は ともにグラフの種類予測に有効 - しかし、全ての単語や列が必要というわけではない • 視覚化意図はどの列が視覚化に使われるべきかを 示す - 直感的には,視覚化意図に合致する見出しを 持つ列は視覚化に使われるべき • 双方向アテンションは二つのデータから それぞれの重要な部分を予測する技術[8] 年 人口 年少人口 2017 300 60 2018 350 50 2019 370 50 表形式データ 日本の人口の推移 視覚化意図 これらの列が使われるべき 双方向アテンションを用いて 視覚化意図と表形式データがお互いの重要な部分を推定する [8] Seo, Minjoon et al. Bidi-rectional attention flow for machine comprehension. arXiv.org e-Print archive, 2016, 1611.01603. https://arxiv.org/pdf/1611.01603.pdf, (accessed 2020-12-19).
  • 7. 提案手法の主なアイデア 2 / 2 7 • 双方向アテンションは各列の重要度を出力可能 - 各列の重要度から使用する列を推定 • 使用する列とグラフの種類の予測で共通して学習する部分がある マルチタスク学習を行い、グラフの種類の予測モデルと使用する列の 予測モデルの両方を同時に学習させる 共通学習部分 グラフの種類予測 使用する列の予測 共通学習部分と2つの出力をそれぞれ学習する部分に分かれている
  • 8. 提案モデル 8 年 人口 年少 人口 2017 300 60 2018 350 50 2019 370 50 人口の推移 年 人口 年少 人口 2017 300 60 2018 350 50 2019 370 50 入力 列の重要度ベクトル 視覚化意図の重要度ベクトル FFNN で予測 グラフの種類 視覚化意図と対応する列の特徴に注目してデータの特徴を抽出 表形式データ 人口の推移 視覚化意図 年 人口 年少 人口 人口 推移 ① 列と視覚化意図の 重要な部分を予測 (双方向アテンションモデル) ② 重要度ベクトル 同士を結合 ③ 予測 使用する列 双方向アテンション の値から予測
  • 9. • 表形式データから視覚化意図の重要な部分を推定し、視覚化意図から表形式データの重要な部分を推定する • 重要度を加味したベクトルでグラフの種類を予測 、アテンションの値から使用する列を予測 提案モデルの概要図 9 !1 ・・・ ・・・ !2 !# "1 "2 "$ #1 #2 #$ Intent2Table and Table2Intent ! # ReLU softmax 表形式データ埋め込み 双⽅向アテンション 出⼒ 視覚化意図埋め込み max !1 !2 Table2In "1 "2 "$ max softmax Intent2T "1 "2 "$ !1 !2 !# 視覚化種類の出⼒ max softmax "1 "2 "$ !1 !2 !# 視覚化列の出⼒ u1 u2 uN ・・・ ・・・ 6層 linear 日本 人口 推移 年 人口 年少人口 60 50 50 列情報 グラフの種類の出力 使用する列の出力
  • 10. モデルの詳細 10 年 人口 GDP 2017 300 4 2018 350 3 2019 370 4 日本の人口の推移 ベクトル化 Softmax Softmax 双方向アテンション max max 年 人口 GDP 年 人口 GDP 日本 人口 推移 日本 人口 推移 日本 人口 推移 年 人口 GDP 表形式データ 各列の統計情報 (列の値の分散、 平均、最大値など) を要素とした ベクトルを作成 単語ごとに ベクトル化 視覚化意図 : 類似度
  • 11. 意図の中の重要 な単語を推定 重要な列を推定 双方向アテンションの説明 11 年 人口 GDP 2017 300 4 2018 350 3 2019 370 4 日本の人口の推移 ベクトル化 Softmax Softmax 双方向アテンション max max 年 人口 GDP 年 人口 GDP 日本 人口 推移 日本 人口 推移 日本 人口 推移 年 人口 GDP 年、人口列が 重要と推定 : 類似度 列の重み - 列の予測に使用 列ベクトル 単語 ベクトル 重要度を加味した 列ベクトル
  • 12. 意図の中の重要 な単語を推定 重要な列を推定 モデルの詳細 12 年 人口 GDP 2017 300 4 2018 350 3 2019 370 4 日本の人口の推移 ベクトル化 Softmax Softmax 双方向アテンション max max 年 人口 GDP 年 人口 GDP 日本 人口 推移 日本 人口 推移 日本 人口 推移 年 人口 GDP : 類似度 人口、推移が 重要と推定 重要度を加味した 単語ベクトル
  • 13. 学習 13 年 人口 GDP 日 本 人口 推移 ①重要度を加味した ベクトルを結合 ②8層のFFNNで学習 ③予測ラベルを出力 ReLU Softmax 入力 出力 ・・・・ ・・・・ ・・・ ・・・・ ・・・・・ ・・・・・ ・・・・・ ・・・・・ 列の重み 入力 ①線形変換+それぞれの値で二値分類 出力 0.8 0.9 0.3 グラフの 種類予測 使用する 列予測 ②使用する列である確率を出力 グラフの種類 年 人口 GDP 年 人口 使用 使用 誤差関数 : 交差エントロピー誤差 誤差関数 : バイナリ交差エントロピー誤差
  • 14. • 取得できるデータ タイトル、グラフの種類、表データ、使用する列、軸 • グラフの種類 棒グラフ、折れ線グラフ、円グラフ、ツリーマップ、面グラフ、散布図、ハイライト表 マップグラフ https://www.tableau.com/ データ グラフ データセット 14 Tableauからクローリング - 視覚化されたデータを共有しているWebサイト タイトル 視覚化意図 グラフ作成者 が指定したもの
  • 15. • データ数 : 183,427 • 評価指標 : F値(適合率と再現率の調和平均) • 比較対象 : ベースライン、視覚化意図のみと表形式データのみを 用いた手法、双方向アテンションを用いていない手法 本実験で明らかにすること 1. 視覚化意図を利用することで視覚化方法の推定精度は向上するか? 2. 双方向アテンションモデルは視覚化方法の推定精度を向上させるか? 実験設定(グラフの種類予測) 15
  • 16. グラフの種類予測の結果 16 0 0.1 0.2 0.3 0.4 0.5 0.6 ロジスティック回帰 ランダムフォレスト 意図 表 意図&表 意図+アテンション 表+アテンション 意図&表+アテンション 1. 視覚化意図を利用することで視覚化方法の推定精度が向上した 2. 双方向アテンションモデルは 視覚化方法の推定精度を向上させた 意図&表(提案手法) ベースライン[7] 双方向アテンションなし 双方向アテンションあり 意図のみ 意図&表 表のみ 意図のみ 表のみ [7] Hu, Kevin et al. Vizml: A machine learning approach to visualization recommendation. CHI, 2019, p. 1-12.
  • 17. 双方向アテンションの視覚化 17 図1. 折れ線グラフを正しく予測したときの双方向アテンションの視覚化 • 視覚化意図ごとに大きく色が変化しており、双方向アテンションは視覚化意図に大きく影響を 受けている • “vs”, “ strong”, “for”といった視覚化方法の予測に関係のない単語は双方向アテンションの値が低 くなっているため、視覚化意図の情報を選択的に抽出していると考えられる Order date列 (視覚化に使用 された列)と trendという 単語が重要 視覚化意図 列の見出し
  • 19. グラフの種類ごとの予測に効果的な単語 1/2 19 グラフの 種類 単語 アテンション の値 面グラフ trend 0.19 area 0.16 sheet 0.15 state 0.14 折れ線 グラフ bar 0.26 across 0.23 trend 0.19 trends 0.18 グラフの 種類 単語 アテンション の値 棒グラフ axis 0.26 bar 0.25 filter 0.22 bars 0.22 散布図 bubble 0.28 donut 0.26 map 0.24 cross 0.24 予測精度の低い 面グラフと折れ線グラフは 視覚化意図の単語が似ている グラフの形が似ていると 視覚化意図の単語も 似てしまうため予測精度が下がる グラフの種類ごとにアテンションの値が高かった視覚化意図の単語を示した
  • 20. グラフの種類ごとの予測に効果的な単語 2/2 20 グラフの種類 単語 アテンション の値 ハイライト表 map 0.26 filter 0.25 icon 0.21 circle 0.21 ツリーマップ map 0.26 table 0.23 country 0.16 sheet 0.15 グラフの 種類 単語 アテンション の値 マップグラフ zip 0.25 map 0.25 across 0.24 geographical 0.22 円グラフ pie 0.33 map 0.26 donut 0.24 you 0.17 予測精度の高い マップグラフは 地図に関連する単語が多く 含まれている 特徴的な形のグラフは 視覚化意図も特徴的であるため 高い予測精度を示す グラフの種類ごとにアテンションの値が高かった視覚化意図の単語を示した
  • 21. • データ数 : 159,494 • 評価方法 : 使用する列である確率の高い順にランキングを作り、ランキング の評価を行なった • 評価指標 : nDCG@30, R精度, F値 ○ R精度 : 使用する列の数だけランキングの上位から判定したとき、 使用する列が含まれる割合 • 比較対象 : ランダムな値を出力したもの、使用する列予測モデルのみ とグラフの種類予測モデルのみを学習したもの 実験設定(使用する列の予測とグラフの種類の予測を同時に行う場合) 21 年 人口 GDP 2017 300 60 2018 350 50 2019 370 50 年 人口 GDP 0.8 0.9 0.3 双方向 アテンション 日本の人口の推移 表形式データ 視覚化意図 入力 出力 列の重み 二値分類 使用する列 である確率 使用する列予測の概要図
  • 22. 0 0.1 0.2 0.3 0.4 0.5 0.6 R精度 nDCG@30 F値 ランダムベースライン 使用する列予測モデルのみ学習 提案手法(列とグラフの種類を同時に学習) グラフの種類予測モデルのみ学習 使用する列とグラフの種類予測を同時に行った結果 22 使用する列の予測 グラフの種類予測 ランダムベースラインとの精度の差が生まれなかった 種類予測モデルのみを学習させた 結果が提案手法を上回った 使用する列の予測は効果的に機能しなかった 使用する列とグラフの種類を 同時に学習することは効果的ではなかった 列のみ 種類のみ 提案手法 ベース ベース 列のみ 提案手法 種類のみ ベース 列のみ 提案手法 種類のみ
  • 23. まとめ 23 研究の目的 • 表形式データの視覚化を自動的に行う 提案手法 • 視覚化意図と表形式データからそれぞれの重要な部分を特定し(双方向アテンション)、 重要度を加味した重要度を加味したベクトルでグラフの種類を予測 • 列の重みから使用する列を予測 データセット • 視覚化されたデータを共有しているWebサイトTableauからクローリングした183,427データ (使用する列予測では159,494データ) 結果 • 視覚化意図を利用することで視覚化方法の推定精度は向上した • 双方向アテンションモデルは視覚化方法の推定精度を向上させた • 使用する列の予測はうまく機能せず、同時に予測することは効果的ではなかった
  • 25. グラフの種類ごとの予測結果 25 グラフの種類 データ数 適合率 再現率 F値 面グラフ 978 0.555 0.443 0.493 棒グラフ 4,506 0.551 0.600 0.575 散布図 3,464 0.517 0.529 0.523 折れ線グラフ 2,485 0.513 0.493 0.503 マップグラフ 1,399 0.625 0.674 0.649 円グラフ 2,075 0.595 0.611 0.603 ハイライト表 1,877 0.558 0.541 0.550 ツリーマップ 1,559 0.572 0.464 0.512 マップグラフや円グラフなど グラフの形に特徴があるものは 高い予測精度を示した 面グラフと折れ線グラフは グラフの形が似ているため それぞれの予測精度が低い値を示した
  • 26. • 意図 : 視覚化意図の単語ベクトルの平均値を8層のFFNNで学習 • 表 : 列ベクトルの平均値を8層のFFNNで学習 • 意図&表 : 意図と表を結合したものを8層のFFNNで学習 • ロジスティック回帰 : 意図と表を結合したものをロジスティック回帰で学習 • ランダムフォレスト : 意図と表を結合したものをランダムフォレストで学習 • 意図+アテンション : 重要度を加味した視覚化意図ベクトルを8層のFFNN で学習 • 表+アテンション : 重要度を加味した表形式データベクトルを8層のFFNN で学習 • 意図&表+アテンション : 提案手法 提案手法の比較対象 26
  • 27. グラフの図 27 ツリーマップ ハイライト表 散布図 面グラフ マップグラフ