SlideShare a Scribd company logo
1 of 19
Download to read offline
階層性に着目した
レビューコーパスの特徴可視化
関西大学大学院総合情報学研究科
林沙也加 松下光範
背景
言語コーパスは機械学習や言語処理などのリソースとして広く
利用されている
• 対話コーパス → 音声対話システム
• レビューコーパス → 商品やサービスへの満足度・好感度の調査
• 対訳コーパス → 翻訳エンジン
2
複数のコーパスを組み合わせることで,より複雑で分野横断的な
課題解決に活用することが試みられている
複数の言語コーパスの活用例
3
[1]山西良典, 藤岡寛子, 西原陽子: 擬似コーパスを用いた飲食店レビューの観点の自動分類, 人工知能学会論文誌, Vol. 36, No. 1, pp. WI2–A 1–8 (2021)
擬似コーパスを用いた飲食店レビューの観点の自動分類[1]
• 飲食店のレビュー文
• ホスピタリティに関する観点と料理そのものに関する観点が混在している
• 混在している観点を機械的に分類
• 複数のコーパスを組み合わせて擬似コーパスを生成,分類器を作成
擬似コーパス
料理
例)バターたっぷり表面はサクサク、
中はふんわりした本格的なスコーン。
ホスピタリティ
例)窓からの羨望もよく落ち着いた店内で
ゆっくりお食事が楽しめました。
レシピコーパス
ホテルコーパス
大規模言語コーパスを利用した擬似コーパスの作成
4
• 擬似コーパスを使用するとアノテーション作業が効率化される
• 単一のコーパス内であっても異なる観点に基づいてコーパスを
抽出すれば擬似コーパスを作成できる
• 例)楽天市場レビューデータ内にある「ヘッドホン・イヤホン」と
「セットコンポ」のカテゴリ
問題点
• ユーザの課題解決に適した特徴を持つコーパスの選定が困難
• コーパスの中身をユーザ自身が確認する
• 容量,テキストの内容 etc…
本研究の着眼点
• コーパスの特徴が階層によって整理されている
• 例)カテゴリが「ヘッドホン」と「コンポ」の
部分集合になっている
• ノードの中身を可視化することでユーザが
特徴を探索的に比較できるようになる
• 出現語彙の違いやデータ量など
• ユーザがカテゴリ毎の情報を容易に把握
大規模言語コーパスが持つ階層性に着目
5
自身の目的に沿った部分集合を見つけることができる
階層構造図
本研究の実装の流れ
データセット
(コーパス)の準備
ユーザが部分集合を
比較する時のパターン
可視化ツール
6
コーパスにおけるカテゴリの比較
• 多様なカテゴリが含まれるコーパス
• 例)EC サイト
• 多様な商材を扱うサービスのレビューから構築されたコーパス
• データの部分集合を取り出してその差異を比較する
• 各集合の組み合わた擬似コーパス(部分コーパス)を活用
7
カテゴリ1
カテゴリ2
比較
多様なカテゴリを
含むコーパス
カテゴリ1
カテゴリ2
カテゴリ3
・
・
・
8
実際に使用したデータセット(コーパス)
楽天市場データセット
• 「みんなのレビュー・口コミ情報」
• 「レビュー内容」と「商品ジャンルID 」
レビュー内容の例
• 「癖もなくすごく飲みやすいです! 買って正解でした!」
• 「ロードノイズもあまりきにならず、走行安定性も良いと思います。
価格のわりに満足しています。」
商品ジャンルID
• 商品のカテゴリに割り当てられたID
部分集合比較
9
• 親子関係にないノード間の比較(A,B)
• 2つのノードに含まれる情報を比較してユーザの目的に
沿ったノードを探す
• 親子関係にあるノード間の比較(C)
• ユーザの任意のレイヤーでノードを選択する
• レビュー内容は葉ノード部分のみ
• 葉ノードの語彙を中間ノードに集めた
部分集合比較
• 親子関係にないノード間の比較
• 兄弟ノードである場合(A)
• 兄弟ノードでない場合(B)
• 親子関係にあるノード間の比較(C)
10
親子関係にないノード間の比較
11
• 比較対象が兄弟ノードである場合
• 兄弟ノードに共通して含まれる語彙(共通語)によってカテゴリの
代表的な語彙が把握しづらい
• 共通語を除き各々のノードに固有の語彙を提示する
• 比較対象が兄弟ノードでない場合
• 階層的な位置関係が遠くなり共通語が減少する
• 各々のノードに含まれる全ての語彙を提示する
部分集合比較
• 親子関係にないノード間の比較
• 兄弟ノードである場合(A)
• 兄弟ノードでない場合(B)
• 親子関係にあるノード間の比較(C)
12
親子関係にあるノード間の比較
13
• 子ノード
メリット ノードに関わる特徴語が多く現れる
デメリット カテゴリが細分化されデータ数が少ない
• 親ノード
メリット 複数の子ノードが接続しているためデータ数が多い
デメリット 他の子ノードがノイズとなる
• 親ノードは接続されている全ての子ノードの語彙を親ノードに集約
ユーザの目的に応じた適切な階層のノードを選択するために
親ノードの語彙と子ノードの語彙を比較する
14
可視化ツール
階層構造図
累計度数図
ワードクラウド
ヘッドホン・イヤホン セットコンポ
階層構造図
• 階層的なコーパス内での2つのカテゴリの
位置関係を把握
• どのレイヤーでノードを選択するかを
決める時に使用
• 数字はジャンルIDを示している
15
「ヘッドホン・イヤホン」と「セットコンポ」の
階層構造図
累計度数図
• テキストが一文増えるごとの異なり語彙数の増加を表す
• 十分な数の異なり語彙が含まれているか判断する際に使用
• 異なり語彙数が飽和状態であるか確認できる
16
「ヘッドホン・イヤホン」の累計度数図 「セットコンポ」の累計度数図
ワードクラウド
• カテゴリの特徴となる代表的な語彙を一覧できる
• 頻出語彙が大きく表示されている
• 共通語を用いて提示する語彙を変更している
17
「ヘッドホン・イヤホン」のワードクラウド 「セットコンポ」のワードクラウド
共通語
18
• inverse document frequency(IDF)を用いて共通語を選定
• 色々な文書によく出現する単語のIDFは低くなりあまり出現しない
単語のIDFは高くなる
• 約半数の語彙のIDFが最も高い数値
• 値が最も高い語彙以外を共通語とした
まとめ・今後の展望
• 目的:ユーザが自身の目的に適したコーパスを探し出せるようにする
• 階層性のあるコーパスのノードに含まれる語彙やデータ数を提示
• ユーザの目的に沿った大きさの部分コーパスを探し出せる
19
作成したシステム
今後の展望
• データが持つ意味を考慮したシステム
• 例)
「レシピを実際に作った人がレシピに対して評価したデータ」
「レシピについたレビューが参考になったかどうかのデータ」
• 機械が意味的な違いを判別できるようにする

More Related Content

More from Matsushita Laboratory

TaketoFujikawa_10thComicComputing2023
TaketoFujikawa_10thComicComputing2023TaketoFujikawa_10thComicComputing2023
TaketoFujikawa_10thComicComputing2023Matsushita Laboratory
 
松下研究室紹介_関西大学高槻キャンパスオープンキャンパス
松下研究室紹介_関西大学高槻キャンパスオープンキャンパス松下研究室紹介_関西大学高槻キャンパスオープンキャンパス
松下研究室紹介_関西大学高槻キャンパスオープンキャンパスMatsushita Laboratory
 
ChinaTakahashi_Exploration cycle finding a better dining experience: a frame...
 ChinaTakahashi_Exploration cyclefinding a better dining experience:a frame... ChinaTakahashi_Exploration cyclefinding a better dining experience:a frame...
ChinaTakahashi_Exploration cycle finding a better dining experience: a frame...Matsushita Laboratory
 
Unification of Terminology for Accurate Communication among Experts --- Basic...
Unification of Terminology for Accurate Communication among Experts --- Basic...Unification of Terminology for Accurate Communication among Experts --- Basic...
Unification of Terminology for Accurate Communication among Experts --- Basic...Matsushita Laboratory
 
JSAI2023_企画セッション(仕掛学)資料
JSAI2023_企画セッション(仕掛学)資料JSAI2023_企画セッション(仕掛学)資料
JSAI2023_企画セッション(仕掛学)資料Matsushita Laboratory
 
触感に関わる共感覚的表現と基本6感情の対応関係の検証
触感に関わる共感覚的表現と基本6感情の対応関係の検証触感に関わる共感覚的表現と基本6感情の対応関係の検証
触感に関わる共感覚的表現と基本6感情の対応関係の検証Matsushita Laboratory
 
レシピの手順に着目した 複数の器特徴の推定
レシピの手順に着目した 複数の器特徴の推定レシピの手順に着目した 複数の器特徴の推定
レシピの手順に着目した 複数の器特徴の推定Matsushita Laboratory
 
複数の質感を複合的に提示可能な触覚提示デバイス
複数の質感を複合的に提示可能な触覚提示デバイス複数の質感を複合的に提示可能な触覚提示デバイス
複数の質感を複合的に提示可能な触覚提示デバイスMatsushita Laboratory
 
効果音と抽象図形の動作の組み合わせによる印象変化に関する研究
効果音と抽象図形の動作の組み合わせによる印象変化に関する研究効果音と抽象図形の動作の組み合わせによる印象変化に関する研究
効果音と抽象図形の動作の組み合わせによる印象変化に関する研究Matsushita Laboratory
 
携帯端末を用いたポインティングによる室内空間でのアドホックな情報アクセス手法に関する研究
携帯端末を用いたポインティングによる室内空間でのアドホックな情報アクセス手法に関する研究携帯端末を用いたポインティングによる室内空間でのアドホックな情報アクセス手法に関する研究
携帯端末を用いたポインティングによる室内空間でのアドホックな情報アクセス手法に関する研究Matsushita Laboratory
 
Kokogatari:実環境を介したリレー小説執筆ツール
Kokogatari:実環境を介したリレー小説執筆ツールKokogatari:実環境を介したリレー小説執筆ツール
Kokogatari:実環境を介したリレー小説執筆ツールMatsushita Laboratory
 
Visualization of the Relationship Between Lectures and Laboratories Using SSNMF
Visualization of the Relationship Between Lectures and Laboratories Using SSNMFVisualization of the Relationship Between Lectures and Laboratories Using SSNMF
Visualization of the Relationship Between Lectures and Laboratories Using SSNMFMatsushita Laboratory
 

More from Matsushita Laboratory (20)

TaketoFujikawa_10thComicComputing2023
TaketoFujikawa_10thComicComputing2023TaketoFujikawa_10thComicComputing2023
TaketoFujikawa_10thComicComputing2023
 
松下研究室紹介_関西大学高槻キャンパスオープンキャンパス
松下研究室紹介_関西大学高槻キャンパスオープンキャンパス松下研究室紹介_関西大学高槻キャンパスオープンキャンパス
松下研究室紹介_関西大学高槻キャンパスオープンキャンパス
 
ReonHata_JSAI2023
ReonHata_JSAI2023ReonHata_JSAI2023
ReonHata_JSAI2023
 
HarukiShinkawa_FIT2023
HarukiShinkawa_FIT2023HarukiShinkawa_FIT2023
HarukiShinkawa_FIT2023
 
ChinaTakahashi_Exploration cycle finding a better dining experience: a frame...
 ChinaTakahashi_Exploration cyclefinding a better dining experience:a frame... ChinaTakahashi_Exploration cyclefinding a better dining experience:a frame...
ChinaTakahashi_Exploration cycle finding a better dining experience: a frame...
 
TaketoFujikawa_KES2023
TaketoFujikawa_KES2023TaketoFujikawa_KES2023
TaketoFujikawa_KES2023
 
Unification of Terminology for Accurate Communication among Experts --- Basic...
Unification of Terminology for Accurate Communication among Experts --- Basic...Unification of Terminology for Accurate Communication among Experts --- Basic...
Unification of Terminology for Accurate Communication among Experts --- Basic...
 
JSAI2023_企画セッション(仕掛学)資料
JSAI2023_企画セッション(仕掛学)資料JSAI2023_企画セッション(仕掛学)資料
JSAI2023_企画セッション(仕掛学)資料
 
触感に関わる共感覚的表現と基本6感情の対応関係の検証
触感に関わる共感覚的表現と基本6感情の対応関係の検証触感に関わる共感覚的表現と基本6感情の対応関係の検証
触感に関わる共感覚的表現と基本6感情の対応関係の検証
 
レシピの手順に着目した 複数の器特徴の推定
レシピの手順に着目した 複数の器特徴の推定レシピの手順に着目した 複数の器特徴の推定
レシピの手順に着目した 複数の器特徴の推定
 
TaketoFujikawa_comic2023
TaketoFujikawa_comic2023TaketoFujikawa_comic2023
TaketoFujikawa_comic2023
 
複数の質感を複合的に提示可能な触覚提示デバイス
複数の質感を複合的に提示可能な触覚提示デバイス複数の質感を複合的に提示可能な触覚提示デバイス
複数の質感を複合的に提示可能な触覚提示デバイス
 
効果音と抽象図形の動作の組み合わせによる印象変化に関する研究
効果音と抽象図形の動作の組み合わせによる印象変化に関する研究効果音と抽象図形の動作の組み合わせによる印象変化に関する研究
効果音と抽象図形の動作の組み合わせによる印象変化に関する研究
 
RyotaHiguchi_MasterThesis2023
RyotaHiguchi_MasterThesis2023RyotaHiguchi_MasterThesis2023
RyotaHiguchi_MasterThesis2023
 
携帯端末を用いたポインティングによる室内空間でのアドホックな情報アクセス手法に関する研究
携帯端末を用いたポインティングによる室内空間でのアドホックな情報アクセス手法に関する研究携帯端末を用いたポインティングによる室内空間でのアドホックな情報アクセス手法に関する研究
携帯端末を用いたポインティングによる室内空間でのアドホックな情報アクセス手法に関する研究
 
Kokogatari:実環境を介したリレー小説執筆ツール
Kokogatari:実環境を介したリレー小説執筆ツールKokogatari:実環境を介したリレー小説執筆ツール
Kokogatari:実環境を介したリレー小説執筆ツール
 
Visualization of the Relationship Between Lectures and Laboratories Using SSNMF
Visualization of the Relationship Between Lectures and Laboratories Using SSNMFVisualization of the Relationship Between Lectures and Laboratories Using SSNMF
Visualization of the Relationship Between Lectures and Laboratories Using SSNMF
 
iiWAS2022_Miyagawa
iiWAS2022_MiyagawaiiWAS2022_Miyagawa
iiWAS2022_Miyagawa
 
reIDR2022_takahashi.pdf
reIDR2022_takahashi.pdfreIDR2022_takahashi.pdf
reIDR2022_takahashi.pdf
 
RyotaHiguchi_Manpu2022.pdf
RyotaHiguchi_Manpu2022.pdfRyotaHiguchi_Manpu2022.pdf
RyotaHiguchi_Manpu2022.pdf
 

Recently uploaded

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成Hiroshi Tomioka
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 

Recently uploaded (9)

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 

SayakaHayashi_FIT2023