RyotaHiguchi_DEIM2022

単語の頻度と意味に基づいた
コミックに関するテキスト情報源の特性分析
関西大学
◎樋口亮太山西良典松下光範
E21-2(day2p23)

研究概要
• 何をした？
• 本研究の貢献
• 結果
-コミック分析に用いられるテキストデータとして説明文とレビュー文を対象
-情報源ごとにどのような単語がどのくらい出現するか分析した
-従来：情報源を経験的に選択していた
説明文身 , 身長 / 親 , 兄 , 姉妹内容を表現するような単語
レビュー文イラスト , 漫画 / 作画 , 作家作品のメタ情報を表す単語
1 /14
-定量的な理由を持って適切な情報源を選択できるようになった

コミックを取り巻く現状
• 膨大なコミックの中から
ユーザの興味に応じた内容の作品を推薦するためには...
コミックの内容情報を把握する必要がある
• 現状のコミック選択方法
-ジャンル
-書誌情報
メタ的な情報をクエリとする検索が一般的
• コミックは画像情報とテキスト情報が
混在する複雑なコンテンツ
らぶひな（赤松健，講談社）より引用
}
-メタ情報だけでは
求める内容の作品にはたどり着けない...
2 /14

コミックの内容把握のための取り組み
• コミックそのものを直接的に分析するアプローチ
• 他のリソースから間接的に分析するアプローチ
◎ 個々の要素に対する分析精度は高い値を示す（例：コマの推定，キャラクタ抽出）
これらを組み合わせて自動で内容情報を取得することは難しい
◎ウェブ上に膨大な量のデータが存在し，収集が容易
コンテンツの内容を表現するテキスト情報（例：レビュー文，説明文，あらすじ文）
本研究では間接的アプローチに着目
3 /14

コンテンツ分析におけるテキスト情報源
• 同一コンテンツを対象した情報源は複数考えられる
あらすじ文
コミック
説明文質問文
レビュー文
レビュー文
レシピ
料理
レビュー文
説明文
観光
同一コンテンツを表現している一方で，情報源ごとにその内容は異なる
例）NARUTOに関するウェブ上のテキストには...
-説明文：「忍びが繰り広げるバトル漫画」
-レビュー文：「絵が上手い」「目が離せない」
作品の概要についての解説
作品に対する感想や評価
＜記述目的＞
4 /13

情報源の選択について
• 同一コンテンツを表現している一方で，情報源ごとにその内容は異なる
-それぞれの研究で目指すアプリケーションに応じて適切な情報源を選択するべき
情報源をなんとなく選択してしまっていませんか？
現状：定量的な理由を考慮せずに
流行りのAIを用いてウェブテキストの新しい使い道を発見しました！！
そこそこの結果は出てるけど，入力のデータはコレで良かったのか？
定量的に情報源の特性を分析した上で検証を行うべきではないのか？
5 /14

情報源の選択について
• 同一コンテンツを表現している一方で，情報源ごとにその内容は異なる
-それぞれの研究で目指すアプリケーションに応じて適切な情報源を選択するべき
情報源をなんとなく選択してしまっていませんか？
定量的な理由を考えずに
流行りのAIを用いてウェブテキストの新しい使い道を発見しました！！
良い結果は出てるけど，入出力の関係性は計算機に頼り切っていいのか？
コミックに関するテキスト情報を対象として
同一コンテンツを扱った情報源ごとの特性を分析する
研究目的
①情報源の特性の違い：適切な情報源の選択
②共通した性質：情報源の統合によるデータ量の確保
＜情報源の特性理解による利点＞
6 /14

分析手順
①データセット構築
-対象とした2種類の情報源：コミックの内容に関する説明文，レビュー文
-クレンジング
②クラス辞書の構築
-単語分散表現とk-means法を組み合わせて類似した単語の集合を獲得
-この単語集合を次ステップで用いるクラス辞書とする
③頻出単語の意味的分類
-辞書を用いて単語の出現頻度を算出
情報源の特性を分析するために以下の手順で行う
7 /14
情報源ごとにどのような意味の単語が
どのくらい出現しているのか分析する

①データセットの構築
A:キャラクタの説明文：6,250件
-コミックに登場するキャラクタの詳細を説明した文章
-情報ソース：Wikipedia，ピクシブ百科事典，ニコニコ大百科，アニヲタWiki(仮)
-2,067キャラクタ分
B:コミック作品のレビュー文：6,250件
-コミック作品の評価や情報集積を目的とした文章
-情報ソース：作品データベース
-「最近閲覧数が多い作品トップ 1000」から上位 200 作品
• 名詞のみを抽出し，低頻度語を除去
• 単語の総異なり数
-説明文：7136件，レビュー文：3092件
2 種類の情報源のデータを統合し
合計12,500件のデータセットを構築
（学習：テスト＝10,000：2,500）
8 /14

②クラス辞書の構築
• 「どのような意味の単語が存在するか」について分析するために
単語分散表現，k-means法を用いて単語のクラス集合を獲得
-学習データ10,000件を使用
-エルボー法を用いてクラス数を63クラスに決定
クラスクラスに含まれる単語の一例
激戦，戦友，初戦，苦戦
黒，白，褐色，青春，顔色
アイドル，クラス，ピアス
• 1クラスあたりに含まれる単語数
-平均値：118.8単語
-標準偏差：107.1単語
-最大値：495単語
-最小値：8単語
得られたクラス集合をコミックの内容分析に
必要な語彙をまとめたクラス辞書として扱う
9 /14

③頻出単語の意味的分類
𝑡0 = [元気, 勇敢, 男性]
𝒕𝟏 = [感動, 元気, アニメ]
𝑡2499 = [笑顔, ギャル, 姉]
…
0 1 2 62
元気
勇敢
活気
笑顔
男性
女性
性別
異性
感動
最高
オススメ
布教
姉
兄
従兄
親
0 1 2 62
𝑏0 1 1 0 0
𝒃𝟏 1 0 1 0
𝑏2499 1 0 0 1
…
入力：テストデータ出力：63次元のバイナリ列
作成した63クラスの辞書
あるテストデータ𝒕𝟏には，
“感動”という単語が
含まれている
クラス辞書を参考にテストデータ2,500件に含まれる単語の出現頻度を算出
1 2 3
10 /14
辞書のクラス2に同じく
”感動”とあるので，
𝒕𝟏はクラス2の要素を含む
出力𝒃𝟏のクラス2の欄には，
「1」が立つ

評価指標と考察の観点
11 /14
• バイナリ列を用いて相対差を算出
-各クラスごとの情報源における割合の差の絶対値
• 考察の観点
-相対差が大きいクラスに含まれる単語群を解釈
-情報源の特性を考慮した具体的なアプリケーションの例
0 1 2 62
𝑏0 1 1 0 0
𝒃𝟏 1 0 1 0
𝑏2499 1 0 0 1
…
出力：63次元のバイナリ列
例）
• 情報源の両方に割合が同じ場合
• 情報源の片方に割合が偏った場合
相対差：0％
相対差：100％
＜今後の課題＞
-0回と1回の場合
-0回と100回の場合
クラス𝑛に該当した情報源ごとのデータ数が
いずれも相対差は100％同じ100％でも意味が違うんじゃ？

結果：説明文に頻出したクラス
クラスに含まれる
単語群の一例
割合の差
身，身長，上半身 74.2
親，兄，妹，姉 63.7
• 竈門炭治郎（鬼滅の刃）のWikipediaの項目には
「身長165cm」と記述がある．
• サボ（ONE PIECE）のピクシブ百科事典の項目には
「ルフィの義兄」と記述がある．
キャラクタの特徴や作品の内容を説明する単語
適用例：コミック作品の内容に関する分析など
12 /14

結果：レビュー文に頻出したクラス
クラスに含まれる
単語群の一例
割合の差
漫画，映画，イラスト 35.5
作品，作家，傑作 19.8
• 画風、熱量といいスポーツ漫画に限らないと
言える後世に与えた影響が大きい作風。
• この作家さんが描くイラスト大好きです。
作品のメタ的な情報を示す単語
適用例：ジャンル推定，トピック分類問題など
13 /14

適応限界
意味的分類ができていない単語の一例
ヘアスタイル，チェック，
プラモ，リハビリ，キャラ
①多くのカタカナ語を含んだクラスが
合計3クラス存在する．
• 最も多く（全体の73％）のデータが該当したクラスもその1つ
• 意味的な分類ができていない
-単語分散モデルを見直すことで改善が期待
②説明文と比較するとレビュー文に該当するクラスが少ない
• テストデータが該当したクラスの合計値は，説明文の方が1.75倍大きい
-レビュー文には「ハラハラドキドキの展開がアツい」や「表情が怖かった」というように
作品の感想を表現するための形容詞も多く用いられていた
14 /14

まとめ
• 背景：同一コンテンツを扱うテキストでも情報源によって記述内容が異なる
• 問題：情報源の選択に定量的な理由が存在しないまま検証を行っている
• 目的：出現単語から情報源の特性を分析
• データ：ウェブ上のキャラクタの説明文とコミック作品のレビュー文
• 手法：テキストに含まれる頻出単語を意味的に分類
• 知見：
-説明文：コミックの内容を表現するような単語
-レビュー文：作品のメタ情報を表す単語

単語の頻度と意味に基づいたコミックに関するテキスト情報源の特性分析 E21-2
day2 p23
関西大学大学院総合情報学研究科
◎樋口亮太山西良典松下光範
Introduction
Method
Result
Purpose
・コンテンツ分析におけるテキスト情報源は複数考えられる
◎説明文の特性
◎レビュー文の特性
同一コンテンツを表現している一方で
に記述内容は異なる
同一コンテンツ
情報源ごと
コミックに関するテキスト情報を対象として
同一コンテンツを扱った情報源ごとの特性を分析する
・コミックを取り巻く現状
内容情報を
取得する必要
あらすじ文
コミック
説明文質問文
レビュー文
・辞書構築
・頻出単語の意味的分類
キャラクタの特徴や
作品の内容を説明する単語
作品のメタ的な情報
を示す単語
全体の73％のデータが該当したにも関わらず
意味的な分類ができなかった
-カタカナ語が集中した
クラスが3件存在した
・異なる情報源からのデータセット構築
-説明文：Wikipedia，pixiv百科事典など
-レビュー文：作品データベース
それぞれ名詞のみを抽出
- 単語分散表現，k-means法を用いて
単語のクラス集合を獲得（63クラス）
クラスクラスに含まれる単語の一例
激戦，戦友，初戦，苦戦
黒，白，褐色，青春，顔色
アイドル，クラス，ピアス
-コミックの内容分析に必要となる
語彙をまとめたクラス辞書として扱う
クラス辞書を用いて単語の出現頻度を算出
適応限界
頻出したクラスに
含まれる単語の一例
身，身長，上半身
親，兄，妹，姉
頻出したクラスに
含まれる単語の一例
漫画，映画，イラスト
作品，作家，傑作
ヘアスタイル，チェック，
プラモ，リハビリ，キャラ
意味的分類が
できていない単語の一例
適用例：コミック作品の内容に関する分析など
適用例：ジャンル推定，トピック分類問題など
-膨大な作品群から読みたい作品を推薦するためには…
・コミックの内容把握のための取り組み
分析対象②
他のリソース
分析対象①
コミック
様々な技術を
応用する必要
◎膨大なデータ
◎収集が用意
例）・説明文，あらすじ文：作品の概要についての解説
・レビュー文：作品に対する感想や評価
を目的とした記述で構成される
情報源の特性を定量的に分析する必要がある
・情報源の特性理解による利点
-情報源の特性の違いに応じた適切な情報源の選択
-共通した性質を持つ情報源の統合によるデータ量の確保

RyotaHiguchi_DEIM2022

Recommended

Recommended

More Related Content

More from Matsushita Laboratory

More from Matsushita Laboratory (20)

Recently uploaded

Recently uploaded (11)

RyotaHiguchi_DEIM2022

Editor's Notes