More Related Content
More from Matsushita Laboratory (20)
RyotaHiguchi_DEIM2022
- 2. 研究概要
• 何をした?
• 本研究の貢献
• 結果
-コミック分析に用いられるテキストデータとして説明文とレビュー文を対象
-情報源ごとにどのような単語がどのくらい出現するか分析した
-従来:情報源を経験的に選択していた
説明文 身 , 身長 / 親 , 兄 , 姉妹 内容を表現するような単語
レビュー文 イラスト , 漫画 / 作画 , 作家 作品のメタ情報を表す単語
1 /14
-定量的な理由を持って適切な情報源を選択できるようになった
- 11. ③頻出単語の意味的分類
𝑡0 = [元気, 勇敢, 男性]
𝒕𝟏 = [感動, 元気, アニメ]
𝑡2499 = [笑顔, ギャル, 姉]
…
0 1 2 62
元気
勇敢
活気
笑顔
男性
女性
性別
異性
感動
最高
オススメ
布教
姉
兄
従兄
親
0 1 2 62
𝑏0 1 1 0 0
𝒃𝟏 1 0 1 0
𝑏2499 1 0 0 1
…
入力:テストデータ 出力:63次元のバイナリ列
作成した63クラスの辞書
あるテストデータ𝒕𝟏には,
“感動”という単語が
含まれている
クラス辞書を参考にテストデータ2,500件に含まれる単語の出現頻度を算出
1 2 3
10 /14
辞書のクラス2に同じく
”感動”とあるので,
𝒕𝟏はクラス2の要素を含む
出力𝒃𝟏のクラス2の欄には,
「1」が立つ
- 12. 評価指標と考察の観点
11 /14
• バイナリ列を用いて相対差を算出
-各クラスごとの情報源における割合の差の絶対値
• 考察の観点
-相対差が大きいクラスに含まれる単語群を解釈
-情報源の特性を考慮した具体的なアプリケーションの例
0 1 2 62
𝑏0 1 1 0 0
𝒃𝟏 1 0 1 0
𝑏2499 1 0 0 1
…
出力:63次元のバイナリ列
例)
• 情報源の両方に割合が同じ場合
• 情報源の片方に割合が偏った場合
相対差:0%
相対差:100%
<今後の課題>
-0回と1回の場合
-0回と100回の場合
クラス𝑛に該当した情報源ごとのデータ数が
いずれも相対差は100% 同じ100%でも意味が違うんじゃ?
- 17. 単語の頻度と意味に基づいたコミックに関するテキスト情報源の特性分析 E21-2
day2 p23
関西大学大学院 総合情報学研究科
◎樋口亮太 山西良典 松下光範
Introduction
Method
Result
Purpose
・コンテンツ分析におけるテキスト情報源は複数考えられる
◎説明文の特性
◎レビュー文の特性
同一コンテンツを表現している一方で
に記述内容は異なる
同一コンテンツ
情報源ごと
コミックに関するテキスト情報を対象として
同一コンテンツを扱った情報源ごとの特性を分析する
・コミックを取り巻く現状
内容情報を
取得する必要
あらすじ文
コミック
説明文 質問文
レビュー文
・辞書構築
・頻出単語の意味的分類
キャラクタの特徴や
作品の内容を説明する単語
作品のメタ的な情報
を示す単語
全体の73%のデータが該当したにも関わらず
意味的な分類ができなかった
-カタカナ語が集中した
クラスが3件存在した
・異なる情報源からのデータセット構築
-説明文:Wikipedia,pixiv百科事典など
-レビュー文:作品データベース
それぞれ名詞のみを抽出
- 単語分散表現,k-means法を用いて
単語のクラス集合を獲得(63クラス)
クラス クラスに含まれる単語の一例
激戦,戦友,初戦,苦戦
黒,白,褐色,青春,顔色
アイドル,クラス,ピアス
-コミックの内容分析に必要となる
語彙をまとめたクラス辞書として扱う
クラス辞書を用いて単語の出現頻度を算出
適応限界
頻出したクラスに
含まれる単語の一例
身,身長,上半身
親,兄,妹,姉
頻出したクラスに
含まれる単語の一例
漫画,映画,イラスト
作品,作家,傑作
ヘアスタイル,チェック,
プラモ,リハビリ,キャラ
意味的分類が
できていない単語の一例
適用例:コミック作品の内容に関する分析など
適用例:ジャンル推定,トピック分類問題など
-膨大な作品群から読みたい作品を推薦するためには…
・コミックの内容把握のための取り組み
分析対象②
他のリソース
分析対象①
コミック
様々な技術を
応用する必要
◎膨大なデータ
◎収集が用意
例)・説明文,あらすじ文:作品の概要についての解説
・レビュー文:作品に対する感想や評価
を目的とした記述で構成される
情報源の特性を定量的に分析する必要がある
・情報源の特性理解による利点
-情報源の特性の違いに応じた適切な情報源の選択
-共通した性質を持つ情報源の統合によるデータ量の確保
Editor's Notes
- 本項では,コミックに関するテキスト情報源の中でもキャラクタの説明文と作品に関するレビュー文を対象とし,
これらの情報源に対してそれぞれどのような単語がどのくらい出現するかを分析しました.
本研究の貢献と致しまして,コンテンツ分析において対象となる情報源を経験的に選択してしまっていた従来に対して,この提案によって定量的な理由を持って適切な情報源の選択ができるようになりました.
得られた結果から,説明文にはコミックの内容を表現するような単語が,レビュー文には,作品のメタ情報を表現するような単語が多く出現しました.
- それでは,具体的な内容に入ります.
毎年出版される新刊コミックの作品数は1万点以上にものぼり...
- コミックの内容を把握するための取り組みと致しまして,大きく2つのアプローチが考えられます.
- 間接的な分析アプローチに用いられるテキストの情報源についてご説明いたします.
コンテンツ分析において対象となる情報源は,複数考えられます.
料理に関するコンテンツ分析では...といった情報源が考えられ,コミックでは,...といった情報源が挙げられます.
例えば,コミックに関する記述と致しまして「NARUTO」に関するウェブ上のテキストには,..という記述目的の文章で構成されています.
その内容を概観してみると,これらは同一コンテンツを表現している一方で,情報源ごとにその内容は異なることがわかります.
- テキスト情報源には,その情報源ごとに内容が異なるという特徴が存在するため,それぞれが目指す...するべきです.
しかしながら,そういった選択において現状では,定量的な理由を述べた上で検証を行っている研究は多く存在せず,例えば先行研究でこうだったからとか,今回は経験的に選んだといったなんとなくの理由で選んでしまっています.
「流行りのAIを用いて...!!!」と言いながらも,不適切な情報源を選んでしまったことによって,分析精度がそこそこの値にとどまってしまったり,データ数が思うように収集できなかったりする問題が考えられます.
本来は,定量的に情報源の特性を分析した上で,具体的な検証を行うべきだと僕は思います.
そこで本項では...
- そこで本項では,コミックに関するテキスト情報を対象として,同一コンテンツを扱った情報源ごとの特性を分析します.
情報源の特性理解によって得られる利点といたしまして,2つ挙げられます.
1つ目は,情報源の特性に違いが存在した場合,その特徴に従って適切な情報源を選択することにつながります.
2つ目は,情報源の共通した性質に着目し,目的に応じて情報源を統合すれば,従来よりも多くのデータ量を確保するといった嬉しいことが期待できます.
- 本項では「情報源の特性を分析する」ために以下の手順で検証を行います.
①では,コミックに関する説明文とレビュー文を収集し,前処理を施します.
②では,単語分散表現とk-means法を組み合わせて,類似した意味の単語集合を獲得します.この単語集合を次ステップで用いるクラス辞書とします.
③では,②で作成された辞書を用いて単語の出現頻度を算出します.
以上の手順で情報源ごとにどのような単語がどのくらい出現しているか分析します.
次は,この目次に従って各ステップごとに詳しく説明していきます.
- 1つ目はデータセットの構築に関してです.
- 2つ目は,「どのような意味の単語が存在するか」について分析するために,単語の意味を計算する単語分散表現とクラスタリング手法のひとつであるk-means法を組み合わせて,類似した意味の単語集合を獲得します.
- 最後に単語の出現頻度を算出します.
STEP①は,入力としてあるテストデータT1には,「感動」という単語が含まれています.
STEP②.作成した辞書のクラス2には,同様に「感動」という単語が含まれているクラスが存在するため,テストデータT1はクラス2の要素を含むとされます.
STEP③は出力に関する説明です.出力データb1のクラス2の欄には,「1」が立ちます.
以上の手順で合計2500件のデータで構成された63次元のバイナリ列を獲得しました.
- 提案手法の分析により説明文とレビュー文に読み取られた特性についてご説明いたします.
先ほど得られた63次元のバイナリ列を用いて,相対差を算出しました.
これは...
例えば...