Successfully reported this slideshow.
Your SlideShare is downloading. ×

TsubasaSakurai_cc6

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Upcoming SlideShare
OzCHI_1205.pdf
OzCHI_1205.pdf
Loading in …3
×

Check these out next

1 of 32 Ad

More Related Content

More from nakamura-lab (20)

Recently uploaded (20)

Advertisement

TsubasaSakurai_cc6

  1. 1. 漫画のセリフと発話者対応付け データセットの構築とその分析 櫻井 翼 伊藤 理紗 阿部 和樹 中村 聡史 明治大学 総合数理学部
  2. 2. 亜人 サマータイムレンダ 怪物事変 ワンパンマン 炎炎ノ消防隊 Dr.STONE チェンソーマン 僕のヒーローアカデミア ジョジョの奇妙な冒険 好きな(最近読んだ)コミック SPY × FAMILY クズの本懐 推しの子 ハッピーシュガーライフ 嘘喰い かぐや様は告らせたい 堀さんと宮村くん 僕らはみんな河合荘 五等分の花嫁
  3. 3. コミックの構成要素の認識 コマの領域、セリフの領域、登場人物の顔の抽出 背景 Frame Face Text Text ©赤松健「ラブひな」
  4. 4. コミックの構成要素の認識が必要  コマの領域、セリフの領域、セリフの内容、擬音語や擬態語、 登場人物の名前や顔、表情や服装、セリフの話者 電子コミックを活かした研究・サービスの増加  自動翻訳、内容にもとづく推薦・検索、ネタバレ防止 背景 内容に合わせた翻訳 (Mantra) ©赤松健「ラブひな」
  5. 5. コミックの構築要素を利用した研究 ➔ コミックのコマ間のリンク関係によるコマの重要度推定についての一検証 [平岡ら 2018] 関連研究 ©伊藤伸平
  6. 6. セリフとキャラクタの関係に着目 機械によって自動で対応付けを行う 必要なデータセット ©赤松健「ラブひな」 Face Text Text
  7. 7. Manga109 データセット  日本のプロの漫画家による 109冊の漫画にアノテーションが付与されたデータセット ➔ Sketch-based manga retrieval using manga109 dataset [Matsuiら 2017] 4種類のアノテーション  コマの位置  体の位置とキャラクタ名  顔の位置とキャラクタ名  テキストの位置と文字列 関連研究 Frame Body Face Text Text ©赤松健「ラブひな」
  8. 8. Manga109 データセット データ数は多いが、発話者情報がない eBDthequeデータセット 発話者情報はあるが、データ数が少ない ➔ eBDtheque: A Representative Database of Comics [Rigaudら] 関連研究
  9. 9. 吹き出しのしっぽからの距離による推定 ➔ Speech balloon and speaker association for comics and manga understanding [Rigaudら 2015] 関連研究(発話者の自動推定手法) ©進藤ウニ「日常スープ」
  10. 10. 吹き出しのしっぽからの距離による推定 ➔ Speech balloon and speaker association for comics and manga understanding [Rigaudら 2015] 関連研究(発話者の自動推定手法) ©進藤ウニ「日常スープ」 しっぽ
  11. 11. 吹き出しのしっぽの方向からの推定 ➔ データドリブンなアプローチを用いた漫画画像中の吹き出しの話者推定 [山本ら2018] 関連研究(発話者の自動推定手法) ©進藤ウニ「日常スープ」
  12. 12. 吹き出しのしっぽの方向からの推定 ➔ データドリブンなアプローチを用いた漫画画像中の吹き出しの話者推定 [山本ら2018] 関連研究(発話者の自動推定手法) ©進藤ウニ「日常スープ」 あらかじめ分析を行ったうえで 手法を確立する必要
  13. 13. データセット構築システム セリフと発話者の対応付けデータセットを構築 先行研究
  14. 14. データセット構築システム セリフと発話者の対応付けデータセットを構築 構築手法  Manga109データセットにおける全ての作品・セリフ  1冊あたり2名がアノテーション付与(109 冊×2 名分) 先行研究 アノテーションの付与者によって ブレが生じる可能性
  15. 15. アノテーション付与の手間 10冊分のセリフ× 5 名 = 67,850 ≒ 約7万件 ➔Manga109での1冊あたりの平均発話数:1,357件 10冊ごとに約7万件のアノテーションが必要… 各セリフにおける アノテーション付与の必要人数を明らかに
  16. 16. アノテーション付与者数の拡張を行った セリフ・発話者対応付けデータセットを分析 話者推定に向けたコミックの特性を明らかに 目的 ©赤松健「ラブひな」 Face Text Text
  17. 17. データセット(前回)  学生 33 名(著者含む)  1つセリフに対して 2 名が評価×109冊分(計295,836件) データセットの拡張  協力者56名により、計749,856件のアノテーション付与  1つセリフに対して平均約 5 名が評価 セリフ・発話者対応付けデータセット
  18. 18. データセットの拡張結果 評価者ごとのアノテーション付与数 セリフ・発話者対応付けデータセット Manga109 総発話数147,918件 付与数が少ない ↓ ブレの可能性あり アノテーション件数でソートしたアノテータのID ア ノ テ ー シ ョ ン 件 数
  19. 19. 評価の比較 15.8%の一致率の低下が見られる データセットの分析 意見 内容 データ数 割合 同じ人物を選択 128,502件 86.9% 「ナレーション」を選択 3,531件 2.4% 「不明」を選択 414件 0.3% 異なる人物を選択 9,720件 6.6% 「不明」を選択 2,433件 1.6% その他を選択 3,318件 2.5% 一致 不一致 前回の評価 (2名) 今回の評価 (平均5名) 意見 内容 データ数 割合 同じ人物を選択 105,238件 71.1% 「ナレーション」を選択 2,654件 1.8% 「不明」を選択 30件 0.0% 異なる人物を選択 25,385件 17.2% 「不明」を選択 5,042件 3.4% その他を選択 874件 0.6% 一致 不一致
  20. 20. 評価の完全一致率の推移 アノテーション付与人数が 2 名では不十分な可能性 データセットの分析 約10%
  21. 21. 評価一致度指標  variation:評価の分かれたキャラクタ数  max_match:最大でどの程度評価が一致していたのか データセットの分析 ©加藤 雅基「ARMS」 variation= 2 2名 8名 max_match=0.8 (8名/10名)
  22. 22. 評価一致度指標  variation:評価の分かれたキャラクタ数  max_match:最大でどの程度評価が一致していたのか データセットの分析 variation= 1 max_match=1.0 (10名/10名) ©赤松健「ラブひな」 10名
  23. 23. 評価一致度指標  variation:評価の分かれたキャラクタ数  max_match:最大でどの程度評価が一致していたのか 値が低いほど評価にブレが生じている データセットの分析 評価一致度指標 = 2 × 𝑚𝑎𝑥_𝑚𝑎𝑡𝑐ℎ × 1 𝑣𝑎𝑟𝑖𝑎𝑡𝑖𝑜𝑛 𝑚𝑎𝑥_𝑚𝑎𝑡𝑐ℎ + 1 𝑣𝑎𝑟𝑖𝑎𝑡𝑖𝑜𝑛
  24. 24. 評価一致度指標 各作品における指標値の平均 データセットの分析
  25. 25. 評価一致度指標 特定の作品における指標値の分布 データセットの分析 ARMS 女王蟻
  26. 26. 具体的な場面(戦艦に載っている) データセットの分析 ©加藤 雅基「ARMS」
  27. 27. 具体的な場面(暗闇) データセットの分析 ©加藤 雅基「ARMS」
  28. 28. 具体的な場面(戦闘シーン) データセットの分析 ©大井 昌和「女王蟻」
  29. 29. 具体的な場面(内言) データセットの分析 ©大井 昌和「女王蟻」
  30. 30. 特定のジャンルや特定の場面において評価にブレが生じる  ジャンル:SF・バトル  場面:状況把握の難しいコマ(戦闘シーン・暗闇)  セリフ:内言・身体状態を表す表現 吹き出しがない・吹き出しのしっぽがない 考察
  31. 31. アノテーション付与の効率化  状況把握の難しい場面では、付与者を増やす  評価が容易な場面では、付与者を減らす アノテーションの付与難易度を明確にしていく 人手によるアノテーション付与の必要数を動的に切り替える 手法の検討 考察&展望
  32. 32. セリフ・発話者対応付けデータセットの拡張  協力者56名により、計749,856件のアノテーション付与  15.8%の一致率の低下が見られた (2名→5名) データの分析・結果  評価人数ごとの完全一致率の推移  評価一致度指標における評価にブレが生じた場面の抽出 考察と展望  特定のジャンル・場面で評価にブレが生じていた  アノテーション付与難易度を明確にしていく まとめ

×