SlideShare a Scribd company logo
1 of 13
Download to read offline
Finding the Storyteller: Automatic Spoiler
Tagging using Linguistic Cues
南研 M1 西村完一
どんなものか
映画のネタバレ検出
Abstract
Spoiler = ネタバレ
・レビューでスポイラー検出の新しいタスクを定式化し、
概要に対するユーザーのコメントのランク付け
・依存関係解析のため、LDAベースのモデルを利用する。
・4つの映画を手動でタグ付けされたコメントを使用して、ランキング評価
ネタバレ
事前の情報で消費者の映画の
楽しみを奪うような情報
Spoiler
ネタバレを構成するものは主に主観的な評価であり、
複雑なストーリーを持つ映画/本の場合、
ネタバレを多く含む可能性があります。
Bag-of-words(BOW)
生成モデルとして、LDAはトピックを示す変数の潜在的なセットから
テキストを生成する方法を説明します。
各文書はトピックの混在としてモデル化され、
トピックは単語の多項分布としてモデル化されます
引用 https://qiita.com/GushiSnow/items/8156d440540b0a11dfe6
LDA
生成モデルとして、LDAはトピックを示す変数の潜在的なセットから
テキストを生成する方法を説明します。
各文書はトピックをモデル化され、トピックは単語の多項分布としてモ
デル化されます
引用 https://qiita.com/GushiSnow/items/8156d440540b0a11dfe6
LDAベースのネタバレランキング
Predictive perplexity:予測的当惑度
Wcom: 映画のコメント
      Wsyn: 映画の概要
Mcom・Msyn :コメント・概要の長さ
予測尤度ランキングと呼ばれる
Symmetrized KL-divergence
トピック分布の類似性を測定することで、概要とコメントの類似性を計算できる
2つの文書のトピック分布の違いを測定するために、広く使用されている
LPU(Learning from Positive and Unlabeled Data)
コメントがラベルなしのデータセット
ポジティブなトレーニングデータとして、
明白なネタバレコメントをまとめた概要をまとめる。
依存構文解析(Dependency Parsing)
解析ツール:the Stanford typed dependency parser
「NN」、「VB」、「JJ」、「PRP」、「RB」
ラベル付け
・203,000以上の映画のコレクションを、映画に対するコメント
とレビューの数は970,000
・概要を持つ映画の場合、それらの概要の平均長は約2422文字。
・これら4つの映画の2148のコメントすべてに手動でラベルを付
け
・2148のコメントのうち、1659のコメントがIMDbと同じ
ラベルを持ってるが、他の489のコメントは異なる
データセット
すべてのコメントをクロールした後、LingPipeツールキット
(英語の形態素解析)を使用して文章のまとまりを作成
4つの映画のあらすじ356文、コメント26964文を取得
これらの文を解析して、依存関係情報を抽出
概要文5655、コメント文について448170の依存関係を取得
LDA analysis process
「bag-of-words」を使用した基本モデル
依存関係解析情報のみを使用したモデル
およびBOWと依存関係情報の両方を混在させ
たモデルを試しました。
PP1 PP2
sKL LPU
精度と再現率
n-best評価では、4つの映画コメントすべてで、
PP1_mixとPP1が他の方法よりもはるかに優れた
パフォーマンスを示し、依存関係情報は、特に
大きなサイズのコレクションの場合、精度を大
幅に向上させるのに役立つことがわかった。
LPUは、ポジティブトレーニングデータの一
部を使用しているが、あまりうまく機能しな
かった。
→何人かのユーザが彼らのコメントの前に警告
フレーズ(「ネタバレ注意」のような)を置く
が、コメントが間接的なプロットを明らかにす
る情報だけを含むかもしれないということかも
しれません。キーワードのみを使用したスポイ
ラーのタグ付け方法が通常は機能しないことを
反映しています。
最後に、対称化されたKL発散を直接計算する方
法もまた適切ではないようです。
まとめ
スポイラーの検出問題を紹介し、トピックモデルを使用して、
映画のコメントをランク付けすることを提案
特に、依存関係情報はランキングの精度を著しく向上させた。
今後の作業では、コメントを分割して関連するネタバレ部分を自動的に識
別することができる方式を検討することを目指し、名前付きエンティティ
の認識や意味的役割のラベル付けなど、より深い言語分析も実行できま
す。
さらに、トピックモデルを評価したり、依存関係情報を使用して適切な数
のトピックを選択したりすることもできます。 最後に、依存関係をより直
接的に確率的グラフィカルモデルに統合することもまた検討に値する。

More Related Content

Featured

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...DevGAMM Conference
 

Featured (20)

Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 

Finding the Storyteller: Automatic Spoiler Tagging using Linguistic Cues