SlideShare a Scribd company logo
1 of 29
Download to read offline
Survey of Scientific Publication Analysis
by NLP and CV
早稲田大学
山本晋太郎
自己紹介
山本晋太郎(Shintaro Yamamoto)
cvpaper.challenge運営メンバー兼nlpaper.challenge立ち上げメンバー
経歴
• 2013.04—2017.03 早稲田大学先進理工学部
• 2017.04—2019.03 早稲田大学先進理工学研究科修士課程
• 2017.07—2017.09 University of California, Los Angeles, Summer School
• 2019.04—現在 早稲田大学先進理工学研究科博士課程
研究テーマ
NLPとCVによる論文のマルチモーダル要約
(元々画像系の研究をしていた+画像系の研究室所属なのでCVの方が得意)
本発表の概要
情報科学分野での論文数の急増化
https://syncedreview.com/2019/05/17/acl-2019-
reports-record-high-paper-submissions-begins-
notifying-accepted-authors/
CV NLP
本発表の概要
論文自体を研究対象としたWSやコンペ
本発表の概要
NLPとCVの応用タスクとしての科学論文の解析研究の紹介
• DNNブームによって投稿数・採択数が急増化が発表者のモ
チベーション
• ACL AnthologyやCVFのようなオープンアクセス論文の増加や
openreviewによる査読のオープン化による分析が可能
• NLPやCVにおける科学論文を対象とした様々な研究を1論文
1ページで紹介
• 1つのタスクに対して色々な手法を紹介ではなく幅広いタス
クを取り上げる
• 個々の論文に対する詳しい手法については説明しないので、
論文を参照
• 主に最近のもの(2016年以降)の研究を取り上げる
Structural Scaffolds for Citation Intent Classification
in Scientific Publications
Arman Cohan, Waleed Ammar, Madeleine van Zuylen, Field Cady
NAACL 2019
• Background information/Method/Result
comparisonの3つに分類
• 分類タスクに加えてsection title及び
引用の必要性を同時に推定するマル
チタスク学習として扱う
• 既存のACL-ARCデータセットが言語処
理のみ含むのに対し、コンピュータ
サイエンス及び薬学論文を含む大規
模データセットSciCiteを提案
• ACL-ARCデータセット及び提案データ
セット両方でSOTAを更新
• 論文の中身のみを用いた論文
推薦に関する研究
• 候補を選択するフェーズと候
補をランク付けするフェーズ
の2つにより構築
• フェーズ1では,引用してい
る論文同士が近くなるような
タイトルとアブストラクトの
embeddingを学習
• フェーズ2では,著者やキー
ワードなどを追加してフェー
ズ1で選ばれた候補をランク
付け
Content-Based Citation Recommendation
Chandra Bhagavatula, Sergey Feldman, Russel Power, Waleed Ammar
NAACL 2018
ScisummNet: A Large Annotated Corpus and Content-Impact Models for
Scientific Paper Summarization with Citation Networks
Michihiro Yasunaga, Jungo Kasai, Rui Zhang, Alexander R. Fabbri, Irene Li, Dan
Friedmann, Dragomir R. Radev
AAAI 2019
• 論文のアブストラクトは主観的であ
るという指摘の元,対象論文を引用
している論文を使って要約するアプ
ローチが主流となっている
• 一方でアブストにも有益な情報が含
まれているのではないか?というこ
とでアブストラクト+引用情報を用
いた要約
• 既存のデータセットは小規模である
ため,Computational Linguistic論文
1000本の新たな要約データセットを
構築
Learning to Generate Posters of Scientific Papers
Yuting Qiang, Yanwei Fu, Yanwen Guo, Zhi-Hua Zhou, Leonid Sigal
AAAI 2016
• 入力論文から(半)自動で論文のポスターを生成するという研究
• 文章はTextRankを用いて重要文を抽出,図に関してはユーザが手動で選
択する必要がある
• 重要文とユーザ選択の図に関して,レイアウトの最適化問題を解く
TALKSUMM: A Dataset and Scalable Annotation Mehotd for Scientific
Paper Summarization Based on Conference Talks
Guy Lev, Michal Shumueli-Scheuer, Jonathan Herzig, Achiya Jerbi, David Konopnicki
ACL 2019
• 論文要約タスクに対して,学会での
プレゼンテーションを活用するとい
う研究.
• 話者の発言内容が論文中のどの文に
基づいているか対応付けすることで
要約を生成.
• NLP(ACL, NAACL, EMNLP, SIGDIAL)及び
ML(ICML)のプレゼン動画によるデー
タセットを構築.
• Yasunaga+ 2019よりも高いROUGEス
コアを記録.
Modeling Scientific Incluence for Research Trending Topic Prediction
Chengyao Chen, Zhitao Wang, Wenjie Li, Xu Sun
AAAI 2018
• LSTM:NLP→CV,CNN:CV→NLPの
ように他分野からの影響を考慮
したトレンド分析
• 会議毎にRNNのsequenceを考え,
2つの会議の状態を入力とする
influence unitを導入
• AI系会議とData Mining系会議の2
つで実験(下表)
Paper Abstract Writing through Editing Mechanism
Qingyun Wang, Zhihao Zhou, Lifu Huang, Spencer Whitehead, Boliang Zhang, Heng Ji,
Kevin Knight
ACL 2018
• 論文のタイトルを入力として,
その論文のアブストラクトを自
動で生成するという一風変わっ
た研究
• 初めにencoder-decoder構造で生
成し,その後Editing Networkで
改善していく
• 論文の分野に詳しくない人は騙
せるらしい
PaperRobot: Incremental Draft Generation of Scientific Ideas
Qingyun Wang, Lifu Huang, Zhiying Jiang, Kevin Knight, Heng Ji, Mohit Bansal, Yi Luan
ACL 2019
• 過去の論文から知識グラフを構築
し,新たな研究アイデアを自動で
生み出す研究
• 研究アイデアのみならず,そこか
らアブストラクトなど論文の一部
も自動で生成する
• 10から30%の人が生成結果の方が
良いと回答
• 材料科学の論文330万本のアブストを
使ってword embeddingを学習
• 教師なし学習だが,各原子の特徴や
酸化など化学的概念の獲得に成功
Unsupervised word embeddings capture latent knowledge from materials
science literature
Vahe Tshitoyan, John Dagdelen, Leigh Weston, Alexander Dunn, Ziqin Rong, Olga Kononova,
Kristin A. Persson, Gerbrand Ceder, Anubhav Jain
nature 2019
• 論文からタスク,データセット,評価指標,
最高数値を抜き出すことでリーダーボード
を作る研究
• NLP分野の論文で構成された2つのデータ
セットを構築
Identification of Tasks, Datasets, Evaluation Metrics, and Numeric Scores
for Scientific Leaderboards Construction
Yufang Hou, Charles Jochim, Marting Gleize, Francesca Bonin and Debasis Ganguly
ACL 2019
• Rhetorical component( 右 図 上 ) と
Argumentative component(右図下)の関
係を明らかにするという研究
• 既存のRhetorical componentのラベル
が つ い た デ ー タ セ ッ ト に 対 し て
Argumentative componentラベルを付与
• 各ラベルを予測するマルチタスク学
習を実施.Rhetorical componentの予
測はArgumentative componentと同時に
行った方が精度が向上した(逆に関し
ては向上せず).
Investigating the Role of Argumentation in the Rhetorical Analysis of
Scientific Publications with Neural Multi-Task Learning Models
Anne Lauscher, Goran Glavas, Simone Paolo Ponzetto, Kai Eckert
EMNLP 2018
• 一言で言うと論文で学習をしたBERT.
Biomedical, Computer Scienceの2つの
分野の論文を使って学習.
• 学習済みモデルはgithub上で公開さ
れている.コード自体は通常のBERT
のものを使うことができる.
SCIBERT: Pretrained Contextualized Embeddings for Scientific Text
Iz Beltagy, Arman Cohan, Kyle Lo
arXiv 2019
A Dataset of Peer Reviews (PeerRead): Collection, Insights and NLP
Applications
Dongyeop Kang, Waleed Amaar, Bhavana Dalvi Mishra, Madeleine van Zuylen,
Sebastian Kohlmeiser, Eduard Hovy, Roy Schwartz
NAACL 2018
• Openreviewなど公開査読データ及び
ACLの査読時における同意に基づいた
データ収集
• 各査読項目と採択の相関や、会議毎
の違いなどを分析
• Accept/Rejectの予測と査読における
各項目のスコア予測の2つのNLPタス
クを提案
Does My Rebuttal Matter? Insights from a Major NLP Conference
Yang Gao, Steffen Eger, Ilia Kuznetsov, Iryna Gurevych, Yusuke Miyao
NAACL 2019
• ACL2018の著者/査読者の同意を得て
4kのレビューと1.2kの著者による
responseを含むcorpusを構築
• Rebuttal前後のスコア変動を予測する
手法を提案
• 他の査読者との間にスコアに差異が
存在する際が最も変動が起こる
• 次に影響しやすいのはspecificityと
politenessであった
Argument Mining for Understanding Peer Reviews
Xinyu Hua, Mitko Nikolov, Nikhil Badugu, Lu Wang
NAACL 2019
• 査読コメント中の議論に関する解析
を行った研究
• ICLR2018の査読コメント400本に対し
て右表のラベルを付与したデータ
セットを構築
• 査読コメントを分割し,各セグメン
トのラベルを予測するモデルを学習.
このモデルを用いて会議毎の違いを
分析(ACLは具体例を求めがちなど)
Extracting Scientific Figures with Distantly Supervised Neural Networks
Noah Siegel, Nicholas Lourie, Russel Power, Waleed Ammar
JCDL 2018
• 従来の物体検出アルゴリズムを用い
て論文中の図表を検出する研究.PDF
を画像として見て図表の位置を得る.
• 550万ラベルのデータセットを構築し,
学習することでprecision96.8%を達成.
• PDFを解析する手法よりも精度が高い
Learning to Extract Semantic Structure from Documents Using
Multimodal Fully Convolutional Neural Networks
Xiao Yang, Ersin Yumer, Paul Asente, Mike Kraley, Daniel Kifer, C. Lee Giles
CVPR 2017
• 文章の図,表,セクション名,キャプション,箇条書き,段落の位置
推定をセマンティックセグメンテーションの問題として考える研究
• CNNに加えて,文章領域に関しては単語のembeddingを与える
FigureSeer: Parsing Result-Figures in Research Papers
Noah Siegel, Zachary Horvitz, Roie Levin, Santosh Divvala, Ali Farhadi
ECCV 2016
• 論文中のグラフ(散布図)から性能などに関する数値を自動で抽出する
手法を提案
• 学習済みAlexNetやResNetをファインチューニングし,図の種類の識別
(Flowchart, Scatterなど)を行う
• グラフの軸や凡例情報を抜き出し,CNNによってグラフ上にプロット
されているか否かを判定することで数値を認識する
DVQA: Understanding Data Visualizations via Question Answering
Kushal Kafle, Brian Price, Scott Cohen, Christopher Kanan
CVPR 2018
• 棒グラフが入力画像であるVQA
• Matplotlibを用いることで学習データを大量に作ることを可能とした
• Structure Understanding, Data Retrieval, Reasoningの3種類の質問を定義
• ネットワークはyes/noの回答及びOCRを用いた回答の2つから構成
DLPaper2Code: Auto-generation of Code
from Deep Learning Research Papers
Akshay Sethi, Anush Sankaran, Naveen Panwar, Shreya Khare, Senthil Mani
AAAI 2018
• 論文中のネットワーク構造図からDNNのコードを自動生成する研究
• 論文から抽出した図表から,DNNのネットワークを表現しているもの
か、どのタイプの図かを分類
• 論文中では1種類の図(2D Box)に対してのみコード生成手法を提案
強い研究機関
Allen Institute for Artificial Intelligence (AI2)
• NLPやCV中心にAIについて研究しているシアトルの研究所
• Semantic Scholarという,人工知能を搭載した学術検索エン
ジンを運営している
• Semantic Scholarに含まれている論文を100万本単位で学習
するという類の研究が多い
• 研究成果はオープンソース化してgithub上に公開されてい
るものが多い
有用なライブラリ
Science Parse (https://github.com/allenai/science-parse)
• 論文のPDFをJSONに変換してくれるライブラリ
• 本文はsection毎に分解してくれる
• 引用のリストも作ってくれる
有用なライブラリ
Deepfigures (https://github.com/allenai/deepfigures-open)
• 論文のPDFから図表を抽出するプログラム
• 出力はJSONにバウンディングボックスの座標として取得
• 各図表のキャプションも取得してくれる
まとめ
• オープンアクセスの論文増加,openreviewなどの新たなプ
ラットフォームの誕生により解析対象となるデータが増加
• 近年あらたなデータセット構築+新タスクを提案する論文
が増えている
• データの収集自体が大きなコントリビューションで技術は
既存のものを使うという研究も多い
• AI2のように大量のデータを所持しているグループは強い
→xpaperで何かできないか?
• 現状は特定ドメイン(Bio系が多い印象)に特化しているので
ドメインの違いをどう扱うか?
• 一緒に研究してくれる人募集してます!

More Related Content

What's hot

修士の振り返り.pptx
修士の振り返り.pptx修士の振り返り.pptx
修士の振り返り.pptx亮介 西田
 
社会人のためのシンポジウム発表入門 リーン論文作法
社会人のためのシンポジウム発表入門   リーン論文作法社会人のためのシンポジウム発表入門   リーン論文作法
社会人のためのシンポジウム発表入門 リーン論文作法Makoto SAKAI
 
ジャストシステムの形態素解析技術 その2 機械学習編
ジャストシステムの形態素解析技術 その2 機械学習編ジャストシステムの形態素解析技術 その2 機械学習編
ジャストシステムの形態素解析技術 その2 機械学習編JustSystems Corporation
 
論文に関する基礎知識2016
 論文に関する基礎知識2016 論文に関する基礎知識2016
論文に関する基礎知識2016Mai Otsuki
 
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文cvpaper. challenge
 
J-LIWC2015の紹介
J-LIWC2015の紹介J-LIWC2015の紹介
J-LIWC2015の紹介igarashilab
 
TermLink:言語横断論文推薦のための専門用語処理
TermLink:言語横断論文推薦のための専門用語処理TermLink:言語横断論文推薦のための専門用語処理
TermLink:言語横断論文推薦のための専門用語処理Analytics2014
 
文献調査をどのように行うべきか?
文献調査をどのように行うべきか?文献調査をどのように行うべきか?
文献調査をどのように行うべきか?Yuichi Goto
 
Surveyから始まる研究者への道 - Stand on the shoulders of giants -
Surveyから始まる研究者への道 - Stand on the shoulders of giants -Surveyから始まる研究者への道 - Stand on the shoulders of giants -
Surveyから始まる研究者への道 - Stand on the shoulders of giants -諒介 荒木
 
効果的な文献検索と最新論文の情報を入手する秘訣
効果的な文献検索と最新論文の情報を入手する秘訣 効果的な文献検索と最新論文の情報を入手する秘訣
効果的な文献検索と最新論文の情報を入手する秘訣 英文校正エディテージ
 

What's hot (11)

修士の振り返り.pptx
修士の振り返り.pptx修士の振り返り.pptx
修士の振り返り.pptx
 
社会人のためのシンポジウム発表入門 リーン論文作法
社会人のためのシンポジウム発表入門   リーン論文作法社会人のためのシンポジウム発表入門   リーン論文作法
社会人のためのシンポジウム発表入門 リーン論文作法
 
ジャストシステムの形態素解析技術 その2 機械学習編
ジャストシステムの形態素解析技術 その2 機械学習編ジャストシステムの形態素解析技術 その2 機械学習編
ジャストシステムの形態素解析技術 その2 機械学習編
 
論文に関する基礎知識2016
 論文に関する基礎知識2016 論文に関する基礎知識2016
論文に関する基礎知識2016
 
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
 
J-LIWC2015の紹介
J-LIWC2015の紹介J-LIWC2015の紹介
J-LIWC2015の紹介
 
TermLink:言語横断論文推薦のための専門用語処理
TermLink:言語横断論文推薦のための専門用語処理TermLink:言語横断論文推薦のための専門用語処理
TermLink:言語横断論文推薦のための専門用語処理
 
文献調査をどのように行うべきか?
文献調査をどのように行うべきか?文献調査をどのように行うべきか?
文献調査をどのように行うべきか?
 
Surveyから始まる研究者への道 - Stand on the shoulders of giants -
Surveyから始まる研究者への道 - Stand on the shoulders of giants -Surveyから始まる研究者への道 - Stand on the shoulders of giants -
Surveyから始まる研究者への道 - Stand on the shoulders of giants -
 
JMAT Groonga Tokenizer Talks
JMAT Groonga  Tokenizer TalksJMAT Groonga  Tokenizer Talks
JMAT Groonga Tokenizer Talks
 
効果的な文献検索と最新論文の情報を入手する秘訣
効果的な文献検索と最新論文の情報を入手する秘訣 効果的な文献検索と最新論文の情報を入手する秘訣
効果的な文献検索と最新論文の情報を入手する秘訣
 

Similar to Survey of Scientific Publication Analysis by NLP and CV

ThemeStudy ― CHI2017-2018分析 + CHI2018速報
ThemeStudy ― CHI2017-2018分析 + CHI2018速報ThemeStudy ― CHI2017-2018分析 + CHI2018速報
ThemeStudy ― CHI2017-2018分析 + CHI2018速報cvpaper. challenge
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for PredictionDeep Learning JP
 
IRC セミナー 数字が教えてくれないこと -特許/論文データベース分析入門-
IRC セミナー数字が教えてくれないこと-特許/論文データベース分析入門-IRC セミナー数字が教えてくれないこと-特許/論文データベース分析入門-
IRC セミナー 数字が教えてくれないこと -特許/論文データベース分析入門-Yasushi Hara
 
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第4回 サイエンスリンケージデータベースの使い方
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第4回サイエンスリンケージデータベースの使い方SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第4回サイエンスリンケージデータベースの使い方
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第4回 サイエンスリンケージデータベースの使い方Yasushi Hara
 
GeneratingWikipedia_ICLR18_論文紹介
GeneratingWikipedia_ICLR18_論文紹介GeneratingWikipedia_ICLR18_論文紹介
GeneratingWikipedia_ICLR18_論文紹介Masayoshi Kondo
 
cvpaper.challenge チームラボ講演
cvpaper.challenge チームラボ講演cvpaper.challenge チームラボ講演
cvpaper.challenge チームラボ講演cvpaper. challenge
 
#経済学のための実践的データ分析 7. 論文データベースの使い方
#経済学のための実践的データ分析 7. 論文データベースの使い方#経済学のための実践的データ分析 7. 論文データベースの使い方
#経済学のための実践的データ分析 7. 論文データベースの使い方Yasushi Hara
 
CVPR2017/ICCV2017から見た研究動向(名古屋CV・PRML勉強会)
CVPR2017/ICCV2017から見た研究動向(名古屋CV・PRML勉強会)CVPR2017/ICCV2017から見た研究動向(名古屋CV・PRML勉強会)
CVPR2017/ICCV2017から見た研究動向(名古屋CV・PRML勉強会)cvpaper. challenge
 
SQiP20222投稿応援フォーラム「開発現場で役立つ論文の書き方のお話」
SQiP20222投稿応援フォーラム「開発現場で役立つ論文の書き方のお話」SQiP20222投稿応援フォーラム「開発現場で役立つ論文の書き方のお話」
SQiP20222投稿応援フォーラム「開発現場で役立つ論文の書き方のお話」Makoto SAKAI
 
altmetrics - measuring research impact on the web
altmetrics - measuring research impact on the webaltmetrics - measuring research impact on the web
altmetrics - measuring research impact on the webKeita Bando
 
20171108_業績評価指標の仕組みと調べ方 ―Top10%論文を中心に―
20171108_業績評価指標の仕組みと調べ方 ―Top10%論文を中心に―20171108_業績評価指標の仕組みと調べ方 ―Top10%論文を中心に―
20171108_業績評価指標の仕組みと調べ方 ―Top10%論文を中心に―Hiroyuki Chiba
 
20160409_Validating Product Ideas_yukio yoshida_cp04
20160409_Validating Product Ideas_yukio yoshida_cp0420160409_Validating Product Ideas_yukio yoshida_cp04
20160409_Validating Product Ideas_yukio yoshida_cp04Japan Culture Creation
 
IPAB2017 深層学習を使った新薬の探索から創造へ
IPAB2017 深層学習を使った新薬の探索から創造へIPAB2017 深層学習を使った新薬の探索から創造へ
IPAB2017 深層学習を使った新薬の探索から創造へPreferred Networks
 
論文の書き方・読み方
論文の書き方・読み方論文の書き方・読み方
論文の書き方・読み方Satoshi Miura
 
物質・材料研究機構におけるNext-L Enjuの採用,導入と今後
物質・材料研究機構におけるNext-L Enjuの採用,導入と今後物質・材料研究機構におけるNext-L Enjuの採用,導入と今後
物質・材料研究機構におけるNext-L Enjuの採用,導入と今後Masao Takaku
 
菊地の研究ポートフォリオ2019版 v1.01
菊地の研究ポートフォリオ2019版 v1.01菊地の研究ポートフォリオ2019版 v1.01
菊地の研究ポートフォリオ2019版 v1.01Shunsuke Kikuchi
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?Masanao Ochi
 

Similar to Survey of Scientific Publication Analysis by NLP and CV (20)

ThemeStudy ― CHI2017-2018分析 + CHI2018速報
ThemeStudy ― CHI2017-2018分析 + CHI2018速報ThemeStudy ― CHI2017-2018分析 + CHI2018速報
ThemeStudy ― CHI2017-2018分析 + CHI2018速報
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
IRC セミナー 数字が教えてくれないこと -特許/論文データベース分析入門-
IRC セミナー数字が教えてくれないこと-特許/論文データベース分析入門-IRC セミナー数字が教えてくれないこと-特許/論文データベース分析入門-
IRC セミナー 数字が教えてくれないこと -特許/論文データベース分析入門-
 
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第4回 サイエンスリンケージデータベースの使い方
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第4回サイエンスリンケージデータベースの使い方SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第4回サイエンスリンケージデータベースの使い方
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第4回 サイエンスリンケージデータベースの使い方
 
論文の書き方入門 2017
論文の書き方入門 2017論文の書き方入門 2017
論文の書き方入門 2017
 
研究支援と評価
研究支援と評価研究支援と評価
研究支援と評価
 
GeneratingWikipedia_ICLR18_論文紹介
GeneratingWikipedia_ICLR18_論文紹介GeneratingWikipedia_ICLR18_論文紹介
GeneratingWikipedia_ICLR18_論文紹介
 
cvpaper.challenge チームラボ講演
cvpaper.challenge チームラボ講演cvpaper.challenge チームラボ講演
cvpaper.challenge チームラボ講演
 
#経済学のための実践的データ分析 7. 論文データベースの使い方
#経済学のための実践的データ分析 7. 論文データベースの使い方#経済学のための実践的データ分析 7. 論文データベースの使い方
#経済学のための実践的データ分析 7. 論文データベースの使い方
 
CVPR2017/ICCV2017から見た研究動向(名古屋CV・PRML勉強会)
CVPR2017/ICCV2017から見た研究動向(名古屋CV・PRML勉強会)CVPR2017/ICCV2017から見た研究動向(名古屋CV・PRML勉強会)
CVPR2017/ICCV2017から見た研究動向(名古屋CV・PRML勉強会)
 
SQiP20222投稿応援フォーラム「開発現場で役立つ論文の書き方のお話」
SQiP20222投稿応援フォーラム「開発現場で役立つ論文の書き方のお話」SQiP20222投稿応援フォーラム「開発現場で役立つ論文の書き方のお話」
SQiP20222投稿応援フォーラム「開発現場で役立つ論文の書き方のお話」
 
altmetrics - measuring research impact on the web
altmetrics - measuring research impact on the webaltmetrics - measuring research impact on the web
altmetrics - measuring research impact on the web
 
20171108_業績評価指標の仕組みと調べ方 ―Top10%論文を中心に―
20171108_業績評価指標の仕組みと調べ方 ―Top10%論文を中心に―20171108_業績評価指標の仕組みと調べ方 ―Top10%論文を中心に―
20171108_業績評価指標の仕組みと調べ方 ―Top10%論文を中心に―
 
20160409_Validating Product Ideas_yukio yoshida_cp04
20160409_Validating Product Ideas_yukio yoshida_cp0420160409_Validating Product Ideas_yukio yoshida_cp04
20160409_Validating Product Ideas_yukio yoshida_cp04
 
IPAB2017 深層学習を使った新薬の探索から創造へ
IPAB2017 深層学習を使った新薬の探索から創造へIPAB2017 深層学習を使った新薬の探索から創造へ
IPAB2017 深層学習を使った新薬の探索から創造へ
 
論文の書き方・読み方
論文の書き方・読み方論文の書き方・読み方
論文の書き方・読み方
 
物質・材料研究機構におけるNext-L Enjuの採用,導入と今後
物質・材料研究機構におけるNext-L Enjuの採用,導入と今後物質・材料研究機構におけるNext-L Enjuの採用,導入と今後
物質・材料研究機構におけるNext-L Enjuの採用,導入と今後
 
菊地の研究ポートフォリオ2019版 v1.01
菊地の研究ポートフォリオ2019版 v1.01菊地の研究ポートフォリオ2019版 v1.01
菊地の研究ポートフォリオ2019版 v1.01
 
機関リポジトリから収集した学術論文のテキスト解析に関する一検討
機関リポジトリから収集した学術論文のテキスト解析に関する一検討機関リポジトリから収集した学術論文のテキスト解析に関する一検討
機関リポジトリから収集した学術論文のテキスト解析に関する一検討
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
 

Survey of Scientific Publication Analysis by NLP and CV

  • 1. Survey of Scientific Publication Analysis by NLP and CV 早稲田大学 山本晋太郎
  • 2. 自己紹介 山本晋太郎(Shintaro Yamamoto) cvpaper.challenge運営メンバー兼nlpaper.challenge立ち上げメンバー 経歴 • 2013.04—2017.03 早稲田大学先進理工学部 • 2017.04—2019.03 早稲田大学先進理工学研究科修士課程 • 2017.07—2017.09 University of California, Los Angeles, Summer School • 2019.04—現在 早稲田大学先進理工学研究科博士課程 研究テーマ NLPとCVによる論文のマルチモーダル要約 (元々画像系の研究をしていた+画像系の研究室所属なのでCVの方が得意)
  • 5. 本発表の概要 NLPとCVの応用タスクとしての科学論文の解析研究の紹介 • DNNブームによって投稿数・採択数が急増化が発表者のモ チベーション • ACL AnthologyやCVFのようなオープンアクセス論文の増加や openreviewによる査読のオープン化による分析が可能 • NLPやCVにおける科学論文を対象とした様々な研究を1論文 1ページで紹介 • 1つのタスクに対して色々な手法を紹介ではなく幅広いタス クを取り上げる • 個々の論文に対する詳しい手法については説明しないので、 論文を参照 • 主に最近のもの(2016年以降)の研究を取り上げる
  • 6. Structural Scaffolds for Citation Intent Classification in Scientific Publications Arman Cohan, Waleed Ammar, Madeleine van Zuylen, Field Cady NAACL 2019 • Background information/Method/Result comparisonの3つに分類 • 分類タスクに加えてsection title及び 引用の必要性を同時に推定するマル チタスク学習として扱う • 既存のACL-ARCデータセットが言語処 理のみ含むのに対し、コンピュータ サイエンス及び薬学論文を含む大規 模データセットSciCiteを提案 • ACL-ARCデータセット及び提案データ セット両方でSOTAを更新
  • 7. • 論文の中身のみを用いた論文 推薦に関する研究 • 候補を選択するフェーズと候 補をランク付けするフェーズ の2つにより構築 • フェーズ1では,引用してい る論文同士が近くなるような タイトルとアブストラクトの embeddingを学習 • フェーズ2では,著者やキー ワードなどを追加してフェー ズ1で選ばれた候補をランク 付け Content-Based Citation Recommendation Chandra Bhagavatula, Sergey Feldman, Russel Power, Waleed Ammar NAACL 2018
  • 8. ScisummNet: A Large Annotated Corpus and Content-Impact Models for Scientific Paper Summarization with Citation Networks Michihiro Yasunaga, Jungo Kasai, Rui Zhang, Alexander R. Fabbri, Irene Li, Dan Friedmann, Dragomir R. Radev AAAI 2019 • 論文のアブストラクトは主観的であ るという指摘の元,対象論文を引用 している論文を使って要約するアプ ローチが主流となっている • 一方でアブストにも有益な情報が含 まれているのではないか?というこ とでアブストラクト+引用情報を用 いた要約 • 既存のデータセットは小規模である ため,Computational Linguistic論文 1000本の新たな要約データセットを 構築
  • 9. Learning to Generate Posters of Scientific Papers Yuting Qiang, Yanwei Fu, Yanwen Guo, Zhi-Hua Zhou, Leonid Sigal AAAI 2016 • 入力論文から(半)自動で論文のポスターを生成するという研究 • 文章はTextRankを用いて重要文を抽出,図に関してはユーザが手動で選 択する必要がある • 重要文とユーザ選択の図に関して,レイアウトの最適化問題を解く
  • 10. TALKSUMM: A Dataset and Scalable Annotation Mehotd for Scientific Paper Summarization Based on Conference Talks Guy Lev, Michal Shumueli-Scheuer, Jonathan Herzig, Achiya Jerbi, David Konopnicki ACL 2019 • 論文要約タスクに対して,学会での プレゼンテーションを活用するとい う研究. • 話者の発言内容が論文中のどの文に 基づいているか対応付けすることで 要約を生成. • NLP(ACL, NAACL, EMNLP, SIGDIAL)及び ML(ICML)のプレゼン動画によるデー タセットを構築. • Yasunaga+ 2019よりも高いROUGEス コアを記録.
  • 11. Modeling Scientific Incluence for Research Trending Topic Prediction Chengyao Chen, Zhitao Wang, Wenjie Li, Xu Sun AAAI 2018 • LSTM:NLP→CV,CNN:CV→NLPの ように他分野からの影響を考慮 したトレンド分析 • 会議毎にRNNのsequenceを考え, 2つの会議の状態を入力とする influence unitを導入 • AI系会議とData Mining系会議の2 つで実験(下表)
  • 12. Paper Abstract Writing through Editing Mechanism Qingyun Wang, Zhihao Zhou, Lifu Huang, Spencer Whitehead, Boliang Zhang, Heng Ji, Kevin Knight ACL 2018 • 論文のタイトルを入力として, その論文のアブストラクトを自 動で生成するという一風変わっ た研究 • 初めにencoder-decoder構造で生 成し,その後Editing Networkで 改善していく • 論文の分野に詳しくない人は騙 せるらしい
  • 13. PaperRobot: Incremental Draft Generation of Scientific Ideas Qingyun Wang, Lifu Huang, Zhiying Jiang, Kevin Knight, Heng Ji, Mohit Bansal, Yi Luan ACL 2019 • 過去の論文から知識グラフを構築 し,新たな研究アイデアを自動で 生み出す研究 • 研究アイデアのみならず,そこか らアブストラクトなど論文の一部 も自動で生成する • 10から30%の人が生成結果の方が 良いと回答
  • 14. • 材料科学の論文330万本のアブストを 使ってword embeddingを学習 • 教師なし学習だが,各原子の特徴や 酸化など化学的概念の獲得に成功 Unsupervised word embeddings capture latent knowledge from materials science literature Vahe Tshitoyan, John Dagdelen, Leigh Weston, Alexander Dunn, Ziqin Rong, Olga Kononova, Kristin A. Persson, Gerbrand Ceder, Anubhav Jain nature 2019
  • 15. • 論文からタスク,データセット,評価指標, 最高数値を抜き出すことでリーダーボード を作る研究 • NLP分野の論文で構成された2つのデータ セットを構築 Identification of Tasks, Datasets, Evaluation Metrics, and Numeric Scores for Scientific Leaderboards Construction Yufang Hou, Charles Jochim, Marting Gleize, Francesca Bonin and Debasis Ganguly ACL 2019
  • 16. • Rhetorical component( 右 図 上 ) と Argumentative component(右図下)の関 係を明らかにするという研究 • 既存のRhetorical componentのラベル が つ い た デ ー タ セ ッ ト に 対 し て Argumentative componentラベルを付与 • 各ラベルを予測するマルチタスク学 習を実施.Rhetorical componentの予 測はArgumentative componentと同時に 行った方が精度が向上した(逆に関し ては向上せず). Investigating the Role of Argumentation in the Rhetorical Analysis of Scientific Publications with Neural Multi-Task Learning Models Anne Lauscher, Goran Glavas, Simone Paolo Ponzetto, Kai Eckert EMNLP 2018
  • 17. • 一言で言うと論文で学習をしたBERT. Biomedical, Computer Scienceの2つの 分野の論文を使って学習. • 学習済みモデルはgithub上で公開さ れている.コード自体は通常のBERT のものを使うことができる. SCIBERT: Pretrained Contextualized Embeddings for Scientific Text Iz Beltagy, Arman Cohan, Kyle Lo arXiv 2019
  • 18. A Dataset of Peer Reviews (PeerRead): Collection, Insights and NLP Applications Dongyeop Kang, Waleed Amaar, Bhavana Dalvi Mishra, Madeleine van Zuylen, Sebastian Kohlmeiser, Eduard Hovy, Roy Schwartz NAACL 2018 • Openreviewなど公開査読データ及び ACLの査読時における同意に基づいた データ収集 • 各査読項目と採択の相関や、会議毎 の違いなどを分析 • Accept/Rejectの予測と査読における 各項目のスコア予測の2つのNLPタス クを提案
  • 19. Does My Rebuttal Matter? Insights from a Major NLP Conference Yang Gao, Steffen Eger, Ilia Kuznetsov, Iryna Gurevych, Yusuke Miyao NAACL 2019 • ACL2018の著者/査読者の同意を得て 4kのレビューと1.2kの著者による responseを含むcorpusを構築 • Rebuttal前後のスコア変動を予測する 手法を提案 • 他の査読者との間にスコアに差異が 存在する際が最も変動が起こる • 次に影響しやすいのはspecificityと politenessであった
  • 20. Argument Mining for Understanding Peer Reviews Xinyu Hua, Mitko Nikolov, Nikhil Badugu, Lu Wang NAACL 2019 • 査読コメント中の議論に関する解析 を行った研究 • ICLR2018の査読コメント400本に対し て右表のラベルを付与したデータ セットを構築 • 査読コメントを分割し,各セグメン トのラベルを予測するモデルを学習. このモデルを用いて会議毎の違いを 分析(ACLは具体例を求めがちなど)
  • 21. Extracting Scientific Figures with Distantly Supervised Neural Networks Noah Siegel, Nicholas Lourie, Russel Power, Waleed Ammar JCDL 2018 • 従来の物体検出アルゴリズムを用い て論文中の図表を検出する研究.PDF を画像として見て図表の位置を得る. • 550万ラベルのデータセットを構築し, 学習することでprecision96.8%を達成. • PDFを解析する手法よりも精度が高い
  • 22. Learning to Extract Semantic Structure from Documents Using Multimodal Fully Convolutional Neural Networks Xiao Yang, Ersin Yumer, Paul Asente, Mike Kraley, Daniel Kifer, C. Lee Giles CVPR 2017 • 文章の図,表,セクション名,キャプション,箇条書き,段落の位置 推定をセマンティックセグメンテーションの問題として考える研究 • CNNに加えて,文章領域に関しては単語のembeddingを与える
  • 23. FigureSeer: Parsing Result-Figures in Research Papers Noah Siegel, Zachary Horvitz, Roie Levin, Santosh Divvala, Ali Farhadi ECCV 2016 • 論文中のグラフ(散布図)から性能などに関する数値を自動で抽出する 手法を提案 • 学習済みAlexNetやResNetをファインチューニングし,図の種類の識別 (Flowchart, Scatterなど)を行う • グラフの軸や凡例情報を抜き出し,CNNによってグラフ上にプロット されているか否かを判定することで数値を認識する
  • 24. DVQA: Understanding Data Visualizations via Question Answering Kushal Kafle, Brian Price, Scott Cohen, Christopher Kanan CVPR 2018 • 棒グラフが入力画像であるVQA • Matplotlibを用いることで学習データを大量に作ることを可能とした • Structure Understanding, Data Retrieval, Reasoningの3種類の質問を定義 • ネットワークはyes/noの回答及びOCRを用いた回答の2つから構成
  • 25. DLPaper2Code: Auto-generation of Code from Deep Learning Research Papers Akshay Sethi, Anush Sankaran, Naveen Panwar, Shreya Khare, Senthil Mani AAAI 2018 • 論文中のネットワーク構造図からDNNのコードを自動生成する研究 • 論文から抽出した図表から,DNNのネットワークを表現しているもの か、どのタイプの図かを分類 • 論文中では1種類の図(2D Box)に対してのみコード生成手法を提案
  • 26. 強い研究機関 Allen Institute for Artificial Intelligence (AI2) • NLPやCV中心にAIについて研究しているシアトルの研究所 • Semantic Scholarという,人工知能を搭載した学術検索エン ジンを運営している • Semantic Scholarに含まれている論文を100万本単位で学習 するという類の研究が多い • 研究成果はオープンソース化してgithub上に公開されてい るものが多い
  • 27. 有用なライブラリ Science Parse (https://github.com/allenai/science-parse) • 論文のPDFをJSONに変換してくれるライブラリ • 本文はsection毎に分解してくれる • 引用のリストも作ってくれる
  • 28. 有用なライブラリ Deepfigures (https://github.com/allenai/deepfigures-open) • 論文のPDFから図表を抽出するプログラム • 出力はJSONにバウンディングボックスの座標として取得 • 各図表のキャプションも取得してくれる
  • 29. まとめ • オープンアクセスの論文増加,openreviewなどの新たなプ ラットフォームの誕生により解析対象となるデータが増加 • 近年あらたなデータセット構築+新タスクを提案する論文 が増えている • データの収集自体が大きなコントリビューションで技術は 既存のものを使うという研究も多い • AI2のように大量のデータを所持しているグループは強い →xpaperで何かできないか? • 現状は特定ドメイン(Bio系が多い印象)に特化しているので ドメインの違いをどう扱うか? • 一緒に研究してくれる人募集してます!