Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Survey of Scientific Publication Analysis by NLP and CV

1,205 views

Published on

第2回NLP/CV最先端勉強会(https://nlpaper-challenge.connpass.com/event/140625/)の発表資料です。

Published in: Engineering
  • Positions Available Now! We currently have several openings for writing workers. ◆◆◆ http://t.cn/AieXS5j0
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • accessibility Books Library allowing access to top content, including thousands of title from favorite author, plus the ability to read or download a huge selection of books for your pc or smartphone within minutes.........ACCESS WEBSITE Over for All Ebooks ..... (Unlimited) ......................................................................................................................... Download FULL PDF EBOOK here { http://bit.ly/2m6jJ5M } .........................................................................................................................
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • ..............ACCESS that WEBSITE Over for All Ebooks ................ ......................................................................................................................... DOWNLOAD FULL PDF EBOOK here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download Full EPUB Ebook here { http://bit.ly/2m6jJ5M } .........................................................................................................................
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • -- DOWNLOAD THIS BOOKS INTO AVAILABLE FORMAT -- ......................................................................................................................... ......................................................................................................................... Download FULL PDF EBOOK here { http://bit.ly/2m6jJ5M } ......................................................................................................................... (Unlimited)
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • If you want to download or read this book, copy link or url below in the New tab ......................................................................................................................... DOWNLOAD FULL PDF EBOOK here { https://urlzs.com/UABbn } .........................................................................................................................
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

Survey of Scientific Publication Analysis by NLP and CV

  1. 1. Survey of Scientific Publication Analysis by NLP and CV 早稲田大学 山本晋太郎
  2. 2. 自己紹介 山本晋太郎(Shintaro Yamamoto) cvpaper.challenge運営メンバー兼nlpaper.challenge立ち上げメンバー 経歴 • 2013.04—2017.03 早稲田大学先進理工学部 • 2017.04—2019.03 早稲田大学先進理工学研究科修士課程 • 2017.07—2017.09 University of California, Los Angeles, Summer School • 2019.04—現在 早稲田大学先進理工学研究科博士課程 研究テーマ NLPとCVによる論文のマルチモーダル要約 (元々画像系の研究をしていた+画像系の研究室所属なのでCVの方が得意)
  3. 3. 本発表の概要 情報科学分野での論文数の急増化 https://syncedreview.com/2019/05/17/acl-2019- reports-record-high-paper-submissions-begins- notifying-accepted-authors/ CV NLP
  4. 4. 本発表の概要 論文自体を研究対象としたWSやコンペ
  5. 5. 本発表の概要 NLPとCVの応用タスクとしての科学論文の解析研究の紹介 • DNNブームによって投稿数・採択数が急増化が発表者のモ チベーション • ACL AnthologyやCVFのようなオープンアクセス論文の増加や openreviewによる査読のオープン化による分析が可能 • NLPやCVにおける科学論文を対象とした様々な研究を1論文 1ページで紹介 • 1つのタスクに対して色々な手法を紹介ではなく幅広いタス クを取り上げる • 個々の論文に対する詳しい手法については説明しないので、 論文を参照 • 主に最近のもの(2016年以降)の研究を取り上げる
  6. 6. Structural Scaffolds for Citation Intent Classification in Scientific Publications Arman Cohan, Waleed Ammar, Madeleine van Zuylen, Field Cady NAACL 2019 • Background information/Method/Result comparisonの3つに分類 • 分類タスクに加えてsection title及び 引用の必要性を同時に推定するマル チタスク学習として扱う • 既存のACL-ARCデータセットが言語処 理のみ含むのに対し、コンピュータ サイエンス及び薬学論文を含む大規 模データセットSciCiteを提案 • ACL-ARCデータセット及び提案データ セット両方でSOTAを更新
  7. 7. • 論文の中身のみを用いた論文 推薦に関する研究 • 候補を選択するフェーズと候 補をランク付けするフェーズ の2つにより構築 • フェーズ1では,引用してい る論文同士が近くなるような タイトルとアブストラクトの embeddingを学習 • フェーズ2では,著者やキー ワードなどを追加してフェー ズ1で選ばれた候補をランク 付け Content-Based Citation Recommendation Chandra Bhagavatula, Sergey Feldman, Russel Power, Waleed Ammar NAACL 2018
  8. 8. ScisummNet: A Large Annotated Corpus and Content-Impact Models for Scientific Paper Summarization with Citation Networks Michihiro Yasunaga, Jungo Kasai, Rui Zhang, Alexander R. Fabbri, Irene Li, Dan Friedmann, Dragomir R. Radev AAAI 2019 • 論文のアブストラクトは主観的であ るという指摘の元,対象論文を引用 している論文を使って要約するアプ ローチが主流となっている • 一方でアブストにも有益な情報が含 まれているのではないか?というこ とでアブストラクト+引用情報を用 いた要約 • 既存のデータセットは小規模である ため,Computational Linguistic論文 1000本の新たな要約データセットを 構築
  9. 9. Learning to Generate Posters of Scientific Papers Yuting Qiang, Yanwei Fu, Yanwen Guo, Zhi-Hua Zhou, Leonid Sigal AAAI 2016 • 入力論文から(半)自動で論文のポスターを生成するという研究 • 文章はTextRankを用いて重要文を抽出,図に関してはユーザが手動で選 択する必要がある • 重要文とユーザ選択の図に関して,レイアウトの最適化問題を解く
  10. 10. TALKSUMM: A Dataset and Scalable Annotation Mehotd for Scientific Paper Summarization Based on Conference Talks Guy Lev, Michal Shumueli-Scheuer, Jonathan Herzig, Achiya Jerbi, David Konopnicki ACL 2019 • 論文要約タスクに対して,学会での プレゼンテーションを活用するとい う研究. • 話者の発言内容が論文中のどの文に 基づいているか対応付けすることで 要約を生成. • NLP(ACL, NAACL, EMNLP, SIGDIAL)及び ML(ICML)のプレゼン動画によるデー タセットを構築. • Yasunaga+ 2019よりも高いROUGEス コアを記録.
  11. 11. Modeling Scientific Incluence for Research Trending Topic Prediction Chengyao Chen, Zhitao Wang, Wenjie Li, Xu Sun AAAI 2018 • LSTM:NLP→CV,CNN:CV→NLPの ように他分野からの影響を考慮 したトレンド分析 • 会議毎にRNNのsequenceを考え, 2つの会議の状態を入力とする influence unitを導入 • AI系会議とData Mining系会議の2 つで実験(下表)
  12. 12. Paper Abstract Writing through Editing Mechanism Qingyun Wang, Zhihao Zhou, Lifu Huang, Spencer Whitehead, Boliang Zhang, Heng Ji, Kevin Knight ACL 2018 • 論文のタイトルを入力として, その論文のアブストラクトを自 動で生成するという一風変わっ た研究 • 初めにencoder-decoder構造で生 成し,その後Editing Networkで 改善していく • 論文の分野に詳しくない人は騙 せるらしい
  13. 13. PaperRobot: Incremental Draft Generation of Scientific Ideas Qingyun Wang, Lifu Huang, Zhiying Jiang, Kevin Knight, Heng Ji, Mohit Bansal, Yi Luan ACL 2019 • 過去の論文から知識グラフを構築 し,新たな研究アイデアを自動で 生み出す研究 • 研究アイデアのみならず,そこか らアブストラクトなど論文の一部 も自動で生成する • 10から30%の人が生成結果の方が 良いと回答
  14. 14. • 材料科学の論文330万本のアブストを 使ってword embeddingを学習 • 教師なし学習だが,各原子の特徴や 酸化など化学的概念の獲得に成功 Unsupervised word embeddings capture latent knowledge from materials science literature Vahe Tshitoyan, John Dagdelen, Leigh Weston, Alexander Dunn, Ziqin Rong, Olga Kononova, Kristin A. Persson, Gerbrand Ceder, Anubhav Jain nature 2019
  15. 15. • 論文からタスク,データセット,評価指標, 最高数値を抜き出すことでリーダーボード を作る研究 • NLP分野の論文で構成された2つのデータ セットを構築 Identification of Tasks, Datasets, Evaluation Metrics, and Numeric Scores for Scientific Leaderboards Construction Yufang Hou, Charles Jochim, Marting Gleize, Francesca Bonin and Debasis Ganguly ACL 2019
  16. 16. • Rhetorical component( 右 図 上 ) と Argumentative component(右図下)の関 係を明らかにするという研究 • 既存のRhetorical componentのラベル が つ い た デ ー タ セ ッ ト に 対 し て Argumentative componentラベルを付与 • 各ラベルを予測するマルチタスク学 習を実施.Rhetorical componentの予 測はArgumentative componentと同時に 行った方が精度が向上した(逆に関し ては向上せず). Investigating the Role of Argumentation in the Rhetorical Analysis of Scientific Publications with Neural Multi-Task Learning Models Anne Lauscher, Goran Glavas, Simone Paolo Ponzetto, Kai Eckert EMNLP 2018
  17. 17. • 一言で言うと論文で学習をしたBERT. Biomedical, Computer Scienceの2つの 分野の論文を使って学習. • 学習済みモデルはgithub上で公開さ れている.コード自体は通常のBERT のものを使うことができる. SCIBERT: Pretrained Contextualized Embeddings for Scientific Text Iz Beltagy, Arman Cohan, Kyle Lo arXiv 2019
  18. 18. A Dataset of Peer Reviews (PeerRead): Collection, Insights and NLP Applications Dongyeop Kang, Waleed Amaar, Bhavana Dalvi Mishra, Madeleine van Zuylen, Sebastian Kohlmeiser, Eduard Hovy, Roy Schwartz NAACL 2018 • Openreviewなど公開査読データ及び ACLの査読時における同意に基づいた データ収集 • 各査読項目と採択の相関や、会議毎 の違いなどを分析 • Accept/Rejectの予測と査読における 各項目のスコア予測の2つのNLPタス クを提案
  19. 19. Does My Rebuttal Matter? Insights from a Major NLP Conference Yang Gao, Steffen Eger, Ilia Kuznetsov, Iryna Gurevych, Yusuke Miyao NAACL 2019 • ACL2018の著者/査読者の同意を得て 4kのレビューと1.2kの著者による responseを含むcorpusを構築 • Rebuttal前後のスコア変動を予測する 手法を提案 • 他の査読者との間にスコアに差異が 存在する際が最も変動が起こる • 次に影響しやすいのはspecificityと politenessであった
  20. 20. Argument Mining for Understanding Peer Reviews Xinyu Hua, Mitko Nikolov, Nikhil Badugu, Lu Wang NAACL 2019 • 査読コメント中の議論に関する解析 を行った研究 • ICLR2018の査読コメント400本に対し て右表のラベルを付与したデータ セットを構築 • 査読コメントを分割し,各セグメン トのラベルを予測するモデルを学習. このモデルを用いて会議毎の違いを 分析(ACLは具体例を求めがちなど)
  21. 21. Extracting Scientific Figures with Distantly Supervised Neural Networks Noah Siegel, Nicholas Lourie, Russel Power, Waleed Ammar JCDL 2018 • 従来の物体検出アルゴリズムを用い て論文中の図表を検出する研究.PDF を画像として見て図表の位置を得る. • 550万ラベルのデータセットを構築し, 学習することでprecision96.8%を達成. • PDFを解析する手法よりも精度が高い
  22. 22. Learning to Extract Semantic Structure from Documents Using Multimodal Fully Convolutional Neural Networks Xiao Yang, Ersin Yumer, Paul Asente, Mike Kraley, Daniel Kifer, C. Lee Giles CVPR 2017 • 文章の図,表,セクション名,キャプション,箇条書き,段落の位置 推定をセマンティックセグメンテーションの問題として考える研究 • CNNに加えて,文章領域に関しては単語のembeddingを与える
  23. 23. FigureSeer: Parsing Result-Figures in Research Papers Noah Siegel, Zachary Horvitz, Roie Levin, Santosh Divvala, Ali Farhadi ECCV 2016 • 論文中のグラフ(散布図)から性能などに関する数値を自動で抽出する 手法を提案 • 学習済みAlexNetやResNetをファインチューニングし,図の種類の識別 (Flowchart, Scatterなど)を行う • グラフの軸や凡例情報を抜き出し,CNNによってグラフ上にプロット されているか否かを判定することで数値を認識する
  24. 24. DVQA: Understanding Data Visualizations via Question Answering Kushal Kafle, Brian Price, Scott Cohen, Christopher Kanan CVPR 2018 • 棒グラフが入力画像であるVQA • Matplotlibを用いることで学習データを大量に作ることを可能とした • Structure Understanding, Data Retrieval, Reasoningの3種類の質問を定義 • ネットワークはyes/noの回答及びOCRを用いた回答の2つから構成
  25. 25. DLPaper2Code: Auto-generation of Code from Deep Learning Research Papers Akshay Sethi, Anush Sankaran, Naveen Panwar, Shreya Khare, Senthil Mani AAAI 2018 • 論文中のネットワーク構造図からDNNのコードを自動生成する研究 • 論文から抽出した図表から,DNNのネットワークを表現しているもの か、どのタイプの図かを分類 • 論文中では1種類の図(2D Box)に対してのみコード生成手法を提案
  26. 26. 強い研究機関 Allen Institute for Artificial Intelligence (AI2) • NLPやCV中心にAIについて研究しているシアトルの研究所 • Semantic Scholarという,人工知能を搭載した学術検索エン ジンを運営している • Semantic Scholarに含まれている論文を100万本単位で学習 するという類の研究が多い • 研究成果はオープンソース化してgithub上に公開されてい るものが多い
  27. 27. 有用なライブラリ Science Parse (https://github.com/allenai/science-parse) • 論文のPDFをJSONに変換してくれるライブラリ • 本文はsection毎に分解してくれる • 引用のリストも作ってくれる
  28. 28. 有用なライブラリ Deepfigures (https://github.com/allenai/deepfigures-open) • 論文のPDFから図表を抽出するプログラム • 出力はJSONにバウンディングボックスの座標として取得 • 各図表のキャプションも取得してくれる
  29. 29. まとめ • オープンアクセスの論文増加,openreviewなどの新たなプ ラットフォームの誕生により解析対象となるデータが増加 • 近年あらたなデータセット構築+新タスクを提案する論文 が増えている • データの収集自体が大きなコントリビューションで技術は 既存のものを使うという研究も多い • AI2のように大量のデータを所持しているグループは強い →xpaperで何かできないか? • 現状は特定ドメイン(Bio系が多い印象)に特化しているので ドメインの違いをどう扱うか? • 一緒に研究してくれる人募集してます!

×