Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

研究室における研究・実装ノウハウの共有

8,762 views

Published on

言語処理学会第22回年次大会ワークショップ「論文に書かない(書けない)自然言語処理」

Published in: Engineering
  • Be the first to comment

研究室における研究・実装ノウハウの共有

  1. 1. 研究室における研究・ 実装ノウハウの共有 東北大学大学院情報科学研究科 岡崎 直観(okazaki@ecei.tohoku.ac.jp) http://www.chokkan.org/ @chokkanorg Special thanks: 横井くん,小林くん,折田さん,山口さん NLP2016 WS 岡崎直観 「研究室における研究・実装ノウハウの共有」 1 ※複数のスライドを統合したためスライド番号はバラバラです
  2. 2. 研究Tips @ 乾・岡崎研 総合研究会 NLP2016 WS 岡崎直観 「研究室における研究・実装ノウハウの共有」 http://www.cl.ecei.tohoku.ac.jp/index.php?Research%20Seminar 2
  3. 3. 横井 祥 研究Tips @総合研究会 2015/10/21 総合研究会
  4. 4. 2 梅棹忠夫『知的生産の技術』1969 > 知的生産というのは、頭をはたらかせて、なにかあたらしいことが ら−−情報−−を、ひとにわかるかたちで提出すること > 技術というものは、原則として没個性的である。だれでもが、順序 をふんで練習してゆけばかならず一定の水準に到達できる、という 性質をもっている。それは、客観的かつ普遍的で、公開可能なもの である > 研究とか勉強とかの精神活動は、しばしばもっとも個性的・個人的 ないとなみであって、普遍性がなく、公開不可能なものである、と いうかんがえかたがある > しかし、いろいろしらべてみると、みんなひじょうに個性的とおもっ ているけれど、精神の奥の院でおこなわれている儀式は、あんがい おなじようなものがおおいのである > この本で、わたしがかこうとしていることは、要するに、いかによ み、いかにかき、いかにかんがえるか、というようなことである
  5. 5. 3 研究Tips @総合研究会 ✦ 各人にとってすでに「常識」や「いつもの手順」となっている、 ごく小さな Tips が、誰か他の人の研究の質や研究のスピードを 跳ね上げるかもしれない ✦ ひとり5分程度(スライド3枚程度で十分) ✦ 手元の Tips を総合研究会でどんどんシェアしましょう!! • Qiita や Blog に小さなエントリを投稿するついでに… • Twitter に小さなノウハウを投稿するついでに… ✦ 学生も発表しましょう!! • 実際、この研究室で周りの学生から教えてもらった便利 Tips たくさんある
  6. 6. 今日の発表では,他人 のスライドを借り,研 究室で学生・スタッフ が発表した研究Tipsの ハイライトを短く紹介 NLP2016 WS 岡崎直観 「研究室における研究・実装ノウハウの共有」 3 (それぞれ一部だけしかご紹介出来ないのが残念です…)
  7. 7. 読むことと 記録すること 小林颯介 1
  8. 8. • 論文を書くことは 論文を読むことから. • 「よくある」を掴む 問題点に気づく 持論を補強する 新たに理解の壁を越える • 研究の方向決定がスムーズになる • 自然な拡張、自然な仮説、自然な検証 • パレートの法則を意識 時間の8割で 2割の論文を (精読) 時間の2割で 8割の論文を (乱読/速読) 1 論文を読む 2
  9. 9. • 論文の“まとめ”メモはなくてもいい派 • ワンポイントのひらめきメモで良い • 雑読は「引き出しを作る」よりも 「見たことある・当たり前 の感覚を 身につける」イメージ • けど論文のまとめは対外アピールにも? • かつてブログにまとめていたので PFIのインターン応募時にURL提出した (影響は不明) http://hytae.hatenablog.com/ • “Deep Learningの教材まとめ” も はてブ300越え 1 論文を記録する 3
  10. 10. 研究の進め方 2015 東北大学大学院情報科学研究科 岡崎 直観(okazaki@ecei.tohoku.ac.jp) http://www.chokkan.org/ @chokkanorg 2015-04-02 2015研究の進め方 1
  11. 11. 研究の基本形 • 以下全てに端的・明白に答える • ③目的: 研究を一言で説明すると? • ②新規性: なぜその研究が必要なのか? • ①背景: 実社会・NLP研究の中での位置付け • ④挑戦: 研究におけるチャレンジは何か? • ⑤鍵: 研究が上手くいく仕掛けは何か? • ⑥実証: ④と⑤の仮説を検証できたか? • ⑦知見: 研究で分かったことは何か? • ①~⑦の答えを並べるとイントロが完成 2015-04-02 2015研究の進め方 14
  12. 12. 実践例 (1/2) • ③目的: 研究を一言で説明すると? • 関係パタンの意味ベクトルを構成的に計算 • ②新規性: なぜその研究が必要なのか? • 関係パタンを「単語」とみなす従来手法では,統計量が不足 • 関係パタンもZipf則に従っているから • 関係パタンは単語の組み合わせなので,意味をなす関係パタンがロング テールに含まれるから • 学習データに現れない関係パタンの意味を計算できない • 語構成が似ている関係パタン同士であっても,意味ベクトルの学 習を独立にやるのは効率が悪そう • ①背景: 実社会・NLP研究の中での位置付け • 関係知識は推論などの知的な意味処理を行うために不可欠 • 関係の意味は関係パタンのベクトルでモデル化できる • Open IEでは関係パタンの意味ベクトルから同じ関係を表すパタン を集約したい • 弱教師あり学習(bootstrap)でも,シードの関係事例を結ぶ関係 パタンの意味を表す高品質なベクトルがほしい 2015-04-02 2015研究の進め方 15
  13. 13. 実践例 (2/2) • ④挑戦: 研究におけるチャレンジは何か? • 関係パタンの内容語が似ていても,意味が遠くなるこ とがあるため,ベクトルの平均では失敗する • ⑤鍵: 研究が上手くいく仕掛けは何か? • 関係パタンの意味の構成的な計算 • RNNに基づく動詞の意味のモデル化 • 教師なしの意味ベクトル学習(Skip-gramの拡張) • ⑥実証: ④と⑤の仮説を検証できたか? • 関係パタンの意味ベクトルを応用する3つのタスクで 提案手法の優位性を示した • ⑦知見: 研究で分かったことは何か? • 動詞のベクトルを闇雲に加算するのはダメ • RNNの行列により意味の変換がモデル化できた 2015-04-02 2015研究の進め方 16
  14. 14. 研究の構築プロセスは様々 • 実用志向型 • とりあえず: ③目的→⑥実証 • 後付けする: ②新規性→①背景→④挑戦→⑤鍵 • 先行研究追試型 • 流れ: ②新規性→④挑戦→⑤鍵→⑥実証→⑦知見 • ①背景はすでに先行研究が開拓済み • 仮説検証型 • 把握: ①背景, ②新規性, ③目的, ④挑戦, ⑤鍵 • ⑥実証の後,⑦知見をまとめる • 陥りやすい失敗 • 苦し紛れの言い訳になる(←日頃の議論が大切) • ④挑戦: トリビアルな問題・手法になってしまう • ⑥実証: 先行研究がタスクの鬼すぎて強い • ⑦知見: 結局何が分かったことになるのか不明 2015-04-02 2015研究の進め方 17
  15. 15. 研究プロセス再考 東北大学大学院情報科学研究科 岡崎 直観(okazaki@ecei.tohoku.ac.jp) http://www.chokkan.org/ @chokkanorg 2015-11-06 研究プロセス再考 1
  16. 16. 旧態依然の研究プロセス • 電子メールの乱用による情報共有 • プライベートなやり取りで有用な知識が死蔵 • 最近はSlackでマシになったが • Wikiを書いてくれない(確かに面倒くさい) • 盲目的なスライド愛 • 発表準備=スライド作成 • 綺麗なプレゼンでないとダメですか? 2015-11-06 研究プロセス再考 8
  17. 17. Bitbucket (& Issue Tracker) の活用 • バージョン管理 • 修正前のコード・論文を失わないために • 多人数での共同編集 • 締切直前に手分けして論文を書けるように • 情報交換・情報共有 • Qiita Teamの代替(無料)として • https://bitbucket.org/cl-tohoku/internal/wiki/ka/Home • 論文の修正 • GitとIssue Trackerの連携技 • 係・委員のお仕事の管理にも? 2015-11-06 研究プロセス再考 10
  18. 18. NLP2016 WS 岡崎直観 「研究室における研究・実装ノウハウの共有」 4
  19. 19. 留学漫談 総合研究会 Tips 2/18/16 折田 奈甫
  20. 20. 雑感 • アメリカの教員は⼀一⼈人につき5-‐‑‒6⼈人の⼤大学院⽣生を指導 する.10⼈人とか異異常. • どうやったら教員の指導を最⼤大に受けられるか,⼯工夫 が必要.他の教員や研究者も使うとよいと思う. • ラボ内の研究会的なもの:すり鉢でゴリゴリ • アメリカでは教員間で研究に関する議論論が盛ん.私の いたラボではランチルームで教員が議論論しまくる.
  21. 21. 名言集
  22. 22. 大学院(研究)は君の知らないゲームだ. 誰も君に本当のルールを教えない. でも君はこのゲームをどうにかやってくんだよ. –Advisor 2
  23. 23. その他のTips • 田: 戦うためのプログラミング • 佐々木: pandas, Seaborn, Bokehの紹介 • 高橋: Jupyter Notebook で生産性を加速させる Tips • 鈴木: 辞書の話 • 横井: 英語論文を書くときに便利なコロケーション 確認ツール • 松林: 研究の管理 • 水本: 初めてのNLP年次大会 • 水野: チャンスをつかむ方法 • 乾: 君たちは何のために研究するのか • 佐藤: 生きて行く上で悩んだら • 井之上: 学習者の質問で楽しく研究する NLP2016 WS 岡崎直観 「研究室における研究・実装ノウハウの共有」 7
  24. 24. NLP2016 WS 岡崎直観 「研究室における研究・実装ノウハウの共有」 http://www.cl.ecei.tohoku.ac.jp/nlp100/ 5
  25. 25. 言語処理100本ノックとは • 研究において普遍性の高い作法 • 研究テーマに依らず知っておくべきこと • 個別のアルゴリズム(DPやSGDなど)は除外 • 岡崎直観: 研究者流コーディングの極意 (NLP2013チュートリアル) • その作法を面白そうな題材(演習)で学ぶ • 「言葉遊び」等でひたすらググる(第1章) • 再配布できるデータ(2015年版より) NLP2016 WS 岡崎直観 「研究室における研究・実装ノウハウの共有」 6
  26. 26. ルーチン ⼭⼝健史 2016-02-24
  27. 27. 何かを実⾏する時の 意味のある⼀連のよい⾏動 というイメージが出てきた
  28. 28. ルーチンの定義 p ルーチンとは、⼀度だけ考え、 何度も実⾏するための⼿段である p  プログラマはとうの昔にこのことを理解しています p38で紹介されているこの定義がよい(と思う) n  エンジニアのための時間管理術 n  Thomas A. Limoncelli n  オライリー・ジャパン n  訳本初版 2006年10⽉
  29. 29. どれも⼩さなこと p それも当然 p ルーチンとは⼤げさな⼿順じゃない p 何度も何度も実⾏する必要があるので ひとつひとつが「⼩さなこと」になる
  30. 30. 研究Tipsのこと p 今までの研究Tipsにも⾊々なルーチンが登場 p 他の⼈が考えて何度も実⾏しているルーチンを知る p 研究Tipsを発表しあうことの価値はそこにある p ⼩さなこと、些細なことでも価値がある p  というかむしろ⾯⽩い
  31. 31. 研究Tips もっと続けましょう
  32. 32. 論文に書かない (書けない) 自然言語処理 もっと続けましょう

×