Successfully reported this slideshow.

再現性問題は若手研究者の突破口

9

Share

Loading in …3
×
1 of 106
1 of 106

再現性問題は若手研究者の突破口

9

Share

Download to read offline

Description

2020年9月9日に開催された日本心理学会第84回大会 大会企画シンポジウム 「若手が聞きたい再現可能性問題の現状とこれから」 での発表資料です。本番の増補版になってます。
-----
いくつか補足:
スライド14の「偽追試」という語は誤りで「偽反復」が正しいです。ここでの追試の文脈とは微妙に異なるためミスリーディングでもあります。すいません・・・
スライド96の枠で囲まれた部分(ランキング)は「日本の科学と技術」さん (http://scienceandtechnology.jp/archives/21533) からの引用です。編集のどこかでクレジットが外れていました。こちらもすいません・・・

Transcript

  1. 1. 山田祐樹 再現性問題は若手研究者の突破口 九州大学基幹教育院 2020年9月9日 日本心理学会第84回大会大会企画シンポジウム(若手の会企画シンポジウム) 「若手が聞きたい再現可能性問題の現状とこれから」
  2. 2. 山田について 趣味:香辛料集め,シリアル調合,犬触り 今年の目標: ・オンライン発表のとき睡眠客を1人でも減らす ・友達たくさんつくる 特技:特技がないこと 専門:認知心理学
  3. 3. 再現可能性問題について とにかく有名現象とかが再現できない ・パワーポーズ ・自我消耗効果 ・知性プライミング効果 ・「目」の効果 ・オキシトシン点鼻薬の信頼性効果 ・赤の魅力効果 ・マクベス効果 ・注意SNARC効果 と,一個一個挙げていくと日が暮れる感じになってるので省略します
  4. 4. 再現率39%騒動(Open Science Collaboration, 2015)
  5. 5. そもそも再現性って? 方法再現性: ・実験/統計プログラマー達が好きな再現性はこれ。第3者または後の自分に完全に同 じ実験や分析が可能かどうか。 ・Gitでバージョン管理しつつR Markdownがいいらしい(高橋, 2018) ・方法セクションの文字数を増やすだけでは再現性が担保されない場合もある。 ・ビデオ録画しか無いという意見(Ikeda et al., 2019)。実際に発達系はDatabraryを 活用してるし,Journal of Visualized Experimentsも使えるはず。 ・分析についても難しい。61人に同じデータを分析させても結果が揃わなかった。 (Silberzahn et al., 2018) 3つの再現性(Goodman, Fanelli, & Ioannidis, 2016)
  6. 6. そもそも再現性って? 推論再現性: ・同じ結果から同じ結論を下せるかという意味の再現性。 ・研究者の事前知識・信念が異なれば,事実としての結果を見たあとの見解も異なる。 ・さらにサイエンスコミュニケーションにおけるスピン(誇張)とも関連する。研究者 はしばしば結果から推論できる限界まで,あるいは限界を超えて,一般に成果を誇張し て伝えようとする。 3つの再現性(Goodman, Fanelli, & Ioannidis, 2016)
  7. 7. そもそも再現性って? 結果再現性: ・これがいわゆる一般的な「再現性」と呼ばれるものかもしれない。つまり,実験結 果が先行研究のものと一致するかどうか。 ・とりあえず結果再現性をここでは再現性と呼ぶとして,ではなぜそれが低いのか? ・何をもって低いと言えるのだろうか?低いと駄目なのだろうか? (今回はこの話はパス。ちなみに私は低いし駄目だと思ってます) 3つの再現性(Goodman, Fanelli, & Ioannidis, 2016)
  8. 8. 理想 現実 科学としての心理学は巨人の肩のように積み重ねられて来たつもりだったが, 乗っていたのは某バランス積み木だった ヤバイ
  9. 9. 再現性問題に関係あると思ってるものリスト ・追試 ・QRPs ・事前登録制度 ・雑誌 ・若手生存問題 ・統計(今回は省略) ・実験参加者(今回は省略) ・プレデタリ(今回は省略) ・サイエンスコミュニケーション(今回は省略)
  10. 10. 再現性問題に関係あると思ってるものリスト ・追試 ・QRPs ・事前登録制度 ・雑誌 ・若手生存問題 ・統計(今回は省略) ・実験参加者(今回は省略) ・プレデタリ(今回は省略) ・サイエンスコミュニケーション(今回は省略)
  11. 11. 追試
  12. 12. 全てはここから 追試 ・研究者によって比較的日常的に 行われている (その精度は問わず) ・直接的追試と概念的追試 ・直接的追試をしないと再現率な んかも分かったもんじゃない
  13. 13. 著名誌に掲載された100個の先行研究に対する約300名の研究者による 大規模なマルチラボ直接追試
  14. 14. 偽追試というのはかなり昔から生態学の分野とかで言われてきた ※デザインや実施がずさんなレプリケート実験を行うこと (Hurlbert, 1984) これをやってしまうと追試自体に意味がなくなるどころか有害である (金や研究対象の資源などの無駄,信頼性の低い知見の拡散) なので,直接的追試は非常に厳密な遂行が求められる。けっこうテクがいる。
  15. 15. 追試は三角測量である S everal studies across many fields estimate that only around 40% of published findings can be replicated reliably. Various funders and communities are promoting ways for independent teams to routinely replicate the findings of others. Theseeffortsarelaudable,butinsufficient. If a study is skewed and replications recapitulate that approach, findings will be consistently incorrect or biased. Consider a commonly used assay in which the pro- duction of a fluorescent protein is used to monitor cell activity. If the compounds used to manipulate cell activity are also fluores- cent, as has happened1 , reliably repeatable results will not yield robust conclusions. We have both spent much of our careers advocating ways to increase scientific cer- tainty. One of us (M.R.M.) participated in work by UK funding agencies to develop strategiesforreproduciblescience,andhelped to craft a manifesto for reproducibility2 . Butreplicationalonewillgetusonlysofar. In some cases, routine replication might Repeating experiments is not enough Verifying results requires disparate lines of evidence — a technique called triangulation. Marcus R. Munafò and George Davey Smith explain. ILLUSTRATIONBYDAVIDPARKINS 2 5 J A N U A R Y 2 0 1 8 | V O L 5 5 3 | N A T U R E | 3 9 9 (Munafò & Smith, 2018) ・1地点からだけの観測ではどうしても見え ない部分ができる ・2地点からなら(つまり複数人で違う方向 から見れば)見える。 ・追試は第三者の眼で自分の実験を眺めても らうための重要なプロセス
  16. 16. 全てはここから 追試 ・研究者によって比較的日常的に 行われている (その精度は問わず) ・直接的追試と概念的追試 ・直接的追試をしないと再現率な んかも分かったもんじゃない 大事かつ慎重に!
  17. 17. 2011年頃から風が吹き始めてきた Bem騒動 (1月) Feeling the Future: Experimental Evidence for Anomalous Retroactive Influences on Cognition and Affect Daryl J. Bem Cornell University The term psi denotes anomalous processes of information or energy transfer that are currently unex- plained in terms of known physical or biological mechanisms. Two variants of psi are precognition (conscious cognitive awareness) and premonition (affective apprehension) of a future event that could not otherwise be anticipated through any known inferential process. Precognition and premonition are themselves special cases of a more general phenomenon: the anomalous retroactive influence of some f i di id l’ h h h i Photograph by Shannon Taggart 再現できない Stapel騒動 (8月) by Joris Buijs Gordijn, E.H., & Stapel, D.A. (2006). Behavioural effects of automatic interpersonal versus intergroup social comparison. British Journal of Social Psychology, 45, 717-729. Joly, J.F., & Stapel, D.A. (2009). Staff, miter, book, share: How attributes of Saint Nicholas induce normative behavior. European Journal of Social Psychology, 39, 145-153. Joly, J.F., Stapel, D.A., & Lindenberg, S.M. (2008). Silence and table manners: When environments activate norms. Personality and Social Psychology Bulletin, 34, 1047-1056. Lindenberg, S.M., Joly, J.F., & Stapel, D.A. (2011). The norm-activating power of celebrity: The dynamics of success and influence. Social Psychology Quarterly, 74, 98-120. Maringer, M., & Stapel, D.A. (2007). Unfinished business: How completeness affects the impact of emotional states and emotion concepts on social judgments. Journal of Experimental Social Psychology, 43, 712-718. Maringer, M., & Stapel, D.A. (2009). Correction or comparison? The effects of prime awareness on social judgments. European Journal of Social Psychology, 39, 719-733. Marx, D.M., & Stapel, D.A. (2006). Distinguishing stereotype threat from priming effects: On the role of the social self and threat-based concerns. Journal of Personality and Social Psychology, 91, 243-254. Marx, D.M., & Stapel, D.A. (2006). It’s all in the timing: Measuring emotional reactions to stereotype threat before and after taking a test. European Journal of Social Psychology, 36, 687-698. Renkema, L.J., Stapel, D.A., Maringer, M., & Van Yperen, N.W. (2008). Terror management and stereotyping: Why do people stereotype when mortality is salient? Personality and Social Psychology Bulletin, 34, 553-564. … 58本撤回
  18. 18. 院の授業で学生さん方がめっちゃがんばって追試研 究をやってきました Ojiro, Y., Gobara, A., Nam, G., Sasaki, K., Kishimoto, R., Yamada, Y., & Miura, K. (2015). Two replications of "Hierarchical encoding makes individuals in a group seem more attractive (2014; Experiment 4)”. The Quantitative Methods for Psychology, 11, r8-r11. Kishimoto, R., Sasaki, K., Gobara, A., Ojiro, Y., Nam, G., Miura, K., & Yamada, Y. (2016). When a silhouette appears male: Observer’s own physical fitness governs social categorization of sexually ambiguous stimuli. Letters on Evolutionary Behavioral Science, 7, 17-20. Chaya, K., Xue, Y., Uto, Y., Yao, Q., & Yamada, Y. (2016). Fear of eyes: Triadic relation among social anxiety, trypophobia, and discomfort for eye cluster. PeerJ, 4:e1942. Yonemitsu, F., Sung, Y., Naka, K., Yamada, Y., & Marmolejo-Ramos, F. (2017). Does weight lifting improve visual acuity? A replication of Gonzalo-Fonrodona and Porras (2013). BMC Research Notes, 10:362. Nitta, H., Tomita, H., Zhang, Y., Zhou, X., & Yamada, Y. (2018). Disgust and the rubber hand illusion: A registered replication report of Jalal, Krishnakumar, and Ramachandran (2015). Cognitive Research: Principles and Implications, 3:15.
  19. 19. しかし・・・ 約1年10ヶ月(660日) 約1年1ヶ月(397日) 約1年(360日) 平均で525日間(約1年6ヶ月)もかかってる Ojiro, Y., Gobara, A., Nam, G., Sasaki, K., Kishimoto, R., Yamada, Y., & Miura, K. (2015). Two replications of "Hierarchical encoding makes individuals in a group seem more attractive (2014; Experiment 4)”. The Quantitative Methods for Psychology, 11, r8-r11. Kishimoto, R., Sasaki, K., Gobara, A., Ojiro, Y., Nam, G., Miura, K., & Yamada, Y. (2016). When a silhouette appears male: Observer’s own physical fitness governs social categorization of sexually ambiguous stimuli. Letters on Evolutionary Behavioral Science, 7, 17-20. Chaya, K., Xue, Y., Uto, Y., Yao, Q., & Yamada, Y. (2016). Fear of eyes: Triadic relation among social anxiety, trypophobia, and discomfort for eye cluster. PeerJ, 4:e1942. Yonemitsu, F., Sung, Y., Naka, K., Yamada, Y., & Marmolejo-Ramos, F. (2017). Does weight lifting improve visual acuity? A replication of Gonzalo-Fonrodona and Porras (2013). BMC Research Notes, 10:362. Nitta, H., Tomita, H., Zhang, Y., Zhou, X., & Yamada, Y. (2018). Disgust and the rubber hand illusion: A registered replication report of Jalal, Krishnakumar, and Ramachandran (2015). Cognitive Research: Principles and Implications, 3:15. 約1年4ヶ月(476日) 約2年(734日) ※ちなみに授業追試はあと2つあるけど継続中・・・
  20. 20. 大規模追試プロジェクトも増えてきた https://doi.org/10.1177/2515245918810225 Advances in Methods and Practices in Psychological Science 2018, Vol. 1(4) 443–490 © The Author(s) 2018 Article reuse guidelines: sagepub.com/journals-permissions DOI: 10.1177/2515245918810225 www.psychologicalscience.org/AMPPS ASSOCIATION FOR PSYCHOLOGICAL SCIENCERegistered Replication Report 810225AMPXXX10.1177/2515245918810225Klein et al.Many Labs 2 rch-article2018 Many Labs 2: Investigating Variation in Replicability Across Samples and Settings Richard A. Klein1 , Michelangelo Vianello2 , Fred Hasselman3,4 , Byron G. Adams5,6 , Reginald B. Adams, Jr.7 , Sinan Alper8 , Mark Aveyard9 , Jordan R. Axt10 , Mayowa T. Babalola11 , Šteˇpán Bahník12 , Rishtee Batra13 , Mihály Berkics14 , Michael J. Bernstein15 , Daniel R. Berry16 , Olga Bialobrzeska17 , Evans Dami Binan18 , Konrad Bocian19 , Mark J. Brandt5 , Robert Busching20 , Anna Cabak Rédei21 , Huajian Cai22 , Fanny Cambier23,24 , Katarzyna Cantarero25 , Cheryl L. Carmichael26 , Francisco Ceric27,28 , Jesse Chandler29,30 , Jen-Ho Chang31,32 , Armand Chatard33,34 , Eva E. Chen35 , Winnee Cheong36 , David C. Cicero37 , Sharon Coen38 , Jennifer A. Coleman39 , Brian Collisson40 , Morgan A. Conway41 , Katherine S. Corker42 , Paul G. Curran42 , Fiery Cushman43 , Zubairu K. Dagona18 , Ilker Dalgar44 , Anna Dalla Rosa2 , William E. Davis45 , Maaike de Bruijn5 , Leander De Schutter46 , Thierry Devos47 , Marieke de Vries3,48,49 , Canay Dog˘ulu50 , Nerisa Dozo51 , Kristin Nicole Dukes52 , Yarrow Dunham53 , Kevin Durrheim54 , Charles R. Ebersole55 , John E. Edlund56 , Anja Eller57 , Alexander Scott English58 , Carolyn Finck59 , Natalia Frankowska17 , Miguel-Ángel Freyre57 , Mike Friedman23,24 , Elisa Maria Galliani60 , Joshua C. Gandi18 , Tanuka Ghoshal61 , Steffen R. Giessner62 , Tripat Gill63 , Timo Gnambs64,65 , Ángel Gómez66 , Roberto González67 , Jesse Graham68 , Jon E. Grahe69 , Ivan Grahek70 , Eva G. T. Green71 , Kakul Hai72 , Matthew Haigh73 , Elizabeth L. Haines74 , Michael P. Hall75 , Marie E. Heffernan76 , Joshua A. Hicks77 , Petr Houdek78 , Jeffrey R. Huntsinger79 , Ho Phi Huynh80 , Hans IJzerman1 , Yoel Inbar81 , Åse H. Innes-Ker82 , William Jiménez-Leal59 , Melissa-Sue John83 , Jennifer A. Joy-Gaba39 , Roza G. Kamilog˘lu84 , Heather Barry Kappes85 , Serdar Karabati86 , Haruna Karick17,18 , Victor N. Keller87 , Anna Kende88 , Nicolas Kervyn23,24 , Goran Kneževic´89 , Carrie Kovacs90 , Lacy E. Krueger91 , German Kurapov92 , Jamie Kurtz93 , Daniël Lakens94 , Ljiljana B. Lazarevic´95 , Carmel A. Levitan96 , Neil A. Lewis, Jr.97 , Samuel Lins98 , Nikolette P. Lipsey41 , Joy E. Losee41 , Esther Maassen99 , Angela T. Maitner9 , Winfrida Malingumu100 , Robyn K. Mallett79 , Satia A. Marotta101 , Janko Med–edovic´102,103 , Fernando Mena-Pacheco104 , Taciano L. Milfont105 , Wendy L. Morris106 , Sean C. Murphy107 , Andriy Myachykov73 , Nick Neave73 , Koen Neijenhuijs108,109 , ←これでも著者半分しか表示されてない ・hidden moderatorsと呼ばれる,未観 測/未統制の変数のせいで追試がうま くいかないんだ!と元著者がよく言う のですが,それ関係なかったよという お役立ち研究。 ・再現率は今回50%を超えていた。 効果量は小さかったけど。
  21. 21. 山田が参加中の大規模追試 Many Smiles project ・顔面フィードバック仮説 の徹底的検証 ・原著者のStrackも参加 ・コロナのせいで再査読 1 A Multi-Lab Test of the Facial Feedback Hypothesis by The Many Smiles Collaboration Accepted in-principle at Nature Human Behaviour Corresponding author: Nicholas A. Coles (colesn@utk.edu), Department of Psychology, University of Tennessee, Knoxville, USA *Nicholas Coles1 , David March2 , Fernando Marmolejo Ramos3 , Arinze Nwadiogo4 , Izuchukwu Ndukaihe4 , Asil Ali Özdoğru5 , Balazs Aczel6 , Nandor Hajdu6 , Tamas Nagy6 , Bidisha Som7 , Dana Basnight-Brown8 , Danilo Zambrano9 , Daniela Serrato Alvarez9 , Francesco Foroni10 , Megan Willis10 , Gerit Pfuhl11 , Gwenael Kaminski12, 13 , Tracy Ehrengarth12 , Hans IJzerman14 , Kevin Vezirian14 , Hassan Banaruee15 , Omid Kathin-Zadeh15 , Isabel Suarez16 , Jeff T. Larsen1 , José Antonio Hinojosa Poveda17 , Cristina Villalba-García17 , Krystian Barzykowski18 , Michal Parzuchowski19 , Aneta Marczak19 , Natalia Trujillo20 , Sandra Trujillo20 , Natalie Butcher21 , Daniel Eaves21 , Nikolay Dagaev22 , Elena Gorbunova22 , Niv Reggev23 , Pascal Gygax24 , Sarah Pressman25 , John Hunter25 , Miranda Pinks25 , Ian Waldrop25 , Susana Ruiz-Fernandez26 , Yuki Yamada27 , Ayumi Ikeda27 , Fritz Strack28 , Lowell Gaertner1 , Phoebe Ellsworth29 , Marco Marozzi30 , Marco Tullio Liuzza31 1 Department of Psychology, University of Tennessee, Knoxville, United States of America 2 Department of Psychology, Florida State University, United States of America 3 School of Psychology, University of Adelaide, Australia
  22. 22. 山田が参加中の大規模追試 Crowdsourced Replication Initiative ・もともとはドイツの学会のイベント ・研究者クラウドソーシングで,ある 研究の分析の追試を各自で行う ・著者は200人くらい ・分野が社会調査なので山田はリアル ガチでシーキビだった The Crowdsourced Replication Initiative: Investigating Immigration and Social Policy Preferences using Meta-Science ‹ Executive Report › Principal Investigators: Nate Breznau, University of Bremen breznau.nate@gmail.com Eike Mark Rinke, University of Leeds E.M.Rinke@leeds.ac.uk Alexander Wuttke, University of Mannheim alexander.wuttke@uni-mannheim.de Research Participant Co-Authors: Muna Adem, Jule Adriaans, Amalia Alvarez-Benjumea, Henrik Andersen, Daniel Auer, Flavio Azevedo, Oke Bahnsen, Dave Balzer, Paul Bauer, Gerrit Bauer, Markus Baumann, Sharon Baute, Verena Benoit, Julian Bernauer, Carl Berning, Anna Berthold, Felix S. Bethke, Thomas Biegert, Katharina Blinzler, Johannes N. Blumenberg, Licia Bobzien, Andrea Bohman, Thijs Bol, Amie Bostic, Zuzanna Brzozowska, Katharina Burgdorf, Kaspar Burger, Kathrin Busch, Juan Castillo, Nathan Chan, Pablo Christmann, Roxanne Connelly, Christian Czymara, Elena Damian, Alejandro Ecker, Achim Edelmann, Maureen A. Eger, Simon Ellerbrock, Anna Forke, Andrea Forster, Chris Gaasendam, Konstantin Gavras, Vernon Gayle, Theresa Gessler, Timo Gnambs, Amélie Godefroidt, Alexander Greinert, Max Grömping, Martin Groß, Stefan Gruber, Tobias Gummer, Andreas Hadjar, Jan Paul Heisig, Sebastian Hellmeier, Stefanie Heyne, Magdalena Hirsch, Mikael Hjerm, Oshrat Hochman, Jan H. Höffler, Andreas Hövermann, Sophia Hunger, Christian Hunkler, Nora Huth, Zsofia Ignacz, Laura Jacobs, Jannes Jacobsen, Bastian Jaeger, Sebastian Jungkunz, Nils Jungmann, Mathias Kauff, Dennis Kleinert, Julia Klinger, Jan-Philipp Kolb, Marta Kołczyńska, John Kuk, Katharina Kunißen, Dafina Kurti, Philipp Lersch, Lea-Maria Löbel, Philipp Lutscher, Matthias Mader, Joan Madia, Natalia Malancu, Luis Maldonado, Helge Marahrens, Nicole Martin, Paul Martinez, Jochen Mayerl, Oscar J. Mayorga, Patricia McManus, Kyle McWagner, Cecil Meeusen, Daniel Meierrieks, Jonathan Mellon, Friedolin Merhout, Samuel Merk, Daniel Meyer, Jonathan Mijs, Cristobal Moya, Marcel Neunhoeffer, Daniel Nüst, Olav Nygård, Fabian Ochsenfeld, Gunnar Otte, Anna
  23. 23. 山田が参加中の大規模追試 SCORE ・ご覧の通り,DARPAが出資したCOSのプロジェクト。そのせいで軍事研究じゃないかと 疑われ,九大のトップ会議にまで話がいってしまって大変だった。 ・全世界で700人くらい参加してるらしい ・大量の研究を追試しつつ,それを評価するAIを作るらしい。
  24. 24. 山田が参加中の大規模追試 Psychological Science Accelerator ・73カ国以上,1021人くらいの有志で追試しまくり。 ・6つの通常プロジェクトとコロナ特別企画がそれぞれ良好に進んでいて山田も参加。 ・一つのプロジェクトが最近Nature Human Behaviourにアクセプト(山田非参加) などなど・・・他にもコロナのプロジェクト4つくらいに参加中
  25. 25. 疑問 Q.じゃあ追試って,1人でやってもだめなの? A.いいえ。確かに,マルチラボを奨励する人は多い。しかし1人でやって も結果を報告してコミュニティで集めていけば意味がある(蓄積科学)。 まずはAcceleratorやStudySwapなどに単騎駆けしてみるのも一興。
  26. 26. 疑問 Q.ガチの追試って,めちゃめちゃきつくない? A.はい。1stオーサーは本当にきつい。多国間マルチラボ追試を主導して 国際誌に掲載されたらそれのみで博士の学位出していいんじゃないかと 思うくらい研究者に必要とされる全ての能力が試される。 だから修行にピッタリ。
  27. 27. 疑問 Q.いやでも・・・誰がやるの?義務じゃないし。 A.はい。現在やる人が少なすぎます。一案としては,追試専門の研究者 になれるようにする (Romero, 2018)。つまり確証部隊と発見部隊の分業 です。そのためにはインセンティブ構造の整理が必要。
  28. 28. 追試についての現状とまとめと展望 ・心理学界としては超大事。そこは疑いない。 ・マルチラボの主導はなかなか苦労が大きい。 ・大事できっつい割には評価がゼロである。 ー 追試は通常の研究と比べてレベルが低く価値のないものとみなされる。理由は新規性が ないから。仮説検証が非常に重視され,新規な仮説と一致した結果に至上の価値が置かれ る(Yamada, 2018)。仮説と一致しない結果はゴミであり隠すべきで,新規でない結果は 報告に値しないと考えられる。これが出版バイアスを引き起こす。たとえ追試でも。 ・つまりインセンティブとコストのバランスが完全に崩壊している。 ・何を追試すべきかわからないのでトリアージが望まれる。Plaudit が使える?
  29. 29. 再現性問題に関係あると思ってるものリスト ・追試 ・QRPs ・事前登録制度 ・雑誌 ・若手生存問題 ・統計(今回は省略) ・実験参加者(今回は省略) ・プレデタリ(今回は省略) ・サイエンスコミュニケーション(今回は省略)
  30. 30. QRPs
  31. 31. 今のところ不正だとまでは言われないけど,あたかも研究が成功した ように見せかける手段がたくさんある。 →もちろんこれで偽陽性率が半端なく上がる。 →そのせいで再現性は下がる。 問題のある研究営為 (Questionable Research Practices; QRPs) ・直接追試(結果再現)が失敗しまくるのは,主に元研究のQRPsが 原因ではないかと言われる事が多い。 ・QRPsは他人をだまくらかす意図が無くても知らず識らずにやってし まっていることがあり,怖い。
  32. 32. p-hackingとp-slacking pハッキング (e.g., John et al., 2012) いろんなやり方でp値をできるだけ低くすること
  33. 33. p-hackingとp-slacking TODA RADIO #002より N増し
  34. 34. ARTICLE Regulation of REM and Non-REM Sleep by Periaqueductal GABAergic Neurons Franz Weber1,3, Johnny Phong Hoang Do1, Shinjae Chung1,3, Kevin T. Beier2, Mike Bikov1, Mohammad Saffari Doost1 & Yang Dan 1 DOI: 10.1038/s41467-017-02765-w OPEN NATURE COMMUNICATIONS | (2018)9:354 |DOI: 10.1038/s41467-017-02765-w |www.nature.com/naturecommunications 1 Sample sizes. For optogenetic activation experiments, cell-type-specific ablation experiments, and in vivo recordings (optrode recordings and calcium imaging), we continuously increased the number of animals until statistical significance was reached to support our conclusions. For rabies-mediated and anterograde tracing experiments, the selection of the sample size was based on numbers reported in previous studies. For optrode recordings, we first recorded a preliminary data set of six units from two mice. Based on analysis of this data set and given the success rate in finding identified GABAergic units, we predicted that about 20 units are sufficient to statistically support our conclusions. 「ぼくたちの結論を支持するような有意差が出るまで動物の数を 増やしていきました」
  35. 35. p-hackingとp-slacking pハッキング (e.g., John et al., 2012) いろんなやり方でp値をできるだけ低くすること pスラッキング (e.g., Smits, 2014 on Twitter; Bryan et al., 2019; Chuard et al., 2019) いろんなやり方でp値をできるだけ高くすること 最初の報告者は有意に見せたいからpハッキングし,追試者は 「それが再現できなかった」と報告するためにpスラッキングす る。結局,研究意図に応じてp値を密かに誤魔化していることに 変わりはない
  36. 36. v-hackingとv-ignorance vハッキング 妥当性のハッキング。尺度研究で多く発生する。妥当性や信頼性の検証を いろんなやり方で行って,報告するのは良かったやつだけ。 vイグノランス 「先行研究でこれを構成概念妥当性の検証に使ってたから」その尺度 を使うとかの考えなしの尺度使用,等 どちらの研究営為も,過度に尺度の妥当性をインフレさせる。 これらは極めて広く蔓延しているし,意図してない人が多い。 (Hussey & Hughes, 2019)
  37. 37. HARKing (Hypothesizing After the Results are Known) 仮説の事後生成 結果を知った後に仮説を作り直し,はじめからその結果を予測していたよ うに見せかける行為。これをやると研究者は全ての未来の結果を的中しま くる預言者だということになってしまう。もちろん事実はそうではない。 (Kerr, 1998; Rubin, 2017)
  38. 38. TODA RADIO #002より HARKing (Hypothesizing After the Results are Known) 仮説の事後生成 (Kerr, 1998; Rubin, 2017)
  39. 39. Which Article Should You Write? There are two possible articles you can write: (a) the article you planned to write when you designed your study or (b) the article that makes the most sense now that you have seen the results. They are rarely the same, and the correct answer is (b). 「正しい論文は,結果を見たあとのいま,最もつじつまが合う ように書かれたものである」 ベムの教え (Bem, 2004) Photograph by Shannon Taggart
  40. 40. HARKing (Hypothesizing After the Results are Known) 仮説の事後生成 実は3種類あるといわれている (Kerr, 1998; Rubin, 2017) CHARKing(constructing hypotheses after the results are known) 結果がわかった後に仮説生成。Kerr的に純粋なHARKingのこと。 RHARKing(retrieving hypotheses after the results are known) 結果がわかった後に先行研究が提示した有用そうな仮説を検索すること。 SHARKing(suppressing hypotheses after the results are known) 結果がわかった後にヤバイ仮説は考えてなかったことにすること。 HARKingは特に発覚しづらい上にストーリーを美しく見せるのに 大変効果的である。仮説検証は全く行なってないから帰無仮説有意性 検定すること自体が不適切だし,追試しても再現されない。
  41. 41. チェリーピッキング 自分に都合のいい情報を選択的に報告することにより,研究の見せかけの 美しさを高める行為。古くから知られている↓(Greenwald et a., 1986) ※ここで言われてたのは,自分の理論にとって都合の良い結果が出るまで微妙に方法を変えながら 実験を繰り返しベストな結果を探す行為。後述の実験リセマラでもある。
  42. 42. TODA RADIO #002より チェリーピッキング
  43. 43. QRPsについての現状 ・防ぐ手段が構築されつつある。方法論系の中でたぶん最も議論が 進んでいる分野 ・これまではやりたい放題だったし,今でも明るみにならないもの はいっぱいある ・研究不正との境目をはっきりさせていく必要がある ・再現性を低下させる主要な理由 ・以前は正しいやり方として教育されていたものもある。
  44. 44. 再現性問題に関係あると思ってるものリスト ・追試 ・QRPs ・事前登録制度 ・雑誌 ・若手生存問題 ・統計(今回は省略) ・実験参加者(今回は省略) ・プレデタリ(今回は省略) ・サイエンスコミュニケーション(今回は省略)
  45. 45. 事前登録制度
  46. 46. 追試が大事とかQRPsがヤバイとかは分かった。 もういい。 とにかく,じゃあどうすりゃいいのかと ↑ 事前登録制度! (pre-registration; プレレジ)
  47. 47. 原稿 論文投稿 実験 解析 学術誌
  48. 48. 原稿 論文投稿 実験 解析 学術誌 これがなんか いかんのでは?
  49. 49. The preregistration revolution Brian A. Noseka,b,1 , Charles R. Ebersoleb , Alexander C. DeHavena , and David T. Mellora a Center for Open Science, Charlottesville, VA 22903; and b Department of Psychology, University of Virginia, Charlottesville, VA 22904 Edited by Richard M. Shiffrin, Indiana University, Bloomington, IN, and approved August 28, 2017 (received for review June 15, 2017) Progress in science relies in part on generating hypotheses with existing observations and testing hypotheses with new observations. This distinction between postdiction and prediction is appreciated conceptually but is not respected in practice. Mistaking generation of postdictions with testing of predictions reduces the credibility of research findings. However, ordinary biases in human reasoning, overconfidence in post hoc explanations (postdictions) and inflate the likelihood of believing that there is evidence for a finding when there is not. Presenting postdictions as predictions can increase the attractiveness and publishability of findings by falsely reducing uncertainty. Ultimately, this decreases reproducibility (6–11). M t l C t i t Di ti i hi P di ti d COL P プレレジ革命(Nosek et al., 2018) データとる前にやることを登録しておき,その通りやる (事前登録)
  50. 50. 原稿 プレレジ 実験 解析 学術誌 もう1回! どっかに登録
  51. 51. The preregistration revolution Brian A. Noseka,b,1 , Charles R. Ebersoleb , Alexander C. DeHavena , and David T. Mellora a Center for Open Science, Charlottesville, VA 22903; and b Department of Psychology, University of Virginia, Charlottesville, VA 22904 Edited by Richard M. Shiffrin, Indiana University, Bloomington, IN, and approved August 28, 2017 (received for review June 15, 2017) Progress in science relies in part on generating hypotheses with existing observations and testing hypotheses with new observations. This distinction between postdiction and prediction is appreciated conceptually but is not respected in practice. Mistaking generation of postdictions with testing of predictions reduces the credibility of research findings. However, ordinary biases in human reasoning, overconfidence in post hoc explanations (postdictions) and inflate the likelihood of believing that there is evidence for a finding when there is not. Presenting postdictions as predictions can increase the attractiveness and publishability of findings by falsely reducing uncertainty. Ultimately, this decreases reproducibility (6–11). M t l C t i t Di ti i hi P di ti d COL P プレレジ革命(Nosek et al., 2018) これでいくつかのQRPs問題への対策はバッチリ データとる前にやることを登録しておき,その通りやる 特にHARKingの抑止力は強力。 実験前に仮説を登録させるので事後生成できない。
  52. 52. 査読付き事前登録 (registered reports; レジレポ) ・最初っから雑誌に登録したら早くね? ・そのときついでに査読もしてもらったら確実じゃね?
  53. 53. 原稿 レジレポ 実験 解析 学術誌 もう1回!
  54. 54. 査読付き事前登録 (registered reports; レジレポ) ・2020年9月時点で260以上の学術誌がレジレポ制度を導入!!! ・Stage 1の査読を通過したらin principle acceptance (IPA)となり,原則 的に結果の如何を問わず掲載が約束される。 ・査読は2回やることになる。確かに面倒だが,Stage 2の査読はよほど 無茶苦茶な考察をしたり,方法が登録内容を逸脱しまくったりしなけれ ばたいていすぐ終わる(はず。多分)。 ・p値おかまいなしで掲載されるのでpハッキングの必要性が消える!
  55. 55. オープンサイエンス プレレジも,レジレポも,研究者の実験周りを可視化しようとする制度。 なのでオープンデータやオープンマテリアルがたいてい同時に要求され る。GitHubなんかでソースの共有も求められる(た)。 プレプリントの公開もやっと心理学で実施されるようになってきた。 ちなみに山田絡みのプレプリントは今のところ27本。 でもこれらを国内でやってる人はまだ少ない。特にエグゼクティブ クラスの方々の導入率は低い気がする。若手(ECRs)はがんばろう。
  56. 56. プレレジのQRPs さてそんなプレレジ関係だが,これも現状クラックできる。 PARKing (Preregistering After the Results are Known): 事後事前登録 つまり結果を見た後にプレレジ。プレレジでQRPsを行なっていないよ うに見せかけつつ良い結果を報告しようとする行為。 OPINION published: 26 September 2018 doi: 10.3389/fpsyg.2018.01831 How to Crack Pre-registration: Toward Transparent and Open Science Yuki Yamada* Faculty of Arts and Science, Kyushu University, Fukuoka, Japan Keywords: QRP, misconduct in research, academic publishing, preregistration, open science The reproducibility problem that exists in various academic fields has been discussed in recent years, and it has been revealed that scientists discreetly engage in several questionable research
  57. 57. プレレジのQRPs さてそんなプレレジ関係だが,これも現状クラックできる。 Overissuing : 乱れ撃ち 複数の似たようなプレレジをいろんなサイトに登録。良かった結果の 実験のプレレジだけ報告。 Crack of prereg? Easy to patch? Overissuing Is prereg effective? Fake ethics statement Fictitious references P-hacking HARKing Cherry picking Rerolling Selective reporting PARKing Related to hypothesis testing? Yes Yes Yes Yes No No No No Selective reporting
  58. 58. プレレジのQRPs さてそんなプレレジ関係だが,これも現状クラックできる。 Re-experimenting, Rerolling: 実験リセマラ 自分に都合のいい結果が出るまで実験を仕切り直す(データを取り直す)。 現在のところ防止不可能な最強のQRP。 Crack of prereg? Easy to patch? Overissuing Is prereg effective? Fake ethics statement Fictitious references P-hacking HARKing Cherry picking Rerolling Selective reporting PARKing Related to hypothesis testing? Yes Yes Yes Yes No No No No Selective reporting
  59. 59. プレレジのQRPs PARKingと乱れ撃ちは,プレレジ時に「まだデータを取ってません」 「他に酷似したプレレジはしてません」と宣言させることで,不正化す ることができる。不正扱いになるリスクを抱えてまでやるやつは少ない はず。 問題は実験リセマラで,これはどうしようもない。公開実験しか思いつ かないが,マルチラボでやれば1ラボのQRPの影響は小さくできる。追試 で再現されなかったら結局唾棄されるし,そういう文化にしていくのが 良いと思う(つまり載せたらそこで勝ち確みたいなのはもう駄目)
  60. 60. プレレジについての現状 ・普及率は高まってきた。だけど日本はぱそけん1誌のみ。しかも投 稿数ゼロらしい。(今はざくざくあるのかも!) ・なんと,プレレジした追試の中で計画を逸脱しなかった研究の数は ゼロ!!!(Claesen et al., 2019) プレレジ実験ほんとに難しいんです ・QRPsを防止するために超重要だが,それ自体が新QRPsの餌食に
  61. 61. プレレジについての現状 ←Chris Chambersの調査 ほぼ若手しかレジレポやって ない。教授は4%・・・ ・今後は倫理審査と同じくプレレジが必須となるだろうが,一方で まだ業績のない若手はこれにより業績達成がスローダウンする可能 性があり,不平等に感じるかもしれない。これは何か対策すべき。 ・普及しようとするとうざがられる。
  62. 62. 再現性問題に関係あると思ってるものリスト ・追試 ・QRPs ・事前登録制度 ・雑誌 ・若手生存問題 ・統計(今回は省略) ・実験参加者(今回は省略) ・プレデタリ(今回は省略) ・サイエンスコミュニケーション(今回は省略)
  63. 63. 雑誌
  64. 64. 原稿 実験 解析 学術誌
  65. 65. 学術誌 査読 プレプリント オープンアクセス 投稿数 質 プレレジ これまでの伝統
  66. 66. 問題のある編集実践 (Questionable Editorial Practices; QEPs) (Cooke, & Lapointe, 2012) 熱心すぎるスクリーニング 査読後に雑誌との一致性を理由にリジェクト いつまで経っても査読者をつかまえられない デシジョンの不必要なドラマ化 論文をちゃんと読まない 論文に過度に干渉したり編集放棄したり 査読者に依存して自分でものを考えない 定型文使いすぎ
  67. 67. みんな(主にSさんが),怒ってます ・ある論文へのコメンタリを投稿したら,それを元著者と共有されたあげくリジェ クトされた (Rivera, 2009) ・主張の対立するエディターに扱われた論文が,査読者6人つけられ,10ラウンドの 査読,4回の追加実験の末,3人アクセプト出したのにエディターの意見に合わない からとリジェクトされた。結局ジャーナルに苦情を言ってエディター変わったらア クセプトされた。投稿から実に4年半後のことだった (Sasaki, Ihaya et al., 2017)。 ・リバイズに誠実に対応したのに「客観的な誤りがある」の一言でリジェクト (Sasaki, Ono et al., 2017) このようなQEPsは出版を阻害するだけでなく研究者育成にも悪影響しか ないし,QRPsまで誘引する。
  68. 68. (Frontiers Science News, 2016) 査読 学術論文のクオリティコントロールを行う唯一無二 の手段(とされている) 1831年にProceedings of the Royal Societyで始めら れ,現在も科学界で中心的な役割 たいてい査読者はブラインドされるので,権威相手 でも自由な批判が保証される 現在では,Frontiersなどで論文内容と研究者のマッ チングを自動で行い,示唆するシステムができてる
  69. 69. 査読不正 査読者偽装 (Email Spoofing; なりすましメール法) フリーメールのメールアドレスを実在の研究者のものと間違いやすいようにして作 成し,査読を自分に回すよう示唆してアクセプトさせる手法が横行。バレてリジェ クトされても別の雑誌に次々回せばどこかで気づかれずにアクセプトさせられる。 共通の通報場所が無いため発覚しにくい (Dadkhah et al., 2017)。
  70. 70. 査読不正 賄賂 (bribes) 投稿時にエディターに「迅速で,成功裏の」原稿の処遇を依頼し,同時に金銭の提 供を持ちかける(多くは1000ドル強)。Retraction WatchやCOPEにしばしば報告 されている。 とまあ,ここまで露骨でなくとも,エディターに 電話していろいろ交渉するとか(うちの学生の学位 のためにどうのこうのとか)の話は昔からいろんな ところで聞く(むしろ成功譚として聞く) Medical journal editors expect authors to disclose conflicts of interest—but don’t disclose their own (Galvis, 2019, Science) COIを明確にするのが大事
  71. 71. 対策 トリプルブラインド査読 査読者はもちろんエディターすらも著者が分からない査読でバイアスを排除する。 Mattersで2018年から導入。QEPsのうち,著者への不誠意な態度に関するものは減 る可能性がある。 オープン査読 査読コメントが全文公開される。PeerJ,Collabra,F1000Researchなどで積極的に 取り入れられた。査読者は嘲笑的・高圧的な文言を使わなくなり,QRPsを勧めるこ ともしなくなる可能性がある。 クラウド査読 100人くらいの査読者で一気にがーっと査読する。多様な観点から問題点がチェック される。Synlettで始められた。1人の査読者のおかしな判定の影響力は下がる。
  72. 72. 対策 マイクロパブリッシング (Yamada, 2020) もうプロトコルを決めてしまって行うような実験の場合はイントロやら考察やらを 長々書かなくてもいいんじゃないか。それをやるからHARKingしたりするんだろ, ということで,方法と結果の必要最低限を書くタイプの論文が出始めている(心理 学では無い・・・PerceptionのShort & Sweetがある意味それかも?) 1Psychological Micro Reports No relation between vertical-valence metaphor and height: An empirical answer to Liu, Zhu, and Wang (2019) Kyoshiro Sasaki1,2,3 and Yuki Yamada2 1Waseda University , 2Kyushu University, and 3Japan Society for the Promotion of Science
 DESCRIPTION We conducted a survey based on the idea of Liu, Zhu, and Wang (2019). They hypothesized that the association between vertical space and emotional valence (up = positive, down = negative; vertical-valence metaphor; e.g., Meier & Robinson, 2004) would interact with people’s height. They predicted that this association would be weaker in taller people than in shorter people. We conducted a word rating task (Marmolejo-Ramos, Elosúa, Yamada, Hamm, & Noguchi, 2013) in online. In this task, subjects rated the words ‘‘up’’ and ‘‘down’’ on a Likert scale ranging from 1 (very negative) to 9 (very positive). We also asked them their height. The subjects were assigned to taller and shorter groups, respectively, according to their height. Moreover, we computed a metaphor effect by subtracting the score of down from that of up. We performed a two-tailed t-test on the metaphor effect between the taller and smaller group. As a result, there was no significant difference between the groups (t(207) = 0.37, p = .71, Cohen’s d = 0.05). This result did not support the idea of Liu et al. (2019). There were some differences in the protocol between the previous study and the proposal of Liu et al. (2019). First, we conducted online survey via crowdsourcing instead of laboratory experiment. Crowdsourcing is helpful for collecting large amount of data from various people (e.g., Sasaki, Ihaya, & Yamada, 2017; Yamada, 2015) and we used this for collecting the data from people with various height. Second, we conducted the rating task (Marmolejo-Ramos et al., 2013) instead of a Bob task (e.g., Casasanto, 2009) because the rating task was more easily conducted in the online survey than the Bob task. Third, our sample size was greatly larger than the planned sample size of Experiment 2 of Liu et al. (2019). The data of online survey is more easily contaminated by various noise (e.g., satisficing; Chandler, Mueller, & Paolacci, 2014) compared with laboratory experiments (Sasaki & Yamada, 2019) and thus we collected the data from larger sample size for controlling noise. Finally, we assigned the subjects to the taller and shorter groups based on the first and third quartiles, while Liu et al. (2019) planned to use the average height of American adult male (i.e., 69.3 inches) and female (63.7 inches). This is because we collected the data from people with various ages and the average height should be different to some extent among ages, while Liu et al. (2019) planned to collect the data from university students within a narrow rage of age. We disclose the constraints on generality for this survey. The subjects were collected via Japanese crowdsourcing. Thus, nationality was not general. The task was only the rating task; it is unclear whether the similar results will be obtained when the task is different. METHOD Subjects We recruited 500 people via Yahoo! Crowdsourcing and 479 subjects participated in the survey. We inserted two attention check questions (ACQs) for detecting satisficers (Oppenheimer, Meyvis & Davidenko, 2009). We excluded Results of the survey. Error bars denote standard errors of the mean. 0.0 0.5 1.0 1.5 2.0 Taller Shorter Metaphoreffect 2Psychological Micro Reports the data of 24 subjects because their answers to the ACQs were wrong. After excluding the data based on the answer to the ACQs, we assigned the subjects to two groups (taller and shorter groups). Those whose heights were over the third quartile (68.1 inches) within all the subjects’ height were assigned to the taller group (n = 103). On the other hand, the subjects were assigned to the smaller group (n = 106) when their heights were under the first quartile (63.8 inches). We submitted these data of the two groups for statistical analyses. The subjects were fully informed about survey ethics and were not forced to participate in the survey. They got 22 T-points as reward. Stimuli The Kanjis meaning “up” and “down” were used in the survey. Moreover, we presented two subtractions (i.e., “74 - 47” and “36 -19”) as the ACQs. Procedure The subjects rated the words ‘‘up’’ and ‘‘down’’ on a Likert scale ranging from 1 (very negative) to 9 (very positive) with the following instruction: “Assuming that the following words can have a valence that ranges from ‘very negative’ to ‘very positive’, what valence would you give to each word?”. They also answered to the ACQs and reported their height. DATAAVAILABILITY The data used in the present study can be available at https:// osf.io/3dpwu/. FUNDING The present study supported by JSPS KAKENHI #17J05236 to KS. AUTHOR CONTRIBUTIONS Kyoshiro Sasaki: Data curation, Formal Analysis, Visualization, Writing – original draft Yuki Yamada: Writing – review & editing CONFLICT OF INTERESTS The authors declare no competing interests. ACKNOWLEDGMENTS We would like to thank the Japanese Community for Open and Reproducible Science (JCORS) for enhancing the motivation to prepare this manuscript. REVIEWED BY Nobody HISTORY Received: December 15, 2019 Accepted: December 15, 2019 Published: December 15, 2019 REFERENCES Casasanto, D. (2009). Embodiment of abstract concepts: good and bad in right- and left-handers. Journal of Experimental Psychology: General, 138, 351–367. Chandler, J., Mueller, P., & Paolacci, G. (2014). Nonnaïveté among Amazon Mechanical Turk workers: consequences and solutions for behavioral researchers. Behavior Research Methods, 46, 112– 130. Liu, X., Zhu, R., & Wang, N. (2019). Effect of Height on Peoples Body Specific Representation and Association between Valence and Space. Psychology, 10, 1353–1360. Marmolejo-Ramos, F., Elosúa, M. R., Yamada, Y., Hamm, N., & Noguchi, K. (2013). Appraisal of space words and allocation of emotion words in bodily space. PLOS ONE, 8(12): e81688. Meier, B. P., & Robinson, M. D. (2004). Why the sunny side is up: Association between affect and vertical position. Psychological Science, 15, 243–247. Oppenheimer, D. M., Meyvis, T., & Davidenko, N. (2009). Instructional manipulation checks: detecting satisficing to increase statistical power. Journal of Experimental Social Psychology, 45, 867–872 Sasaki, K., Ihaya, K., & Yamada, Y. (2017). Avoidance of novelty contributes to the uncanny valley. Frontiers in Psychology, 8:1792. Sasaki, K., & Yamada, Y. (2019). Crowdsourcing visual perception experiments: A case of contrast threshold. PeerJ. 7:e8339 https://doi.org/10.7717/peerj.8339 Yamada, Y. (2015). Gender and age differences in visual perception of pattern randomness. Science Postprint, 1(2):e00041. COPYRIGHT © 2019 by the author. This is an open-access article distributed under the terms of the Creative Commons Attribution 4.0 International (CC BY 4.0) License, which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited. CITATION Sasaki, K., & Yamada, Y. (2019). No relation between vertical-valence metaphor and height: An empirical answer to Liu, Zhu, and Wang (2019). Psychological Micro Reports, e0003. DOI: doi.org/10.31234/osf.io/gra6s Sasaki & Yamada (2019) Psychological Micro Reports リンク
  73. 73. 対策 プレプリント 査読してから出版だとSasaki et al. (2017)の例みたいに無駄に実験何回もさせられて 4年半とかかかったりするので,査読前に公開できるようにしたらいいんじゃないか という考えでできた(arXivが1991年)。 プレプリントで公開されると出版時のインパクトが減ると言って学術誌側はこれを 査読に回すことに慎重だったが,最近はけっこう受け入れてきている。 ←arXivの例 Hypothesisとかのコメント サービスを使って査読も市井 の研究者に勝手にさせればい いんではという議論もある
  74. 74. 対策 著者による査読の制御 eLife誌は,エディターが査読者に回した時点で事実上のアクセプト扱いとし,査読 者のコメントに対して対応は要求するものの,従わない場合は従わない理由を明言 してそのまま掲載させるオプションを導入した (Patterson & Schekman, 2018)。 これにより少数の変な査読者に命綱を握られるようなことはなくなった。 しかし一方でエディターのパワーがさらに増すことになる。諸刃の剣でもあるので 現在運用テスト中。
  75. 75. 対策 分業 British Journal of Anaesthesia誌は,総合考察だけを別の研究者に書かせるスタイル を導入した。これは結果の恣意的な解釈や誇張(スピン)など推論再現性が低いことを 補償しようとする試み。結果の前後での分業と等しい。 イントロ ↓ 方法 ↓ 結果 ↓ 考察 (元著者) ↓ 考察 (研究者A) ↓ 考察 (研究者B)・・・
  76. 76. 対策 分業 逆にアイデアジャーナルという,実験前までしか書かない論文の雑誌もある。こち らも少しずつ流行ってきている。
  77. 77. 対策 分業 CortexにExploratory Reportsというフォーマットが爆誕した。これはデータマイニン グ,モデリング,仮説生成などのビッグデータやレアケースとかを使った超探索的な 研究を扱う (McIntosh, 2017)。(PLOS BiologyのDiscovery Reportsも似てる) プレレジプレレジって,探索科学のやつらはどうすんだよ!問題への一つの回答。 p値とかできるだけ使うなと言っている。HARKingするくらいなら正直にこっち出せ やと言ってる。プレレジとは別にQRPsをする必要性を消していて面白い。 マルチラボ考察,アイデアジャーナル,Exploratory Reportsなどを組み合わせる ことで,確証部隊と発見部隊の分業という形が雑誌をまたいで実現できる ↑もし1つのジャーナルの中でこれがシステマティックにできれば超熱いと思う
  78. 78. 対策 出版後査読 (Ikeda, Yamada, & Takahashi, 2020) 既に出版された論文に対し,誰でも自由に査読を行い,エディターの承認を得られた らジャーナルにコメントとして掲載される方式を提案。 コメントがDOI付きで引用可能な形でジャーナルに載るため,インセンティブが確保 される。(これまでコメ欄やブログですごいの書いてた人たちに大チャンス) 「載せて勝ち逃げ」方式を完全に破壊する最強の矛
  79. 79. 雑誌についての現状 国内誌でもレジレポくらいは選択制で導入してもいいのでは ・論文投稿にまつわるquestionableなできごとが無数に存在する。 雑誌側も認識していて,システム的に解消しようとしている。 ・雑誌は今まさに大きな変革期にあり,どう舵取るかで独自性が生 まれている。eLife,Cortexはいろんな実験的なことをしてる。
  80. 80. 再現性問題に関係あると思ってるものリスト ・追試 ・QRPs ・事前登録制度 ・雑誌 ・若手生存問題 ・統計(今回は省略) ・実験参加者(今回は省略) ・プレデタリ(今回は省略) ・サイエンスコミュニケーション(今回は省略)
  81. 81. 若手生存問題
  82. 82. シーキビな若手の現状 ・奨学金は借金 (Yamada, 2019) ・研究室はブラック(かも) ・業績プレッシャー ・SNSではみんな華々しい話ばかり ・たとえ学振もらっても同世代より安い そりゃあQRPsに手を染める 考えも浮かぶこともある
  83. 83. ネイチャー編集長も やばいてゆってる!
  84. 84. いろんな研究者の体験談を参考に? ・確実に生存バイアス ほとんどの成功譚はあまり意味を持たないばかりか,こっち が無駄に凹んで行動できなくなるという場合には害にもなる ・科学者のくせにこういうときは統制条件/ネガコンとの 比較という発想がないのはなぜ!? ・科学者のくせにこういうときは外れ値みたいなデータだけ 見て結論を下そうとするのはなぜ!? ・そのお話,本当ですか?(虚偽記憶,ポストディクション等)
  85. 85. マタイ効果 「富める者はますます富む」 (Bol et al., 2018; Marton, 1968)
  86. 86. マタイ効果 「富める者はますます富む」 (Bol et al., 2018; Marton, 1968) 050100150200250300350 AveragecumulativefundingfromNWOandERC(kEuro) 0 1 2 3 4 5 6 7 8 Year since early grant competition Ranks −1/−2 Ranks −3/−4 Ranks −5/−6 Ranks +1/+2 Ranks +3/+4 Ranks +5/+6 Fig. 3. Accumulation of grant money by early career grant applicants. Shown is the cumulative amount of funding received in NWO and ERC competitions (vertical axis) as a function of the number of years elapsed since the early career grant competition (horizontal axis). This relationship is shown for different ranks above (green, +) and below (red, −) the early career funding threshold. 初期に金もらった研究者 初期に金もらえなかった研究者 はじめから浮いてな いと負け続ける。 麻雀と一緒。 勝つ者には牌が勝手 に集まってくる
  87. 87. マタイ効果 「富める者はますます富む」
  88. 88. マタイ効果 「富める者はますます富む」
  89. 89. シャペロン効果 (Sekara et al., 2018) ハイインパクトジャーナルには,そこに載せた経験のある 有名PI(シャペロン)と一緒じゃないと載れない しかも年々その傾向が強まってきている。もちろん, (悲しいことに)そんなPIは国内心理系に多くない。 海外有名ラボに留学すれば有資格者にはなれる。しかし学振 がないとそれもなかなか。
  90. 90. 研究者生存曲線 (Milojevic et al., 2018) 半数の研究者はデビュー後5年で論文を出さなくなる・・・ 0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 Percentageremaininginthefield Years since entering field Survival of cohorts: Ecology 2006 19911996 2001 1986 1981 2010 0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 Percentageremaininginthefield Years since entering field Survival of cohorts: Astronomy 2006 1991 1996 2001 1986 1981 2010 0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 Percentageremaininginthefield Years since entering field Survival of cohorts: RoboƟcs 2006 1991 1996 2001 1986 2010 0 5 10 15 20 25 30 35 40 45 1950 1960 1970 1980 1990 2000 2010 2020 Half-life(years) Cohort year Half-life of cohorts Astronomy Ecology RoboƟcs A C B D 逆に言えば,最初の論文から5年ですべてが決まる? ただこれは,学位のため に最初の5年間は論文を 出しやすい状態だったと かの可能性もある。
  91. 91. クラウドファンディング 金ないなら研究費くらいはこれで稼げばいいとよく言われる 小口でもいいから不特定多数の人々に出資してもらい,研究 費に割り当てる でも見た目が面白いテーマや有名人が有利になりマタイ効果を 強め,国がカネを出さない口実も作ってしまうかなあとも。 (やること自体は応援するが,慣習化するのは微妙)
  92. 92. 若手問題についての現状 ・国内心理系若手を救わなければならない。自己責任ではない。 ・研究者評価自体を変える必要がある。インパクトファクターとか 本数で評価すると,そのとき流行りのトピック次第で生き死にが決 まってしまうことになる。 ・しかもプレレジやらをやれとか山田とかに言われて,研究ペース が抑えられてるように感じる(んだろうなあ・・・)。 ・さらに,インパクトファクターは,作れる (有賀, 2016)。 ある雑誌のパク値をたった1本の論文で1.2から3.585まで上げた。 じゃあその1本の論文が出る前後で掲載されてる他の論文は何か変 わったのだろうか?こんなもので生死が決まるのは余りに理不尽。
  93. 93. 再現性問題に関係あると思ってるものリスト ・追試 ・QRPs ・事前登録制度 ・雑誌 ・若手生存問題 ・統計(今回は省略) ・実験参加者(今回は省略) ・プレデタリ(省略してたけどおまけ) ・サイエンスコミュニケーション(今回は省略)
  94. 94. プレデタリ
  95. 95. プレデタリジャーナル いらすとやマジで 品揃えすごすぎ 高速査読・出版保証をウリにして,査読を事実上行わずに掲載させ 掲載料を得ようとする営利目的”査読"雑誌 低質な論文を多く出回らせ科学を汚し,研究者に査読誌掲載を詐 称させて評価者を欺き,公金を詐取する点で最悪の存在 前節のようにひどい状況にいる若手が悲しくもこれに手を染めてし まうことがたびたびある
  96. 96. プレデタリジャーナル 悲しくてつらくてせつなくて・・・ 圧倒的
  97. 97. Beall's list コロラド大学デンバー校の司書であったBeallが独自に作ったプレ デタリジャーナルのリスト。 Frontiersに攻撃されて閉鎖し辞職した。でも有志がデータベースを 使って復活させ,リストを拡張しながら運営中。 だいたいはこのリストで確認しながら投稿先を決めるのが良い。 絶対視する必要はないが,これに載ってる雑誌,これに載ってすら いない雑誌などは慎重になった方がいい。
  98. 98. プレデタリ学会 プレデタリジャーナルの国際学会版。こちらの方が手軽なのでよけ いにタチが悪い。狙いは莫大な参加費。 ←この図だと発表と書いてあるが,発表も無い, 学会の開催すらされないパターンも多い 国際学会発表2回で査読論文1本分として扱って学位認定できること になっている研究科などは,即刻やめた方がいい。学位が買えるの と同じことになる。
  99. 99. プレデタリについての現状 ・どれを信じればいいのか?プレプリントとの違いは何か? ・血税を使って見かけの業績を増やす行為は研究不正として処罰さ れるべき? ・プレデタリジャーナル以外のパターンも今度もっと増えそう。プ レデタリ調査会社とか
  100. 100. 結論など
  101. 101. ・すべての悪さは研究者の自由度(裁量権)が大きいことに集 約できる。これを制限し,オープンにし,あるいは研究に無関 係にすることが重要。 ・裁量権は多重性と関係する。この多重性の操作を秘密裏に行 うことで研究レースに勝とうとする。 例えば,ガチャを大人買いで多数回ドローしまくったくせに, まるで1回しかドローしてないように見せかけている。
  102. 102. ・同時にたくさんの同一の実験を走らせたり,たくさんの変数 をぶちこんだり,シミュレーション時に多数の同じ計算を同時 に回したり等は,報告されないため不顕的多重性と呼ばれる。 (Berry, 2007, 2012) プレレジ:裁量権を1つに絞り多重性を解消する オープンサイエンス:これらを「隠せなくする」 レジレポ:多重的行為を行う必要性を無くす マルチラボ追試:多重性を多人数でオープンに増大させることで     バイアスの影響を低下させる
  103. 103. ・カルチャー自体を変えていくしか無いけどすぐにはむずいだ ろう。エグゼクティブクラスはどうしても保守的になるため。 ・今後は結果そのものではなく,研究者の自由度を考慮しつつ 提出された結果を見ることになる。自由度が大きなままでいく ら画期的な発見を繰り返しても,その評価は「保留」。 ・自由度を自分でできるだけ下げることで結果が信頼性を持つ。 そういった自由度補正が大きい,信頼できる研究実践を続ける研 究者を高評価していくカルチャーが望まれる。信頼できないよう な「新規性」は滅ぼす。
  104. 104. ECRsのみなさまへ 再現性問題についての研究をみなさんも一緒に やってみてはいかがでしょうか? (思ってるより手間はかからないはず。きっと。多分。) 再現性問題で確実に既存の価値観や序列は崩れます。そこ を狙えます。 Good Research Practicesだとなんか優等生ぽかったり, なんで自分たちだけが感があったりするだろうから, State-of-the-art Research Practices (最先端の研究営為) を修得すると考えてはどうでしょう 完
  105. 105. 事前のすり合わせで出た話 横光先生:若手の若手による若手のための新雑誌が作れないか? ・日本心理学会若手の会による新雑誌「PeerJJ」構想 ・査読者に報酬 ・迅速査読 面白い試みだと思います。雑誌名は怒られる可能性もありますが,思想 は今の若手には望ましい方向性なのでは。以下欲しいもの。 ・レジレポオプションを導入 ・アクションエディター制 ・マイクロパブリケーションのセクション ・オピニオンのセクション (短い意見論文を出せる国内誌が非常に少ない) 完(リアル)
  106. 106. 本番では意味ないので削除してますが,今回の話に関連する私の文献です。 ご参考までに。全てオープンアクセスのリンク付きです: ・山田祐樹 (2016). 認知心理学における再現可能性の認知心理学 心理学評論, 59(1), 15-29. ・Yamada, Y. (2018). How to crack pre-registration: Toward transparent and open science. Frontiers in Psychology, 9:1831. ・山田祐樹 (2018). こころの測り方「自由を棄てて透明な心理学を掴む」 心理学ワールド 83, 34-35. ・山田祐樹 (2018). 再現可能性問題をハックする ―是非に及ばぬ研究コミュニティからの包囲網― ヒューマンインタフェース学会誌, 20(1), 17-22. ・佐々木恭志郎・米満文哉・山田祐樹 (2019). 利き手側の良さ ―事前登録されたCasasanto (2009) の直接的追試― 心理学評論, 62(3), 262-271. ・Ikeda, A., Xu, H., Fuji, N., Zhu, S., & Yamada, Y. (2019). Questionable research practices following pre-registration. Japanese Psychological Review, 62(3), 281-295. ・山田祐樹 (2019). 未来はごく一部の人達の手の中 ―研究者評価の歪みがもたらす心理学界全体の歪み― 心理学評論, 62(3), 296-303. ・Yamada, Y. (2019). Publish but perish regardless in Japan. Nature Human Behaviour, 3, 1035. ・佐々木恭志郎・山田祐樹 (2020). 実験心理学者も快適に論文投稿したい 認知心理学会テクニカルレポート, COGPSY-TR-007, 1-6. ・Ikeda, K., Yamada, Y., & Takahashi, K. (2020, May 26). Post-publication peer review for real. PsyArXiv. https://doi.org/10.31234/osf.io/sp3j5. ・Sasaki, K., & Yamada, Y. (2020, July 8). The pandemic threatens the Registered Reports system as well as human lives. PsyArXiv. https://doi.org/10.31234/osf.io/6wdaz. ・Yamada, Y. (2020). Micropublishing during and after the COVID-19 era. Collabra: Psychology, 6(1), 36.

Description

2020年9月9日に開催された日本心理学会第84回大会 大会企画シンポジウム 「若手が聞きたい再現可能性問題の現状とこれから」 での発表資料です。本番の増補版になってます。
-----
いくつか補足:
スライド14の「偽追試」という語は誤りで「偽反復」が正しいです。ここでの追試の文脈とは微妙に異なるためミスリーディングでもあります。すいません・・・
スライド96の枠で囲まれた部分(ランキング)は「日本の科学と技術」さん (http://scienceandtechnology.jp/archives/21533) からの引用です。編集のどこかでクレジットが外れていました。こちらもすいません・・・

Transcript

  1. 1. 山田祐樹 再現性問題は若手研究者の突破口 九州大学基幹教育院 2020年9月9日 日本心理学会第84回大会大会企画シンポジウム(若手の会企画シンポジウム) 「若手が聞きたい再現可能性問題の現状とこれから」
  2. 2. 山田について 趣味:香辛料集め,シリアル調合,犬触り 今年の目標: ・オンライン発表のとき睡眠客を1人でも減らす ・友達たくさんつくる 特技:特技がないこと 専門:認知心理学
  3. 3. 再現可能性問題について とにかく有名現象とかが再現できない ・パワーポーズ ・自我消耗効果 ・知性プライミング効果 ・「目」の効果 ・オキシトシン点鼻薬の信頼性効果 ・赤の魅力効果 ・マクベス効果 ・注意SNARC効果 と,一個一個挙げていくと日が暮れる感じになってるので省略します
  4. 4. 再現率39%騒動(Open Science Collaboration, 2015)
  5. 5. そもそも再現性って? 方法再現性: ・実験/統計プログラマー達が好きな再現性はこれ。第3者または後の自分に完全に同 じ実験や分析が可能かどうか。 ・Gitでバージョン管理しつつR Markdownがいいらしい(高橋, 2018) ・方法セクションの文字数を増やすだけでは再現性が担保されない場合もある。 ・ビデオ録画しか無いという意見(Ikeda et al., 2019)。実際に発達系はDatabraryを 活用してるし,Journal of Visualized Experimentsも使えるはず。 ・分析についても難しい。61人に同じデータを分析させても結果が揃わなかった。 (Silberzahn et al., 2018) 3つの再現性(Goodman, Fanelli, & Ioannidis, 2016)
  6. 6. そもそも再現性って? 推論再現性: ・同じ結果から同じ結論を下せるかという意味の再現性。 ・研究者の事前知識・信念が異なれば,事実としての結果を見たあとの見解も異なる。 ・さらにサイエンスコミュニケーションにおけるスピン(誇張)とも関連する。研究者 はしばしば結果から推論できる限界まで,あるいは限界を超えて,一般に成果を誇張し て伝えようとする。 3つの再現性(Goodman, Fanelli, & Ioannidis, 2016)
  7. 7. そもそも再現性って? 結果再現性: ・これがいわゆる一般的な「再現性」と呼ばれるものかもしれない。つまり,実験結 果が先行研究のものと一致するかどうか。 ・とりあえず結果再現性をここでは再現性と呼ぶとして,ではなぜそれが低いのか? ・何をもって低いと言えるのだろうか?低いと駄目なのだろうか? (今回はこの話はパス。ちなみに私は低いし駄目だと思ってます) 3つの再現性(Goodman, Fanelli, & Ioannidis, 2016)
  8. 8. 理想 現実 科学としての心理学は巨人の肩のように積み重ねられて来たつもりだったが, 乗っていたのは某バランス積み木だった ヤバイ
  9. 9. 再現性問題に関係あると思ってるものリスト ・追試 ・QRPs ・事前登録制度 ・雑誌 ・若手生存問題 ・統計(今回は省略) ・実験参加者(今回は省略) ・プレデタリ(今回は省略) ・サイエンスコミュニケーション(今回は省略)
  10. 10. 再現性問題に関係あると思ってるものリスト ・追試 ・QRPs ・事前登録制度 ・雑誌 ・若手生存問題 ・統計(今回は省略) ・実験参加者(今回は省略) ・プレデタリ(今回は省略) ・サイエンスコミュニケーション(今回は省略)
  11. 11. 追試
  12. 12. 全てはここから 追試 ・研究者によって比較的日常的に 行われている (その精度は問わず) ・直接的追試と概念的追試 ・直接的追試をしないと再現率な んかも分かったもんじゃない
  13. 13. 著名誌に掲載された100個の先行研究に対する約300名の研究者による 大規模なマルチラボ直接追試
  14. 14. 偽追試というのはかなり昔から生態学の分野とかで言われてきた ※デザインや実施がずさんなレプリケート実験を行うこと (Hurlbert, 1984) これをやってしまうと追試自体に意味がなくなるどころか有害である (金や研究対象の資源などの無駄,信頼性の低い知見の拡散) なので,直接的追試は非常に厳密な遂行が求められる。けっこうテクがいる。
  15. 15. 追試は三角測量である S everal studies across many fields estimate that only around 40% of published findings can be replicated reliably. Various funders and communities are promoting ways for independent teams to routinely replicate the findings of others. Theseeffortsarelaudable,butinsufficient. If a study is skewed and replications recapitulate that approach, findings will be consistently incorrect or biased. Consider a commonly used assay in which the pro- duction of a fluorescent protein is used to monitor cell activity. If the compounds used to manipulate cell activity are also fluores- cent, as has happened1 , reliably repeatable results will not yield robust conclusions. We have both spent much of our careers advocating ways to increase scientific cer- tainty. One of us (M.R.M.) participated in work by UK funding agencies to develop strategiesforreproduciblescience,andhelped to craft a manifesto for reproducibility2 . Butreplicationalonewillgetusonlysofar. In some cases, routine replication might Repeating experiments is not enough Verifying results requires disparate lines of evidence — a technique called triangulation. Marcus R. Munafò and George Davey Smith explain. ILLUSTRATIONBYDAVIDPARKINS 2 5 J A N U A R Y 2 0 1 8 | V O L 5 5 3 | N A T U R E | 3 9 9 (Munafò & Smith, 2018) ・1地点からだけの観測ではどうしても見え ない部分ができる ・2地点からなら(つまり複数人で違う方向 から見れば)見える。 ・追試は第三者の眼で自分の実験を眺めても らうための重要なプロセス
  16. 16. 全てはここから 追試 ・研究者によって比較的日常的に 行われている (その精度は問わず) ・直接的追試と概念的追試 ・直接的追試をしないと再現率な んかも分かったもんじゃない 大事かつ慎重に!
  17. 17. 2011年頃から風が吹き始めてきた Bem騒動 (1月) Feeling the Future: Experimental Evidence for Anomalous Retroactive Influences on Cognition and Affect Daryl J. Bem Cornell University The term psi denotes anomalous processes of information or energy transfer that are currently unex- plained in terms of known physical or biological mechanisms. Two variants of psi are precognition (conscious cognitive awareness) and premonition (affective apprehension) of a future event that could not otherwise be anticipated through any known inferential process. Precognition and premonition are themselves special cases of a more general phenomenon: the anomalous retroactive influence of some f i di id l’ h h h i Photograph by Shannon Taggart 再現できない Stapel騒動 (8月) by Joris Buijs Gordijn, E.H., & Stapel, D.A. (2006). Behavioural effects of automatic interpersonal versus intergroup social comparison. British Journal of Social Psychology, 45, 717-729. Joly, J.F., & Stapel, D.A. (2009). Staff, miter, book, share: How attributes of Saint Nicholas induce normative behavior. European Journal of Social Psychology, 39, 145-153. Joly, J.F., Stapel, D.A., & Lindenberg, S.M. (2008). Silence and table manners: When environments activate norms. Personality and Social Psychology Bulletin, 34, 1047-1056. Lindenberg, S.M., Joly, J.F., & Stapel, D.A. (2011). The norm-activating power of celebrity: The dynamics of success and influence. Social Psychology Quarterly, 74, 98-120. Maringer, M., & Stapel, D.A. (2007). Unfinished business: How completeness affects the impact of emotional states and emotion concepts on social judgments. Journal of Experimental Social Psychology, 43, 712-718. Maringer, M., & Stapel, D.A. (2009). Correction or comparison? The effects of prime awareness on social judgments. European Journal of Social Psychology, 39, 719-733. Marx, D.M., & Stapel, D.A. (2006). Distinguishing stereotype threat from priming effects: On the role of the social self and threat-based concerns. Journal of Personality and Social Psychology, 91, 243-254. Marx, D.M., & Stapel, D.A. (2006). It’s all in the timing: Measuring emotional reactions to stereotype threat before and after taking a test. European Journal of Social Psychology, 36, 687-698. Renkema, L.J., Stapel, D.A., Maringer, M., & Van Yperen, N.W. (2008). Terror management and stereotyping: Why do people stereotype when mortality is salient? Personality and Social Psychology Bulletin, 34, 553-564. … 58本撤回
  18. 18. 院の授業で学生さん方がめっちゃがんばって追試研 究をやってきました Ojiro, Y., Gobara, A., Nam, G., Sasaki, K., Kishimoto, R., Yamada, Y., & Miura, K. (2015). Two replications of "Hierarchical encoding makes individuals in a group seem more attractive (2014; Experiment 4)”. The Quantitative Methods for Psychology, 11, r8-r11. Kishimoto, R., Sasaki, K., Gobara, A., Ojiro, Y., Nam, G., Miura, K., & Yamada, Y. (2016). When a silhouette appears male: Observer’s own physical fitness governs social categorization of sexually ambiguous stimuli. Letters on Evolutionary Behavioral Science, 7, 17-20. Chaya, K., Xue, Y., Uto, Y., Yao, Q., & Yamada, Y. (2016). Fear of eyes: Triadic relation among social anxiety, trypophobia, and discomfort for eye cluster. PeerJ, 4:e1942. Yonemitsu, F., Sung, Y., Naka, K., Yamada, Y., & Marmolejo-Ramos, F. (2017). Does weight lifting improve visual acuity? A replication of Gonzalo-Fonrodona and Porras (2013). BMC Research Notes, 10:362. Nitta, H., Tomita, H., Zhang, Y., Zhou, X., & Yamada, Y. (2018). Disgust and the rubber hand illusion: A registered replication report of Jalal, Krishnakumar, and Ramachandran (2015). Cognitive Research: Principles and Implications, 3:15.
  19. 19. しかし・・・ 約1年10ヶ月(660日) 約1年1ヶ月(397日) 約1年(360日) 平均で525日間(約1年6ヶ月)もかかってる Ojiro, Y., Gobara, A., Nam, G., Sasaki, K., Kishimoto, R., Yamada, Y., & Miura, K. (2015). Two replications of "Hierarchical encoding makes individuals in a group seem more attractive (2014; Experiment 4)”. The Quantitative Methods for Psychology, 11, r8-r11. Kishimoto, R., Sasaki, K., Gobara, A., Ojiro, Y., Nam, G., Miura, K., & Yamada, Y. (2016). When a silhouette appears male: Observer’s own physical fitness governs social categorization of sexually ambiguous stimuli. Letters on Evolutionary Behavioral Science, 7, 17-20. Chaya, K., Xue, Y., Uto, Y., Yao, Q., & Yamada, Y. (2016). Fear of eyes: Triadic relation among social anxiety, trypophobia, and discomfort for eye cluster. PeerJ, 4:e1942. Yonemitsu, F., Sung, Y., Naka, K., Yamada, Y., & Marmolejo-Ramos, F. (2017). Does weight lifting improve visual acuity? A replication of Gonzalo-Fonrodona and Porras (2013). BMC Research Notes, 10:362. Nitta, H., Tomita, H., Zhang, Y., Zhou, X., & Yamada, Y. (2018). Disgust and the rubber hand illusion: A registered replication report of Jalal, Krishnakumar, and Ramachandran (2015). Cognitive Research: Principles and Implications, 3:15. 約1年4ヶ月(476日) 約2年(734日) ※ちなみに授業追試はあと2つあるけど継続中・・・
  20. 20. 大規模追試プロジェクトも増えてきた https://doi.org/10.1177/2515245918810225 Advances in Methods and Practices in Psychological Science 2018, Vol. 1(4) 443–490 © The Author(s) 2018 Article reuse guidelines: sagepub.com/journals-permissions DOI: 10.1177/2515245918810225 www.psychologicalscience.org/AMPPS ASSOCIATION FOR PSYCHOLOGICAL SCIENCERegistered Replication Report 810225AMPXXX10.1177/2515245918810225Klein et al.Many Labs 2 rch-article2018 Many Labs 2: Investigating Variation in Replicability Across Samples and Settings Richard A. Klein1 , Michelangelo Vianello2 , Fred Hasselman3,4 , Byron G. Adams5,6 , Reginald B. Adams, Jr.7 , Sinan Alper8 , Mark Aveyard9 , Jordan R. Axt10 , Mayowa T. Babalola11 , Šteˇpán Bahník12 , Rishtee Batra13 , Mihály Berkics14 , Michael J. Bernstein15 , Daniel R. Berry16 , Olga Bialobrzeska17 , Evans Dami Binan18 , Konrad Bocian19 , Mark J. Brandt5 , Robert Busching20 , Anna Cabak Rédei21 , Huajian Cai22 , Fanny Cambier23,24 , Katarzyna Cantarero25 , Cheryl L. Carmichael26 , Francisco Ceric27,28 , Jesse Chandler29,30 , Jen-Ho Chang31,32 , Armand Chatard33,34 , Eva E. Chen35 , Winnee Cheong36 , David C. Cicero37 , Sharon Coen38 , Jennifer A. Coleman39 , Brian Collisson40 , Morgan A. Conway41 , Katherine S. Corker42 , Paul G. Curran42 , Fiery Cushman43 , Zubairu K. Dagona18 , Ilker Dalgar44 , Anna Dalla Rosa2 , William E. Davis45 , Maaike de Bruijn5 , Leander De Schutter46 , Thierry Devos47 , Marieke de Vries3,48,49 , Canay Dog˘ulu50 , Nerisa Dozo51 , Kristin Nicole Dukes52 , Yarrow Dunham53 , Kevin Durrheim54 , Charles R. Ebersole55 , John E. Edlund56 , Anja Eller57 , Alexander Scott English58 , Carolyn Finck59 , Natalia Frankowska17 , Miguel-Ángel Freyre57 , Mike Friedman23,24 , Elisa Maria Galliani60 , Joshua C. Gandi18 , Tanuka Ghoshal61 , Steffen R. Giessner62 , Tripat Gill63 , Timo Gnambs64,65 , Ángel Gómez66 , Roberto González67 , Jesse Graham68 , Jon E. Grahe69 , Ivan Grahek70 , Eva G. T. Green71 , Kakul Hai72 , Matthew Haigh73 , Elizabeth L. Haines74 , Michael P. Hall75 , Marie E. Heffernan76 , Joshua A. Hicks77 , Petr Houdek78 , Jeffrey R. Huntsinger79 , Ho Phi Huynh80 , Hans IJzerman1 , Yoel Inbar81 , Åse H. Innes-Ker82 , William Jiménez-Leal59 , Melissa-Sue John83 , Jennifer A. Joy-Gaba39 , Roza G. Kamilog˘lu84 , Heather Barry Kappes85 , Serdar Karabati86 , Haruna Karick17,18 , Victor N. Keller87 , Anna Kende88 , Nicolas Kervyn23,24 , Goran Kneževic´89 , Carrie Kovacs90 , Lacy E. Krueger91 , German Kurapov92 , Jamie Kurtz93 , Daniël Lakens94 , Ljiljana B. Lazarevic´95 , Carmel A. Levitan96 , Neil A. Lewis, Jr.97 , Samuel Lins98 , Nikolette P. Lipsey41 , Joy E. Losee41 , Esther Maassen99 , Angela T. Maitner9 , Winfrida Malingumu100 , Robyn K. Mallett79 , Satia A. Marotta101 , Janko Med–edovic´102,103 , Fernando Mena-Pacheco104 , Taciano L. Milfont105 , Wendy L. Morris106 , Sean C. Murphy107 , Andriy Myachykov73 , Nick Neave73 , Koen Neijenhuijs108,109 , ←これでも著者半分しか表示されてない ・hidden moderatorsと呼ばれる,未観 測/未統制の変数のせいで追試がうま くいかないんだ!と元著者がよく言う のですが,それ関係なかったよという お役立ち研究。 ・再現率は今回50%を超えていた。 効果量は小さかったけど。
  21. 21. 山田が参加中の大規模追試 Many Smiles project ・顔面フィードバック仮説 の徹底的検証 ・原著者のStrackも参加 ・コロナのせいで再査読 1 A Multi-Lab Test of the Facial Feedback Hypothesis by The Many Smiles Collaboration Accepted in-principle at Nature Human Behaviour Corresponding author: Nicholas A. Coles (colesn@utk.edu), Department of Psychology, University of Tennessee, Knoxville, USA *Nicholas Coles1 , David March2 , Fernando Marmolejo Ramos3 , Arinze Nwadiogo4 , Izuchukwu Ndukaihe4 , Asil Ali Özdoğru5 , Balazs Aczel6 , Nandor Hajdu6 , Tamas Nagy6 , Bidisha Som7 , Dana Basnight-Brown8 , Danilo Zambrano9 , Daniela Serrato Alvarez9 , Francesco Foroni10 , Megan Willis10 , Gerit Pfuhl11 , Gwenael Kaminski12, 13 , Tracy Ehrengarth12 , Hans IJzerman14 , Kevin Vezirian14 , Hassan Banaruee15 , Omid Kathin-Zadeh15 , Isabel Suarez16 , Jeff T. Larsen1 , José Antonio Hinojosa Poveda17 , Cristina Villalba-García17 , Krystian Barzykowski18 , Michal Parzuchowski19 , Aneta Marczak19 , Natalia Trujillo20 , Sandra Trujillo20 , Natalie Butcher21 , Daniel Eaves21 , Nikolay Dagaev22 , Elena Gorbunova22 , Niv Reggev23 , Pascal Gygax24 , Sarah Pressman25 , John Hunter25 , Miranda Pinks25 , Ian Waldrop25 , Susana Ruiz-Fernandez26 , Yuki Yamada27 , Ayumi Ikeda27 , Fritz Strack28 , Lowell Gaertner1 , Phoebe Ellsworth29 , Marco Marozzi30 , Marco Tullio Liuzza31 1 Department of Psychology, University of Tennessee, Knoxville, United States of America 2 Department of Psychology, Florida State University, United States of America 3 School of Psychology, University of Adelaide, Australia
  22. 22. 山田が参加中の大規模追試 Crowdsourced Replication Initiative ・もともとはドイツの学会のイベント ・研究者クラウドソーシングで,ある 研究の分析の追試を各自で行う ・著者は200人くらい ・分野が社会調査なので山田はリアル ガチでシーキビだった The Crowdsourced Replication Initiative: Investigating Immigration and Social Policy Preferences using Meta-Science ‹ Executive Report › Principal Investigators: Nate Breznau, University of Bremen breznau.nate@gmail.com Eike Mark Rinke, University of Leeds E.M.Rinke@leeds.ac.uk Alexander Wuttke, University of Mannheim alexander.wuttke@uni-mannheim.de Research Participant Co-Authors: Muna Adem, Jule Adriaans, Amalia Alvarez-Benjumea, Henrik Andersen, Daniel Auer, Flavio Azevedo, Oke Bahnsen, Dave Balzer, Paul Bauer, Gerrit Bauer, Markus Baumann, Sharon Baute, Verena Benoit, Julian Bernauer, Carl Berning, Anna Berthold, Felix S. Bethke, Thomas Biegert, Katharina Blinzler, Johannes N. Blumenberg, Licia Bobzien, Andrea Bohman, Thijs Bol, Amie Bostic, Zuzanna Brzozowska, Katharina Burgdorf, Kaspar Burger, Kathrin Busch, Juan Castillo, Nathan Chan, Pablo Christmann, Roxanne Connelly, Christian Czymara, Elena Damian, Alejandro Ecker, Achim Edelmann, Maureen A. Eger, Simon Ellerbrock, Anna Forke, Andrea Forster, Chris Gaasendam, Konstantin Gavras, Vernon Gayle, Theresa Gessler, Timo Gnambs, Amélie Godefroidt, Alexander Greinert, Max Grömping, Martin Groß, Stefan Gruber, Tobias Gummer, Andreas Hadjar, Jan Paul Heisig, Sebastian Hellmeier, Stefanie Heyne, Magdalena Hirsch, Mikael Hjerm, Oshrat Hochman, Jan H. Höffler, Andreas Hövermann, Sophia Hunger, Christian Hunkler, Nora Huth, Zsofia Ignacz, Laura Jacobs, Jannes Jacobsen, Bastian Jaeger, Sebastian Jungkunz, Nils Jungmann, Mathias Kauff, Dennis Kleinert, Julia Klinger, Jan-Philipp Kolb, Marta Kołczyńska, John Kuk, Katharina Kunißen, Dafina Kurti, Philipp Lersch, Lea-Maria Löbel, Philipp Lutscher, Matthias Mader, Joan Madia, Natalia Malancu, Luis Maldonado, Helge Marahrens, Nicole Martin, Paul Martinez, Jochen Mayerl, Oscar J. Mayorga, Patricia McManus, Kyle McWagner, Cecil Meeusen, Daniel Meierrieks, Jonathan Mellon, Friedolin Merhout, Samuel Merk, Daniel Meyer, Jonathan Mijs, Cristobal Moya, Marcel Neunhoeffer, Daniel Nüst, Olav Nygård, Fabian Ochsenfeld, Gunnar Otte, Anna
  23. 23. 山田が参加中の大規模追試 SCORE ・ご覧の通り,DARPAが出資したCOSのプロジェクト。そのせいで軍事研究じゃないかと 疑われ,九大のトップ会議にまで話がいってしまって大変だった。 ・全世界で700人くらい参加してるらしい ・大量の研究を追試しつつ,それを評価するAIを作るらしい。
  24. 24. 山田が参加中の大規模追試 Psychological Science Accelerator ・73カ国以上,1021人くらいの有志で追試しまくり。 ・6つの通常プロジェクトとコロナ特別企画がそれぞれ良好に進んでいて山田も参加。 ・一つのプロジェクトが最近Nature Human Behaviourにアクセプト(山田非参加) などなど・・・他にもコロナのプロジェクト4つくらいに参加中
  25. 25. 疑問 Q.じゃあ追試って,1人でやってもだめなの? A.いいえ。確かに,マルチラボを奨励する人は多い。しかし1人でやって も結果を報告してコミュニティで集めていけば意味がある(蓄積科学)。 まずはAcceleratorやStudySwapなどに単騎駆けしてみるのも一興。
  26. 26. 疑問 Q.ガチの追試って,めちゃめちゃきつくない? A.はい。1stオーサーは本当にきつい。多国間マルチラボ追試を主導して 国際誌に掲載されたらそれのみで博士の学位出していいんじゃないかと 思うくらい研究者に必要とされる全ての能力が試される。 だから修行にピッタリ。
  27. 27. 疑問 Q.いやでも・・・誰がやるの?義務じゃないし。 A.はい。現在やる人が少なすぎます。一案としては,追試専門の研究者 になれるようにする (Romero, 2018)。つまり確証部隊と発見部隊の分業 です。そのためにはインセンティブ構造の整理が必要。
  28. 28. 追試についての現状とまとめと展望 ・心理学界としては超大事。そこは疑いない。 ・マルチラボの主導はなかなか苦労が大きい。 ・大事できっつい割には評価がゼロである。 ー 追試は通常の研究と比べてレベルが低く価値のないものとみなされる。理由は新規性が ないから。仮説検証が非常に重視され,新規な仮説と一致した結果に至上の価値が置かれ る(Yamada, 2018)。仮説と一致しない結果はゴミであり隠すべきで,新規でない結果は 報告に値しないと考えられる。これが出版バイアスを引き起こす。たとえ追試でも。 ・つまりインセンティブとコストのバランスが完全に崩壊している。 ・何を追試すべきかわからないのでトリアージが望まれる。Plaudit が使える?
  29. 29. 再現性問題に関係あると思ってるものリスト ・追試 ・QRPs ・事前登録制度 ・雑誌 ・若手生存問題 ・統計(今回は省略) ・実験参加者(今回は省略) ・プレデタリ(今回は省略) ・サイエンスコミュニケーション(今回は省略)
  30. 30. QRPs
  31. 31. 今のところ不正だとまでは言われないけど,あたかも研究が成功した ように見せかける手段がたくさんある。 →もちろんこれで偽陽性率が半端なく上がる。 →そのせいで再現性は下がる。 問題のある研究営為 (Questionable Research Practices; QRPs) ・直接追試(結果再現)が失敗しまくるのは,主に元研究のQRPsが 原因ではないかと言われる事が多い。 ・QRPsは他人をだまくらかす意図が無くても知らず識らずにやってし まっていることがあり,怖い。
  32. 32. p-hackingとp-slacking pハッキング (e.g., John et al., 2012) いろんなやり方でp値をできるだけ低くすること
  33. 33. p-hackingとp-slacking TODA RADIO #002より N増し
  34. 34. ARTICLE Regulation of REM and Non-REM Sleep by Periaqueductal GABAergic Neurons Franz Weber1,3, Johnny Phong Hoang Do1, Shinjae Chung1,3, Kevin T. Beier2, Mike Bikov1, Mohammad Saffari Doost1 & Yang Dan 1 DOI: 10.1038/s41467-017-02765-w OPEN NATURE COMMUNICATIONS | (2018)9:354 |DOI: 10.1038/s41467-017-02765-w |www.nature.com/naturecommunications 1 Sample sizes. For optogenetic activation experiments, cell-type-specific ablation experiments, and in vivo recordings (optrode recordings and calcium imaging), we continuously increased the number of animals until statistical significance was reached to support our conclusions. For rabies-mediated and anterograde tracing experiments, the selection of the sample size was based on numbers reported in previous studies. For optrode recordings, we first recorded a preliminary data set of six units from two mice. Based on analysis of this data set and given the success rate in finding identified GABAergic units, we predicted that about 20 units are sufficient to statistically support our conclusions. 「ぼくたちの結論を支持するような有意差が出るまで動物の数を 増やしていきました」
  35. 35. p-hackingとp-slacking pハッキング (e.g., John et al., 2012) いろんなやり方でp値をできるだけ低くすること pスラッキング (e.g., Smits, 2014 on Twitter; Bryan et al., 2019; Chuard et al., 2019) いろんなやり方でp値をできるだけ高くすること 最初の報告者は有意に見せたいからpハッキングし,追試者は 「それが再現できなかった」と報告するためにpスラッキングす る。結局,研究意図に応じてp値を密かに誤魔化していることに 変わりはない
  36. 36. v-hackingとv-ignorance vハッキング 妥当性のハッキング。尺度研究で多く発生する。妥当性や信頼性の検証を いろんなやり方で行って,報告するのは良かったやつだけ。 vイグノランス 「先行研究でこれを構成概念妥当性の検証に使ってたから」その尺度 を使うとかの考えなしの尺度使用,等 どちらの研究営為も,過度に尺度の妥当性をインフレさせる。 これらは極めて広く蔓延しているし,意図してない人が多い。 (Hussey & Hughes, 2019)
  37. 37. HARKing (Hypothesizing After the Results are Known) 仮説の事後生成 結果を知った後に仮説を作り直し,はじめからその結果を予測していたよ うに見せかける行為。これをやると研究者は全ての未来の結果を的中しま くる預言者だということになってしまう。もちろん事実はそうではない。 (Kerr, 1998; Rubin, 2017)
  38. 38. TODA RADIO #002より HARKing (Hypothesizing After the Results are Known) 仮説の事後生成 (Kerr, 1998; Rubin, 2017)
  39. 39. Which Article Should You Write? There are two possible articles you can write: (a) the article you planned to write when you designed your study or (b) the article that makes the most sense now that you have seen the results. They are rarely the same, and the correct answer is (b). 「正しい論文は,結果を見たあとのいま,最もつじつまが合う ように書かれたものである」 ベムの教え (Bem, 2004) Photograph by Shannon Taggart
  40. 40. HARKing (Hypothesizing After the Results are Known) 仮説の事後生成 実は3種類あるといわれている (Kerr, 1998; Rubin, 2017) CHARKing(constructing hypotheses after the results are known) 結果がわかった後に仮説生成。Kerr的に純粋なHARKingのこと。 RHARKing(retrieving hypotheses after the results are known) 結果がわかった後に先行研究が提示した有用そうな仮説を検索すること。 SHARKing(suppressing hypotheses after the results are known) 結果がわかった後にヤバイ仮説は考えてなかったことにすること。 HARKingは特に発覚しづらい上にストーリーを美しく見せるのに 大変効果的である。仮説検証は全く行なってないから帰無仮説有意性 検定すること自体が不適切だし,追試しても再現されない。
  41. 41. チェリーピッキング 自分に都合のいい情報を選択的に報告することにより,研究の見せかけの 美しさを高める行為。古くから知られている↓(Greenwald et a., 1986) ※ここで言われてたのは,自分の理論にとって都合の良い結果が出るまで微妙に方法を変えながら 実験を繰り返しベストな結果を探す行為。後述の実験リセマラでもある。
  42. 42. TODA RADIO #002より チェリーピッキング
  43. 43. QRPsについての現状 ・防ぐ手段が構築されつつある。方法論系の中でたぶん最も議論が 進んでいる分野 ・これまではやりたい放題だったし,今でも明るみにならないもの はいっぱいある ・研究不正との境目をはっきりさせていく必要がある ・再現性を低下させる主要な理由 ・以前は正しいやり方として教育されていたものもある。
  44. 44. 再現性問題に関係あると思ってるものリスト ・追試 ・QRPs ・事前登録制度 ・雑誌 ・若手生存問題 ・統計(今回は省略) ・実験参加者(今回は省略) ・プレデタリ(今回は省略) ・サイエンスコミュニケーション(今回は省略)
  45. 45. 事前登録制度
  46. 46. 追試が大事とかQRPsがヤバイとかは分かった。 もういい。 とにかく,じゃあどうすりゃいいのかと ↑ 事前登録制度! (pre-registration; プレレジ)
  47. 47. 原稿 論文投稿 実験 解析 学術誌
  48. 48. 原稿 論文投稿 実験 解析 学術誌 これがなんか いかんのでは?
  49. 49. The preregistration revolution Brian A. Noseka,b,1 , Charles R. Ebersoleb , Alexander C. DeHavena , and David T. Mellora a Center for Open Science, Charlottesville, VA 22903; and b Department of Psychology, University of Virginia, Charlottesville, VA 22904 Edited by Richard M. Shiffrin, Indiana University, Bloomington, IN, and approved August 28, 2017 (received for review June 15, 2017) Progress in science relies in part on generating hypotheses with existing observations and testing hypotheses with new observations. This distinction between postdiction and prediction is appreciated conceptually but is not respected in practice. Mistaking generation of postdictions with testing of predictions reduces the credibility of research findings. However, ordinary biases in human reasoning, overconfidence in post hoc explanations (postdictions) and inflate the likelihood of believing that there is evidence for a finding when there is not. Presenting postdictions as predictions can increase the attractiveness and publishability of findings by falsely reducing uncertainty. Ultimately, this decreases reproducibility (6–11). M t l C t i t Di ti i hi P di ti d COL P プレレジ革命(Nosek et al., 2018) データとる前にやることを登録しておき,その通りやる (事前登録)
  50. 50. 原稿 プレレジ 実験 解析 学術誌 もう1回! どっかに登録
  51. 51. The preregistration revolution Brian A. Noseka,b,1 , Charles R. Ebersoleb , Alexander C. DeHavena , and David T. Mellora a Center for Open Science, Charlottesville, VA 22903; and b Department of Psychology, University of Virginia, Charlottesville, VA 22904 Edited by Richard M. Shiffrin, Indiana University, Bloomington, IN, and approved August 28, 2017 (received for review June 15, 2017) Progress in science relies in part on generating hypotheses with existing observations and testing hypotheses with new observations. This distinction between postdiction and prediction is appreciated conceptually but is not respected in practice. Mistaking generation of postdictions with testing of predictions reduces the credibility of research findings. However, ordinary biases in human reasoning, overconfidence in post hoc explanations (postdictions) and inflate the likelihood of believing that there is evidence for a finding when there is not. Presenting postdictions as predictions can increase the attractiveness and publishability of findings by falsely reducing uncertainty. Ultimately, this decreases reproducibility (6–11). M t l C t i t Di ti i hi P di ti d COL P プレレジ革命(Nosek et al., 2018) これでいくつかのQRPs問題への対策はバッチリ データとる前にやることを登録しておき,その通りやる 特にHARKingの抑止力は強力。 実験前に仮説を登録させるので事後生成できない。
  52. 52. 査読付き事前登録 (registered reports; レジレポ) ・最初っから雑誌に登録したら早くね? ・そのときついでに査読もしてもらったら確実じゃね?
  53. 53. 原稿 レジレポ 実験 解析 学術誌 もう1回!
  54. 54. 査読付き事前登録 (registered reports; レジレポ) ・2020年9月時点で260以上の学術誌がレジレポ制度を導入!!! ・Stage 1の査読を通過したらin principle acceptance (IPA)となり,原則 的に結果の如何を問わず掲載が約束される。 ・査読は2回やることになる。確かに面倒だが,Stage 2の査読はよほど 無茶苦茶な考察をしたり,方法が登録内容を逸脱しまくったりしなけれ ばたいていすぐ終わる(はず。多分)。 ・p値おかまいなしで掲載されるのでpハッキングの必要性が消える!
  55. 55. オープンサイエンス プレレジも,レジレポも,研究者の実験周りを可視化しようとする制度。 なのでオープンデータやオープンマテリアルがたいてい同時に要求され る。GitHubなんかでソースの共有も求められる(た)。 プレプリントの公開もやっと心理学で実施されるようになってきた。 ちなみに山田絡みのプレプリントは今のところ27本。 でもこれらを国内でやってる人はまだ少ない。特にエグゼクティブ クラスの方々の導入率は低い気がする。若手(ECRs)はがんばろう。
  56. 56. プレレジのQRPs さてそんなプレレジ関係だが,これも現状クラックできる。 PARKing (Preregistering After the Results are Known): 事後事前登録 つまり結果を見た後にプレレジ。プレレジでQRPsを行なっていないよ うに見せかけつつ良い結果を報告しようとする行為。 OPINION published: 26 September 2018 doi: 10.3389/fpsyg.2018.01831 How to Crack Pre-registration: Toward Transparent and Open Science Yuki Yamada* Faculty of Arts and Science, Kyushu University, Fukuoka, Japan Keywords: QRP, misconduct in research, academic publishing, preregistration, open science The reproducibility problem that exists in various academic fields has been discussed in recent years, and it has been revealed that scientists discreetly engage in several questionable research
  57. 57. プレレジのQRPs さてそんなプレレジ関係だが,これも現状クラックできる。 Overissuing : 乱れ撃ち 複数の似たようなプレレジをいろんなサイトに登録。良かった結果の 実験のプレレジだけ報告。 Crack of prereg? Easy to patch? Overissuing Is prereg effective? Fake ethics statement Fictitious references P-hacking HARKing Cherry picking Rerolling Selective reporting PARKing Related to hypothesis testing? Yes Yes Yes Yes No No No No Selective reporting
  58. 58. プレレジのQRPs さてそんなプレレジ関係だが,これも現状クラックできる。 Re-experimenting, Rerolling: 実験リセマラ 自分に都合のいい結果が出るまで実験を仕切り直す(データを取り直す)。 現在のところ防止不可能な最強のQRP。 Crack of prereg? Easy to patch? Overissuing Is prereg effective? Fake ethics statement Fictitious references P-hacking HARKing Cherry picking Rerolling Selective reporting PARKing Related to hypothesis testing? Yes Yes Yes Yes No No No No Selective reporting
  59. 59. プレレジのQRPs PARKingと乱れ撃ちは,プレレジ時に「まだデータを取ってません」 「他に酷似したプレレジはしてません」と宣言させることで,不正化す ることができる。不正扱いになるリスクを抱えてまでやるやつは少ない はず。 問題は実験リセマラで,これはどうしようもない。公開実験しか思いつ かないが,マルチラボでやれば1ラボのQRPの影響は小さくできる。追試 で再現されなかったら結局唾棄されるし,そういう文化にしていくのが 良いと思う(つまり載せたらそこで勝ち確みたいなのはもう駄目)
  60. 60. プレレジについての現状 ・普及率は高まってきた。だけど日本はぱそけん1誌のみ。しかも投 稿数ゼロらしい。(今はざくざくあるのかも!) ・なんと,プレレジした追試の中で計画を逸脱しなかった研究の数は ゼロ!!!(Claesen et al., 2019) プレレジ実験ほんとに難しいんです ・QRPsを防止するために超重要だが,それ自体が新QRPsの餌食に
  61. 61. プレレジについての現状 ←Chris Chambersの調査 ほぼ若手しかレジレポやって ない。教授は4%・・・ ・今後は倫理審査と同じくプレレジが必須となるだろうが,一方で まだ業績のない若手はこれにより業績達成がスローダウンする可能 性があり,不平等に感じるかもしれない。これは何か対策すべき。 ・普及しようとするとうざがられる。
  62. 62. 再現性問題に関係あると思ってるものリスト ・追試 ・QRPs ・事前登録制度 ・雑誌 ・若手生存問題 ・統計(今回は省略) ・実験参加者(今回は省略) ・プレデタリ(今回は省略) ・サイエンスコミュニケーション(今回は省略)
  63. 63. 雑誌
  64. 64. 原稿 実験 解析 学術誌
  65. 65. 学術誌 査読 プレプリント オープンアクセス 投稿数 質 プレレジ これまでの伝統
  66. 66. 問題のある編集実践 (Questionable Editorial Practices; QEPs) (Cooke, & Lapointe, 2012) 熱心すぎるスクリーニング 査読後に雑誌との一致性を理由にリジェクト いつまで経っても査読者をつかまえられない デシジョンの不必要なドラマ化 論文をちゃんと読まない 論文に過度に干渉したり編集放棄したり 査読者に依存して自分でものを考えない 定型文使いすぎ
  67. 67. みんな(主にSさんが),怒ってます ・ある論文へのコメンタリを投稿したら,それを元著者と共有されたあげくリジェ クトされた (Rivera, 2009) ・主張の対立するエディターに扱われた論文が,査読者6人つけられ,10ラウンドの 査読,4回の追加実験の末,3人アクセプト出したのにエディターの意見に合わない からとリジェクトされた。結局ジャーナルに苦情を言ってエディター変わったらア クセプトされた。投稿から実に4年半後のことだった (Sasaki, Ihaya et al., 2017)。 ・リバイズに誠実に対応したのに「客観的な誤りがある」の一言でリジェクト (Sasaki, Ono et al., 2017) このようなQEPsは出版を阻害するだけでなく研究者育成にも悪影響しか ないし,QRPsまで誘引する。
  68. 68. (Frontiers Science News, 2016) 査読 学術論文のクオリティコントロールを行う唯一無二 の手段(とされている) 1831年にProceedings of the Royal Societyで始めら れ,現在も科学界で中心的な役割 たいてい査読者はブラインドされるので,権威相手 でも自由な批判が保証される 現在では,Frontiersなどで論文内容と研究者のマッ チングを自動で行い,示唆するシステムができてる
  69. 69. 査読不正 査読者偽装 (Email Spoofing; なりすましメール法) フリーメールのメールアドレスを実在の研究者のものと間違いやすいようにして作 成し,査読を自分に回すよう示唆してアクセプトさせる手法が横行。バレてリジェ クトされても別の雑誌に次々回せばどこかで気づかれずにアクセプトさせられる。 共通の通報場所が無いため発覚しにくい (Dadkhah et al., 2017)。
  70. 70. 査読不正 賄賂 (bribes) 投稿時にエディターに「迅速で,成功裏の」原稿の処遇を依頼し,同時に金銭の提 供を持ちかける(多くは1000ドル強)。Retraction WatchやCOPEにしばしば報告 されている。 とまあ,ここまで露骨でなくとも,エディターに 電話していろいろ交渉するとか(うちの学生の学位 のためにどうのこうのとか)の話は昔からいろんな ところで聞く(むしろ成功譚として聞く) Medical journal editors expect authors to disclose conflicts of interest—but don’t disclose their own (Galvis, 2019, Science) COIを明確にするのが大事
  71. 71. 対策 トリプルブラインド査読 査読者はもちろんエディターすらも著者が分からない査読でバイアスを排除する。 Mattersで2018年から導入。QEPsのうち,著者への不誠意な態度に関するものは減 る可能性がある。 オープン査読 査読コメントが全文公開される。PeerJ,Collabra,F1000Researchなどで積極的に 取り入れられた。査読者は嘲笑的・高圧的な文言を使わなくなり,QRPsを勧めるこ ともしなくなる可能性がある。 クラウド査読 100人くらいの査読者で一気にがーっと査読する。多様な観点から問題点がチェック される。Synlettで始められた。1人の査読者のおかしな判定の影響力は下がる。
  72. 72. 対策 マイクロパブリッシング (Yamada, 2020) もうプロトコルを決めてしまって行うような実験の場合はイントロやら考察やらを 長々書かなくてもいいんじゃないか。それをやるからHARKingしたりするんだろ, ということで,方法と結果の必要最低限を書くタイプの論文が出始めている(心理 学では無い・・・PerceptionのShort & Sweetがある意味それかも?) 1Psychological Micro Reports No relation between vertical-valence metaphor and height: An empirical answer to Liu, Zhu, and Wang (2019) Kyoshiro Sasaki1,2,3 and Yuki Yamada2 1Waseda University , 2Kyushu University, and 3Japan Society for the Promotion of Science
 DESCRIPTION We conducted a survey based on the idea of Liu, Zhu, and Wang (2019). They hypothesized that the association between vertical space and emotional valence (up = positive, down = negative; vertical-valence metaphor; e.g., Meier & Robinson, 2004) would interact with people’s height. They predicted that this association would be weaker in taller people than in shorter people. We conducted a word rating task (Marmolejo-Ramos, Elosúa, Yamada, Hamm, & Noguchi, 2013) in online. In this task, subjects rated the words ‘‘up’’ and ‘‘down’’ on a Likert scale ranging from 1 (very negative) to 9 (very positive). We also asked them their height. The subjects were assigned to taller and shorter groups, respectively, according to their height. Moreover, we computed a metaphor effect by subtracting the score of down from that of up. We performed a two-tailed t-test on the metaphor effect between the taller and smaller group. As a result, there was no significant difference between the groups (t(207) = 0.37, p = .71, Cohen’s d = 0.05). This result did not support the idea of Liu et al. (2019). There were some differences in the protocol between the previous study and the proposal of Liu et al. (2019). First, we conducted online survey via crowdsourcing instead of laboratory experiment. Crowdsourcing is helpful for collecting large amount of data from various people (e.g., Sasaki, Ihaya, & Yamada, 2017; Yamada, 2015) and we used this for collecting the data from people with various height. Second, we conducted the rating task (Marmolejo-Ramos et al., 2013) instead of a Bob task (e.g., Casasanto, 2009) because the rating task was more easily conducted in the online survey than the Bob task. Third, our sample size was greatly larger than the planned sample size of Experiment 2 of Liu et al. (2019). The data of online survey is more easily contaminated by various noise (e.g., satisficing; Chandler, Mueller, & Paolacci, 2014) compared with laboratory experiments (Sasaki & Yamada, 2019) and thus we collected the data from larger sample size for controlling noise. Finally, we assigned the subjects to the taller and shorter groups based on the first and third quartiles, while Liu et al. (2019) planned to use the average height of American adult male (i.e., 69.3 inches) and female (63.7 inches). This is because we collected the data from people with various ages and the average height should be different to some extent among ages, while Liu et al. (2019) planned to collect the data from university students within a narrow rage of age. We disclose the constraints on generality for this survey. The subjects were collected via Japanese crowdsourcing. Thus, nationality was not general. The task was only the rating task; it is unclear whether the similar results will be obtained when the task is different. METHOD Subjects We recruited 500 people via Yahoo! Crowdsourcing and 479 subjects participated in the survey. We inserted two attention check questions (ACQs) for detecting satisficers (Oppenheimer, Meyvis & Davidenko, 2009). We excluded Results of the survey. Error bars denote standard errors of the mean. 0.0 0.5 1.0 1.5 2.0 Taller Shorter Metaphoreffect 2Psychological Micro Reports the data of 24 subjects because their answers to the ACQs were wrong. After excluding the data based on the answer to the ACQs, we assigned the subjects to two groups (taller and shorter groups). Those whose heights were over the third quartile (68.1 inches) within all the subjects’ height were assigned to the taller group (n = 103). On the other hand, the subjects were assigned to the smaller group (n = 106) when their heights were under the first quartile (63.8 inches). We submitted these data of the two groups for statistical analyses. The subjects were fully informed about survey ethics and were not forced to participate in the survey. They got 22 T-points as reward. Stimuli The Kanjis meaning “up” and “down” were used in the survey. Moreover, we presented two subtractions (i.e., “74 - 47” and “36 -19”) as the ACQs. Procedure The subjects rated the words ‘‘up’’ and ‘‘down’’ on a Likert scale ranging from 1 (very negative) to 9 (very positive) with the following instruction: “Assuming that the following words can have a valence that ranges from ‘very negative’ to ‘very positive’, what valence would you give to each word?”. They also answered to the ACQs and reported their height. DATAAVAILABILITY The data used in the present study can be available at https:// osf.io/3dpwu/. FUNDING The present study supported by JSPS KAKENHI #17J05236 to KS. AUTHOR CONTRIBUTIONS Kyoshiro Sasaki: Data curation, Formal Analysis, Visualization, Writing – original draft Yuki Yamada: Writing – review & editing CONFLICT OF INTERESTS The authors declare no competing interests. ACKNOWLEDGMENTS We would like to thank the Japanese Community for Open and Reproducible Science (JCORS) for enhancing the motivation to prepare this manuscript. REVIEWED BY Nobody HISTORY Received: December 15, 2019 Accepted: December 15, 2019 Published: December 15, 2019 REFERENCES Casasanto, D. (2009). Embodiment of abstract concepts: good and bad in right- and left-handers. Journal of Experimental Psychology: General, 138, 351–367. Chandler, J., Mueller, P., & Paolacci, G. (2014). Nonnaïveté among Amazon Mechanical Turk workers: consequences and solutions for behavioral researchers. Behavior Research Methods, 46, 112– 130. Liu, X., Zhu, R., & Wang, N. (2019). Effect of Height on Peoples Body Specific Representation and Association between Valence and Space. Psychology, 10, 1353–1360. Marmolejo-Ramos, F., Elosúa, M. R., Yamada, Y., Hamm, N., & Noguchi, K. (2013). Appraisal of space words and allocation of emotion words in bodily space. PLOS ONE, 8(12): e81688. Meier, B. P., & Robinson, M. D. (2004). Why the sunny side is up: Association between affect and vertical position. Psychological Science, 15, 243–247. Oppenheimer, D. M., Meyvis, T., & Davidenko, N. (2009). Instructional manipulation checks: detecting satisficing to increase statistical power. Journal of Experimental Social Psychology, 45, 867–872 Sasaki, K., Ihaya, K., & Yamada, Y. (2017). Avoidance of novelty contributes to the uncanny valley. Frontiers in Psychology, 8:1792. Sasaki, K., & Yamada, Y. (2019). Crowdsourcing visual perception experiments: A case of contrast threshold. PeerJ. 7:e8339 https://doi.org/10.7717/peerj.8339 Yamada, Y. (2015). Gender and age differences in visual perception of pattern randomness. Science Postprint, 1(2):e00041. COPYRIGHT © 2019 by the author. This is an open-access article distributed under the terms of the Creative Commons Attribution 4.0 International (CC BY 4.0) License, which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited. CITATION Sasaki, K., & Yamada, Y. (2019). No relation between vertical-valence metaphor and height: An empirical answer to Liu, Zhu, and Wang (2019). Psychological Micro Reports, e0003. DOI: doi.org/10.31234/osf.io/gra6s Sasaki & Yamada (2019) Psychological Micro Reports リンク
  73. 73. 対策 プレプリント 査読してから出版だとSasaki et al. (2017)の例みたいに無駄に実験何回もさせられて 4年半とかかかったりするので,査読前に公開できるようにしたらいいんじゃないか という考えでできた(arXivが1991年)。 プレプリントで公開されると出版時のインパクトが減ると言って学術誌側はこれを 査読に回すことに慎重だったが,最近はけっこう受け入れてきている。 ←arXivの例 Hypothesisとかのコメント サービスを使って査読も市井 の研究者に勝手にさせればい いんではという議論もある
  74. 74. 対策 著者による査読の制御 eLife誌は,エディターが査読者に回した時点で事実上のアクセプト扱いとし,査読 者のコメントに対して対応は要求するものの,従わない場合は従わない理由を明言 してそのまま掲載させるオプションを導入した (Patterson & Schekman, 2018)。 これにより少数の変な査読者に命綱を握られるようなことはなくなった。 しかし一方でエディターのパワーがさらに増すことになる。諸刃の剣でもあるので 現在運用テスト中。
  75. 75. 対策 分業 British Journal of Anaesthesia誌は,総合考察だけを別の研究者に書かせるスタイル を導入した。これは結果の恣意的な解釈や誇張(スピン)など推論再現性が低いことを 補償しようとする試み。結果の前後での分業と等しい。 イントロ ↓ 方法 ↓ 結果 ↓ 考察 (元著者) ↓ 考察 (研究者A) ↓ 考察 (研究者B)・・・
  76. 76. 対策 分業 逆にアイデアジャーナルという,実験前までしか書かない論文の雑誌もある。こち らも少しずつ流行ってきている。
  77. 77. 対策 分業 CortexにExploratory Reportsというフォーマットが爆誕した。これはデータマイニン グ,モデリング,仮説生成などのビッグデータやレアケースとかを使った超探索的な 研究を扱う (McIntosh, 2017)。(PLOS BiologyのDiscovery Reportsも似てる) プレレジプレレジって,探索科学のやつらはどうすんだよ!問題への一つの回答。 p値とかできるだけ使うなと言っている。HARKingするくらいなら正直にこっち出せ やと言ってる。プレレジとは別にQRPsをする必要性を消していて面白い。 マルチラボ考察,アイデアジャーナル,Exploratory Reportsなどを組み合わせる ことで,確証部隊と発見部隊の分業という形が雑誌をまたいで実現できる ↑もし1つのジャーナルの中でこれがシステマティックにできれば超熱いと思う
  78. 78. 対策 出版後査読 (Ikeda, Yamada, & Takahashi, 2020) 既に出版された論文に対し,誰でも自由に査読を行い,エディターの承認を得られた らジャーナルにコメントとして掲載される方式を提案。 コメントがDOI付きで引用可能な形でジャーナルに載るため,インセンティブが確保 される。(これまでコメ欄やブログですごいの書いてた人たちに大チャンス) 「載せて勝ち逃げ」方式を完全に破壊する最強の矛
  79. 79. 雑誌についての現状 国内誌でもレジレポくらいは選択制で導入してもいいのでは ・論文投稿にまつわるquestionableなできごとが無数に存在する。 雑誌側も認識していて,システム的に解消しようとしている。 ・雑誌は今まさに大きな変革期にあり,どう舵取るかで独自性が生 まれている。eLife,Cortexはいろんな実験的なことをしてる。
  80. 80. 再現性問題に関係あると思ってるものリスト ・追試 ・QRPs ・事前登録制度 ・雑誌 ・若手生存問題 ・統計(今回は省略) ・実験参加者(今回は省略) ・プレデタリ(今回は省略) ・サイエンスコミュニケーション(今回は省略)
  81. 81. 若手生存問題
  82. 82. シーキビな若手の現状 ・奨学金は借金 (Yamada, 2019) ・研究室はブラック(かも) ・業績プレッシャー ・SNSではみんな華々しい話ばかり ・たとえ学振もらっても同世代より安い そりゃあQRPsに手を染める 考えも浮かぶこともある
  83. 83. ネイチャー編集長も やばいてゆってる!
  84. 84. いろんな研究者の体験談を参考に? ・確実に生存バイアス ほとんどの成功譚はあまり意味を持たないばかりか,こっち が無駄に凹んで行動できなくなるという場合には害にもなる ・科学者のくせにこういうときは統制条件/ネガコンとの 比較という発想がないのはなぜ!? ・科学者のくせにこういうときは外れ値みたいなデータだけ 見て結論を下そうとするのはなぜ!? ・そのお話,本当ですか?(虚偽記憶,ポストディクション等)
  85. 85. マタイ効果 「富める者はますます富む」 (Bol et al., 2018; Marton, 1968)
  86. 86. マタイ効果 「富める者はますます富む」 (Bol et al., 2018; Marton, 1968) 050100150200250300350 AveragecumulativefundingfromNWOandERC(kEuro) 0 1 2 3 4 5 6 7 8 Year since early grant competition Ranks −1/−2 Ranks −3/−4 Ranks −5/−6 Ranks +1/+2 Ranks +3/+4 Ranks +5/+6 Fig. 3. Accumulation of grant money by early career grant applicants. Shown is the cumulative amount of funding received in NWO and ERC competitions (vertical axis) as a function of the number of years elapsed since the early career grant competition (horizontal axis). This relationship is shown for different ranks above (green, +) and below (red, −) the early career funding threshold. 初期に金もらった研究者 初期に金もらえなかった研究者 はじめから浮いてな いと負け続ける。 麻雀と一緒。 勝つ者には牌が勝手 に集まってくる
  87. 87. マタイ効果 「富める者はますます富む」
  88. 88. マタイ効果 「富める者はますます富む」
  89. 89. シャペロン効果 (Sekara et al., 2018) ハイインパクトジャーナルには,そこに載せた経験のある 有名PI(シャペロン)と一緒じゃないと載れない しかも年々その傾向が強まってきている。もちろん, (悲しいことに)そんなPIは国内心理系に多くない。 海外有名ラボに留学すれば有資格者にはなれる。しかし学振 がないとそれもなかなか。
  90. 90. 研究者生存曲線 (Milojevic et al., 2018) 半数の研究者はデビュー後5年で論文を出さなくなる・・・ 0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 Percentageremaininginthefield Years since entering field Survival of cohorts: Ecology 2006 19911996 2001 1986 1981 2010 0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 Percentageremaininginthefield Years since entering field Survival of cohorts: Astronomy 2006 1991 1996 2001 1986 1981 2010 0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 Percentageremaininginthefield Years since entering field Survival of cohorts: RoboƟcs 2006 1991 1996 2001 1986 2010 0 5 10 15 20 25 30 35 40 45 1950 1960 1970 1980 1990 2000 2010 2020 Half-life(years) Cohort year Half-life of cohorts Astronomy Ecology RoboƟcs A C B D 逆に言えば,最初の論文から5年ですべてが決まる? ただこれは,学位のため に最初の5年間は論文を 出しやすい状態だったと かの可能性もある。
  91. 91. クラウドファンディング 金ないなら研究費くらいはこれで稼げばいいとよく言われる 小口でもいいから不特定多数の人々に出資してもらい,研究 費に割り当てる でも見た目が面白いテーマや有名人が有利になりマタイ効果を 強め,国がカネを出さない口実も作ってしまうかなあとも。 (やること自体は応援するが,慣習化するのは微妙)
  92. 92. 若手問題についての現状 ・国内心理系若手を救わなければならない。自己責任ではない。 ・研究者評価自体を変える必要がある。インパクトファクターとか 本数で評価すると,そのとき流行りのトピック次第で生き死にが決 まってしまうことになる。 ・しかもプレレジやらをやれとか山田とかに言われて,研究ペース が抑えられてるように感じる(んだろうなあ・・・)。 ・さらに,インパクトファクターは,作れる (有賀, 2016)。 ある雑誌のパク値をたった1本の論文で1.2から3.585まで上げた。 じゃあその1本の論文が出る前後で掲載されてる他の論文は何か変 わったのだろうか?こんなもので生死が決まるのは余りに理不尽。
  93. 93. 再現性問題に関係あると思ってるものリスト ・追試 ・QRPs ・事前登録制度 ・雑誌 ・若手生存問題 ・統計(今回は省略) ・実験参加者(今回は省略) ・プレデタリ(省略してたけどおまけ) ・サイエンスコミュニケーション(今回は省略)
  94. 94. プレデタリ
  95. 95. プレデタリジャーナル いらすとやマジで 品揃えすごすぎ 高速査読・出版保証をウリにして,査読を事実上行わずに掲載させ 掲載料を得ようとする営利目的”査読"雑誌 低質な論文を多く出回らせ科学を汚し,研究者に査読誌掲載を詐 称させて評価者を欺き,公金を詐取する点で最悪の存在 前節のようにひどい状況にいる若手が悲しくもこれに手を染めてし まうことがたびたびある
  96. 96. プレデタリジャーナル 悲しくてつらくてせつなくて・・・ 圧倒的
  97. 97. Beall's list コロラド大学デンバー校の司書であったBeallが独自に作ったプレ デタリジャーナルのリスト。 Frontiersに攻撃されて閉鎖し辞職した。でも有志がデータベースを 使って復活させ,リストを拡張しながら運営中。 だいたいはこのリストで確認しながら投稿先を決めるのが良い。 絶対視する必要はないが,これに載ってる雑誌,これに載ってすら いない雑誌などは慎重になった方がいい。
  98. 98. プレデタリ学会 プレデタリジャーナルの国際学会版。こちらの方が手軽なのでよけ いにタチが悪い。狙いは莫大な参加費。 ←この図だと発表と書いてあるが,発表も無い, 学会の開催すらされないパターンも多い 国際学会発表2回で査読論文1本分として扱って学位認定できること になっている研究科などは,即刻やめた方がいい。学位が買えるの と同じことになる。
  99. 99. プレデタリについての現状 ・どれを信じればいいのか?プレプリントとの違いは何か? ・血税を使って見かけの業績を増やす行為は研究不正として処罰さ れるべき? ・プレデタリジャーナル以外のパターンも今度もっと増えそう。プ レデタリ調査会社とか
  100. 100. 結論など
  101. 101. ・すべての悪さは研究者の自由度(裁量権)が大きいことに集 約できる。これを制限し,オープンにし,あるいは研究に無関 係にすることが重要。 ・裁量権は多重性と関係する。この多重性の操作を秘密裏に行 うことで研究レースに勝とうとする。 例えば,ガチャを大人買いで多数回ドローしまくったくせに, まるで1回しかドローしてないように見せかけている。
  102. 102. ・同時にたくさんの同一の実験を走らせたり,たくさんの変数 をぶちこんだり,シミュレーション時に多数の同じ計算を同時 に回したり等は,報告されないため不顕的多重性と呼ばれる。 (Berry, 2007, 2012) プレレジ:裁量権を1つに絞り多重性を解消する オープンサイエンス:これらを「隠せなくする」 レジレポ:多重的行為を行う必要性を無くす マルチラボ追試:多重性を多人数でオープンに増大させることで     バイアスの影響を低下させる
  103. 103. ・カルチャー自体を変えていくしか無いけどすぐにはむずいだ ろう。エグゼクティブクラスはどうしても保守的になるため。 ・今後は結果そのものではなく,研究者の自由度を考慮しつつ 提出された結果を見ることになる。自由度が大きなままでいく ら画期的な発見を繰り返しても,その評価は「保留」。 ・自由度を自分でできるだけ下げることで結果が信頼性を持つ。 そういった自由度補正が大きい,信頼できる研究実践を続ける研 究者を高評価していくカルチャーが望まれる。信頼できないよう な「新規性」は滅ぼす。
  104. 104. ECRsのみなさまへ 再現性問題についての研究をみなさんも一緒に やってみてはいかがでしょうか? (思ってるより手間はかからないはず。きっと。多分。) 再現性問題で確実に既存の価値観や序列は崩れます。そこ を狙えます。 Good Research Practicesだとなんか優等生ぽかったり, なんで自分たちだけが感があったりするだろうから, State-of-the-art Research Practices (最先端の研究営為) を修得すると考えてはどうでしょう 完
  105. 105. 事前のすり合わせで出た話 横光先生:若手の若手による若手のための新雑誌が作れないか? ・日本心理学会若手の会による新雑誌「PeerJJ」構想 ・査読者に報酬 ・迅速査読 面白い試みだと思います。雑誌名は怒られる可能性もありますが,思想 は今の若手には望ましい方向性なのでは。以下欲しいもの。 ・レジレポオプションを導入 ・アクションエディター制 ・マイクロパブリケーションのセクション ・オピニオンのセクション (短い意見論文を出せる国内誌が非常に少ない) 完(リアル)
  106. 106. 本番では意味ないので削除してますが,今回の話に関連する私の文献です。 ご参考までに。全てオープンアクセスのリンク付きです: ・山田祐樹 (2016). 認知心理学における再現可能性の認知心理学 心理学評論, 59(1), 15-29. ・Yamada, Y. (2018). How to crack pre-registration: Toward transparent and open science. Frontiers in Psychology, 9:1831. ・山田祐樹 (2018). こころの測り方「自由を棄てて透明な心理学を掴む」 心理学ワールド 83, 34-35. ・山田祐樹 (2018). 再現可能性問題をハックする ―是非に及ばぬ研究コミュニティからの包囲網― ヒューマンインタフェース学会誌, 20(1), 17-22. ・佐々木恭志郎・米満文哉・山田祐樹 (2019). 利き手側の良さ ―事前登録されたCasasanto (2009) の直接的追試― 心理学評論, 62(3), 262-271. ・Ikeda, A., Xu, H., Fuji, N., Zhu, S., & Yamada, Y. (2019). Questionable research practices following pre-registration. Japanese Psychological Review, 62(3), 281-295. ・山田祐樹 (2019). 未来はごく一部の人達の手の中 ―研究者評価の歪みがもたらす心理学界全体の歪み― 心理学評論, 62(3), 296-303. ・Yamada, Y. (2019). Publish but perish regardless in Japan. Nature Human Behaviour, 3, 1035. ・佐々木恭志郎・山田祐樹 (2020). 実験心理学者も快適に論文投稿したい 認知心理学会テクニカルレポート, COGPSY-TR-007, 1-6. ・Ikeda, K., Yamada, Y., & Takahashi, K. (2020, May 26). Post-publication peer review for real. PsyArXiv. https://doi.org/10.31234/osf.io/sp3j5. ・Sasaki, K., & Yamada, Y. (2020, July 8). The pandemic threatens the Registered Reports system as well as human lives. PsyArXiv. https://doi.org/10.31234/osf.io/6wdaz. ・Yamada, Y. (2020). Micropublishing during and after the COVID-19 era. Collabra: Psychology, 6(1), 36.

More Related Content

Related Books

Free with a 30 day trial from Scribd

See all

×