どの研究成果に再現性がないのか?なんてよく分からんわ

心理学で実験的な研究が再現できない問題が話題になってから何年も経つ。私は現在の事情は把握しきれてないが、どうも教科書をかなり書き換えないといけない?と思わせるほどの、激しい動きになってるようだ1。最近草稿が出た再現性問題を扱った論文は、こんな書き出しで始まっている。

The 2010s were considered psychology’s decade of “crisis” (Giner-Sorolla, 2019;Hughes, 2018), “revolution” (Spellman, 2015; Vazire, 2018), or “renaissance” (Nelson et al., 2018) depending on one’s perspective.

2010年代は、人によっては「危機」とか「革命」とか「ルネサンス」とも称される、心理学の十年となった。

"Replicability, Robustness, and Reproducibility in Psychological Science"p.4より

革命とかルネサンスと呼ばれるには、心理学の先が明るいとは必ずしも言えない気がするが、言いたいことはなんとなく分かる。

それにしても、こうした再現性危機のせいで、いささかこのブログの記事も書きにくい2。最近もツイッターで、ある心理学研究が再現性がないのにある企業で採用されてるのに怒っているツイートを見た。私も事情を知らなかったのでそれを見て驚いた。だが、日本の有名な心理学雑誌のサイトでもその研究が紹介されてるのにも怒っていたので、必ずしも私が無知という訳でもないらしい。

追試が失敗した研究でも引用され続けてる

次に引用する最近の論文は、心理学だけでなく経済学やNature/Scienceも含めた学術誌に載った研究の再現性を確かめた追試がされた成果について調べた論文だ。

RESULTS Nonreplicable publications are cited more even after the replication study is published

結果 再現性を調べた研究が出版された後でも、再現性のない研究は多く引用され続けている

Marta Serra-Garcia and Uri Gneezy "Nonreplicable publications are cited more than replicable ones"p.1of7より

具体的な内容は論文を読んでもらうとして、再現性のない研究が参照され続けるのは、別に日本だけの問題でもないのだ。ちなみに、否定的な引用のせいで引用数が増えてるのではないことは、この論文の中で触れられている。

再現性のない論文が引用され続ける理由

Why are papers that failed to replicate cited more? A possible answer is that the review team may face a trade-off. Although they expect some results to be less robust than others, as shown in the predictions of experts, they are willing to accept this lower expected reliability of the results in some cases. As a result, when the paper is more interesting, the review team may apply lower standards regarding its reproducibility.

なぜ再現性に失敗した論文が引用され続けるのか?ありそうな答えは、レビュアーたちが取引すべき交換条件に面している可能性だ。レビュアーは(専門家の予測に見られるように)他の研究よりも確かでない結果だと思ってるにしても、レビュアーは時には確かさが低いと思われる結果でも受け入れようとすることがある。つまり、その論文が他より興味深くて面白いのなら、レビュアーは再現性について低い基準を採用することもあるのだ。

Marta Serra-Garcia and Uri Gneezy "Nonreplicable publications are cited more than replicable ones"p.4of7より

まぁ、確かだけどつまらない研究と不確実だけど面白い研究があったら、面白い方を取りたくなる気持ちは分からなくもない。

ただし、採用そのものでなく引用を調べてるのだから、レビュアーの心性でなく著者の心性を見るべきでは?という突っ込みはしたくなる。レビュアーが引用先の確かさをわざわざ確認してる…とはあまり思えない。むしろ、単に著者が追試の存在を知らないだけの可能性も高い気がする。

フェイクニュースについての研究でも、フェイクニュースそのものの広がりやすさに比べて、訂正記事はなかなか読まれないという成果を聞いたことがある。これはフェイクニュースの面白さ(訂正記事のつまらなさ)に由来するのだろうが、おそらく学術的な研究でも似たことは起こりやすいのだと思う。そうした辺りを調べるメタサイエンス(科学についての科学)…みたいのが本格的に必要とされてるのかもしれない。

  • 追記(2021/06/10) ここで取り上げた論文の紹介がされてます

  1. 最近は、(特に社会心理学の)古典的研究までかなり疑われるようになっている。ただ、例えば疑われているスタンフォード監獄実験なんてそもそもの再現自体が不可能だったのだから、単なる再現性問題の域を既に超えている。もとから心理学には神話が多かった(例えば狼に育てられた少年)のに、それが更に厳しく刈り取られることになりそうだ。私は心理学の目的そのものを書き換えた方がいいと思うが、その話は別の機会にする

  2. とはいえ、もともとこのブログは実験や調査を行なったオリジナル論文を紹介することはあまりない。現実には、私自身はレビュー論文を読むことの方が明らかに多い。その理由は簡単で、オリジナル論文を読んでもその領域の知識がないと内容を評価できない、と思ってるからだ。例えば支持政党が違うと脳の働きが違う…みたいな論文を読まされてそれをどう評価しろと?これは00年代にありがちだった極端な例だが、どっちみち単独の研究を簡単に一般化できる訳ない…とは個人的には前から思っていた。なので、再現性問題は私には比較的に受け入れやすかったのだが、それがここまで大ごとになるとは流石に思っていなかった。