Series
かたつむりの気になる国際動向
もう一つのオープンサイエンス:再現性の危機とプレレジ
佐藤 翔
24/11/22
同志社大学
1.オープンサイエンスといえば……?
JPCOARウェブマガジンを主に読まれているような、大学/研究図書館界隈の方々にとって、オープンサイエンスと言えば「論文のオープンアクセス+研究データの公開」くらいの認識なのではないかと思います。かく言う自分もかつて、学術情報流通と図書館に関する文献・動向レビューの中でオープンサイエンスについて、科学技術・学術政策研究所(NISTEP)の林さんの「研究活動をよりオープンにして科学と社会の変容をも促す」ムーブメントであるというまとめ[1]等も引用しつつ様々な動向を紹介しておきながら、その次の段落で「以上は長期的なスパンの改革であり、短期的には研究データの利活用が焦点」と、バサッと切ったまとめ方をしてしまっていました[2]。 しかし同じオープンサイエンスという言葉を用い、かつ「研究活動をよりオープンに」という部分も共通しつつも、だいぶ異なる文脈で使うことが一般化している業界もあります。心理学です。もちろん心理学においても論文のオープンアクセスや研究データのオープン化のことも「オープンサイエンス」と呼ばれていますが、それらとあわせて研究実施前に研究目的・仮説・手続き等を登録・公開する、事前登録(pre-registration、プレレジ)も、「研究着手前段階でのオープン化」としてオープンサイエンスの重要な一要素になっています[3]。その背景にあるのは、特に心理学分野で大きな問題となっている、「再現性の危機」です。
2.「再現性の危機」とは?
「再現性の危機」あるいは「再現可能性の危機」とは近年、心理学分野を中心に問題となっている、多くの論文について、そこで報告されている現象を他の研究者が追試しても再現できない、言い換えれば本当にそんな現象や効果があるのか確かめられない、という問題です。2011年頃から心理学分野の重要な論文について、研究不正や疑わしい研究実践(Questionable Research Practices,QRPs)が発覚します[4]。それを受けて実施された再現性の大規模調査では、対象とした100の過去の研究について再現実験を試みたところ、元の実験では97%で統計的に仮説を支持する結果が報告されていたのに対し、再現実験では36%でしか同様の効果が確認できませんでした [5]。研究活動は過去に検証済みの結果の上に積み重ねていくものですから、実は検証済みだと思っていた成果がそうではないとなると、「心理学における知識体系の瓦解」が起こるとまで言われています[4]。実際、一般にまで広く知れわたっているようなもの、あるいは社会的に大きな影響力を持った研究結果の中にも、再現しようとしてみたところ確認できないものが多数、あることが報告されています[6]。 悪意のある研究不正はさておき、QRPsにより再現性のない研究結果が報告されるというのはどういうことでしょう。心理学に限らず様々な分野において(我が図書館情報学も)、A群とB群を比べて(あるいは複数のグループを比べて)意味のある差があったと言えるのかどうかは、統計的仮説検定を用いて検証しています。例えば大学図書館を利用する学生と利用しない学生で、GPAの平均に0.1の差があった(大学図書館を使っている学生の方が高かった)とします。それだけで「図書館を使っている学生の方が成績が良い!」と言えるかというと、GPA平均で0.1くらいの差が出る、というのは偶然でも起こるかもしれません。どんな現象だって2つ以上のグループで全く同じ結果になるということはまずありえず、多少の差は出て当然なわけですが、じゃあどれくらい差があったら偶然出たちょっとの差ではなく、なんらかの理由でグループ間に偏りが出ているんだと言えるのでしょうか。現代科学の多くの分野は、これをデータの性質から考えて、そのくらいの差が出る確率によって論じています。統計学等の領域では様々な分布をなすデータについて、データの偏りが偶然発生する確率を検証するモデルが確立されています。この知見を使って、今、手元のデータで生じているデータの偏りが偶然で起きる確率を検証し、その確率がある基準を超えて低ければ「これは偶然ではない=確かにデータに差がある」と論じるわけです。基準とする確率は5%、1%、0.1%などでキリのいいところが慣習的に選ばれます。5%(0.05)を基準とする場合、5%未満の確率でしか偶然には発生しえないくらいのデータの偏りが生じていたら、その差は偶然ではない……先の例で言えば、大学図書館を使っている学生の方が確かに(「統計的に有意に」)GPAが高いと言える、ということになります。この時、確率をp(アルファベットの小文字のpを斜体にしたもの)で表現し、「p < 0.05 で統計的に有意な差があった」等と記述します。これが統計的仮説検定です。 ……と、いう話を前提として。要はこのpが十分に……0.05や0.01よりも低くなるくらいの差が出れば、「大学図書館を使っている学生の方がGPAが高い」等と論じられるわけですが、逆に言えば実験を行ったり既存のデータを分析してなんらかの仮説を検証して、ちょっとは仮説通りの差がありそうな結果になったとしても、pが基準を上回ったなら、仮説は立証できなかった、ということになります。pが0.0501とか、ほんのちょっとだけ0.05を上回ってもダメです。そして多くの場合、しっかり実験計画を練って、適切に実験をおこなってデータを集めても、狙っていた仮説が検証できなかった場合、「研究はうまくいかなかった」ということになり、仮に論文に書いてもなかなか受理してもらえない、ということになります。「大学図書館の利用とGPAに関係があった」は受理されても、「大学図書館の利用とGPAに関係があるかわからなかった」「あるとは言えなかった」では受理してもらえないわけです。まあ図書館情報学は牧歌的な分野なのでそれでも受理してもらえそうな気がしますが、研究激戦区である心理学では仮説が立証できなかった論文は、そうそう受理してもらえるものではありませんでした。 そこでpをなんとか低くして、仮説を立証できたことにしようという、不正というほどではないけど微妙なQRPsが横行します。例えば特定のデータを恣意的に分析から除く(「これは外れ値ってことにしよう」)とか、あとちょっとだけデータ数を増やせばpが基準を下回りそうだからちょっとだけ有利になるようにデータを増やすとか、pが基準を下回るような別の統計的分析に切り替えることを模索するとか……。こうしたQRPsを「pハッキング」と呼びます[4]。 あるいは、最初から仮説を立てずにデータ分析を実施しておいて、pが基準を下回った結果について、あとからもっともらしい仮説を作って、あらかじめ考えていた仮説を検証した論文として報告するという、HARKing(Hypothesizing After the Results are Known - ing)というQRPsもあります[4]。基準を5%(0.05)とした場合、100回やって5回、つまり20回に1回くらいは発生する偶然は許容することになります。狙ってやった1つの仮説検証で20分の1を引き当てる……ということはそうそうないだろうというわけですが、20種類の分析をやってそのうちどれかが0.05を引き当てる確率は64%以上、3分の2にもなります。ちょっと前に自分も数十種類の分析をやった上で0.05を下回った結果について「統計的に有意な差が確認された」と報告する論文を投稿して、「そんだけやればそりゃ1回くらいは出るだろ」と査読で突っ込まれるまで思い至らなかった、というポカをやらかしたことがありました。もしそのとき他にもいくつもの分析をやったことを報告せず、統計的に有意な結果が出たところだけ報告していれば通っていたかもしれない、という話です。 pハッキングやHARKingが横行すると、実際には統計的に有意な差が出ない現象について論文で報告され、他の人が試してみても再現できないという、「再現性の危機」が発生することになります。再現性の危機についてより詳しくは九州大学・山田祐樹先生の『心理学を遊撃する』という図書をぜひ読んでください[7]。CiNii Booksで検索したら89館しか所蔵していない(2024年10月24日時点)のでもっと各館買ってください。そしてこのpハッキングやHARKingに対する有効策の一つとして心理学分野で広がってきているのが、前章末尾で紹介した事前登録(プレレジ)なのです。
3.事前登録(プレレジ)とは?
プレレジとは実験を行う前に、サンプルサイズや分析方法等の実験内容をしっかり定めた上で、第三者機関に登録し、タイムスタンプをつけて先んじて公開しておくという制度です。実験を行って実際にデータに触れる前の段階で、どんな仮説を検証するためにどういう実験を行うか、仮説が立証できるかどうかはどう分析するか等を定めて公開しておくことで、やってみて上手くいかなかったからこうしようというpハッキングや、やってみてから仮説を考えようというHARKingをしていないことを保証しようというわけです[3][4]。
心理学分野におけるプレレジ先として最も一般的なのはCenter for Open Science(COS)が運用するOSF registriesです。COSというと図書館界隈においてはプレプリント・サーバの運用というイメージが強いと思うのですが、COSがプレプリント事業を開始するのは2016年なのに対し、プレレジ事業は2013年から開始しており、そもそもCOSは心理学分野の再現性の危機問題に対処するために始まったものです。2022年にはプレレジ登録数が10万件を超えたとされており[8]、「再現性の危機」を克服するためのオープンサイエンス、その一環としてのプレレジの総本山と言ってもよさそうです。
しかしプレレジをしたうえで実験をしてみて、思ったような成果が出なかったら、仮説が検証できず論文が公開できないじゃないか……という懸念も当然、湧いてきます。そこで更なる発展形として、プレレジの段階で内容の査読をやってしまう、事前登録論文という制度を採り入れる雑誌も出てきています。プレレジの時点で研究目的や仮説、手法の妥当性を評価し、それが妥当なものなら、そしてその計画通りに実験を行っていたなら、実験の結果が仮説を支持するものでなかったとしても論文は掲載しよう、というのが事前登録論文です。そもそも仮説を支持する結果が出た論文ばかり査読を通るというバイアス自体も問題なのであって、事前登録論文はこのバイアスを無効化し、検証すること自体に意味がある仮説について、妥当な実験の結果として支持されないことがわかったなら、それも発表する意味のある結果であると捉え直す試みとも言えます[9]。実際に、一般的な心理学分野の論文で仮説を支持されなかったものは4%にとどまったのに対し、事前登録論文では56%が仮説を支持しない結果を報告するものであったという調査もあります[10]。これについてはそもそも、仮説が支持されなさそうな時に事前登録論文にするからじゃないかとか、意識の高い人が事前登録論文を選ぶからじゃないかといった指摘もありますが、事前登録論文ならプレレジをしたうえで、プレレジ通りに実験をおこなってさえいれば、仮説が立証できなくても論文として掲載される、というのは確かなわけで、プレレジを推進したい人にとっては大きな安心材料です。
4.プレレジはちゃんと機能しているの?
こうして心理学分野の「オープンサイエンス」の慣行として普及しつつあるプレレジですが、実際に狙った通りに機能しているのかについては実はまだ問題がある、と指摘する論文が最近(2024年10月)、発表されています[11]。ちなみに先述の山田先生もこの論文の共著者に入っています。 この論文はCOSのプレレジを推進するイニシアティブを受賞した研究など、プレレジされていた上で雑誌に掲載された論文を対象に、プレレジに書かれている内容で研究を実施するのに十分な情報が提供されていたか―producibility。再現性 (reproducibility)の「再」(re)部分を取った言葉なので、実現性?―と、プレレジに書かれていたとおりに研究がおこなわれているか―consistency。一貫性―を評価した、というものです。多くの研究は複数の仮説を検証していますが、その中から1研究につき1つの仮説を選択し、合計300対のプレレジ―論文における仮説検証のペアについて、実現性と一貫性が評価されました。1ペアの評価には通常20~80分、時には数時間かかることもあったとのことで、著者の苦労が推察されます。 分析の結果、多くのプレレジが実現性に欠けており(プレレジの内容だけでは実際に研究を実施するには不十分)、また一貫性にも問題があった(プレレジ内容と論文での手順が異なっている)ことがわかった、とされています。詳しく見ると、実験で扱う変数(どんな要因が、何に影響するか)の部分についてはプレレジに十分情報が記載されていて、結果を示した論文との一貫性もあったとのことです。一方でデータ収集の方法、分析に使う統計モデル、分析から除外するデータの基準についてはプレレジの内容が不十分であったり、プレレジと結果論文の内容が異なることが多かったとされています。ということは、HARKingはプレレジで防げているけれど(変数、すなわち分析に使って相互の関係を見る項目は先に明示され、その通りに実験されているので)、pハッキングについては防ぎ切れていない(pの値を下げるために方法を変えた可能性がありうる)と、言えるでしょうか。そう疑われないためにも、事前登録と結果論文で変更した部分についてはなぜ変えたかという理由を論文中に明示して透明性を確保すること(それがなされていない論文も多かったと指摘されています)、そもそもプレレジをより実現性の高い包括的なものにするべく、研究者へのトレーニング・教育を行っていくことや、プレレジに含めるべき内容についての詳細なテンプレートを作成すること、等が提言されています。
5.「オープンサイエンス」の広がりをとらえる
未だ完璧というわけではないプレレジですが、ともあれプレレジに代表される再現性の危機への対処は、オープンサイエンスの重要な側面です。研究データの公開等も心理学分野においてはこの文脈で捉えられ、むしろそれこそが「オープンサイエンス」と思っている人も多いはず。 しかし論文のオープンアクセス、それも雑誌価格高騰問題への対処、という文脈から入ってきた大学図書館界隈と、再現性の危機問題への対処を重視する界隈の間には、意外に接点が少ない印象もあります。「オープンサイエンス」の広がりを捉えていくうえでは、再現性の危機問題に目を向けていく必要がありそうだなあ、と思って今回の記事を書いた次第、とかなんとか。
ということで繰り返しになりますが『心理学を遊撃する』を皆さん読みましょう!
[1] 林和弘. オープンアクセスとオープンサイエンスの最近の動向:ビジョンと喫緊の課題. 表面科学. 2016, vol.37, no.6, p.258-262.
[2] 佐藤翔. 学術情報流通と図書館: オープンアクセスからオープンサイエンス. 図書館界. 2018, vol.70, no.1, p.245-264.
[3] 三浦麻子. 心理学におけるオープンサイエンス:「統計革命」のインフラストラクチャー. 心理学評論. 2018, vol.61, no.1, p.3-12.
[4] 山田祐樹. 自由を棄てて透明な心理学を掴む. 心理学ワールド. 2018, vol.83, p.34-35. https://psych.or.jp/publication/world083/pw15/, (参照2024-10-25).
[5] Open Science Collaboration. Estimating the reproducibility of psychological science. Science. 2015, vol.349, no.6251, https://doi.org/10.1126/science.aac4716, (参照2024-10-25).
[6] リッチー, スチュアート. Science Fictions:あなたが知らない科学の真実. 矢羽野薫訳. ダイヤモンド社, 2024, 448p.
[7] 山田祐樹. 心理学を遊撃する:再現性問題は恥だが役に立つ. ちとせプレス, 2024, 240p.
[8] Pfeiffer, N.; Call, M. “Surpassing 100,000 Registrations on OSF: Strides in Adoption of Open and Reproducible Research”. Center for Open Science. https://www.cos.io/blog/surpassing-100000-registrations-on-osf, (参照2024-10-25).
[9] 佐藤翔.査読におけるバイアスとその抑制の試み. 人工知能. 2023, vol.38, no.3, p.366-374.
[10] Scheel, A. M. et al. An Excess of Positive Results: Comparing the Standard Psychology Literature With Registered Reports. Advances in Methods and Practices in Psychological Science. 2021, vol.4, no.2. https://doi.org/10.1177/25152459211007467, (参照2024-10-25).
[11] van den Akker, O. et al. The Potential of Preregistration in Psychology: Assessing Preregistration Producibility and Preregistration-Study Consistency. Psychological Methods. Advance online publication. https://doi.org/10.1037/met0000687, (参照2024-10-25).