#10 オープンサイエンスとデータ共有

2021.12.02

2021年G7サミットにて、オープンサイエンスの推進がSharedValueとして明記されました(https://www.consilium.europa.eu/media/50365/g7-2021-research-compact-pdf-356kb-2-pages-1.pdf)。本件はCOVID-19の影響もあり、特に強調して取り上げられている背景はあるものの、ここ数年でオープンサイエンスの推進に関する議論が特に活発になってきています。そもそもオープンサイエンスとは、非専門家の研究参加を主眼におき、データの共有や論文のオープンアクセス等による、研究と社会をつなぐための運動のことで、結果的に、研究者間の情報共有も促進してきました。ここではオープンサイエンスの概要と課題についてお話します。

オープンサイエンスの具体例

概念としてかなり広いので、少し説明が難しい部分がありますが、国家間で議論がなされるような狭義のオープンサイエンスといえば、以下の内容が挙げられます。

  • 論文のオープンアクセス
  • データの公開・共有(詳細は二章)
  • 解析プログラムの公開・共有(詳細は三章)


また、科学を開かれたものにするという性質上、広義のオープンサイエンスとして、個人的には以下のようなものも含まれると考えています。

  • 研究所の一般公開
  • サイエンスカフェ
  • 実験教室等の取り組み


エンターテイメント×サイエンスの取り組み(例:彩恵りり市岡元気先生等)
重要なのは「オープンサイエンスとは何か」ではなくて、どうすれば全人類が自由にサイエンスに取り組む事ができるかという目的意識です。

データの公開と共有の現状

データの公開と共有はかなり進んでおり、例えば著者が一番馴染みのあるゲノミクスの領域だと、次世代シーケンサから取得した配列データは論文投稿前にDDBJ等の配列データベースに登録し、その論文の読者が再利用できることを担保してから論文投稿をする文化が定着しており、ゲノミクス領域の急速な発展に貢献しました。

一方、ゲノミクス領域の場合、技術の進歩と引き換えに、遺伝子情報=究極の個人情報という観点から、取り扱いがシビアになってきており、EUのGDPRやカリフォルニアのCCPAといった、日本よりも特段に厳しいルールの中でも遺伝子情報の取り扱いについて組み込まれている時代です。こうした厳しいルールにより、遺伝子情報を取り扱うハードルが高くなるため、研究の萎縮がおきるという懸念もあり、「競争と協調」、「保護と公開」のバランスをいかにうまく取るかが議論の的になってきています。

解析プログラムの公開・共有の現状

昨今、急速なIT化により、研究の世界も様変わりしました。従来の研究イメージのようにフラスコを振って、色の変化を見るようなことは無く、測定結果はデータとして吐き出され、データ解析というプロセスを挟むことで、人間がデータを解釈するというのが主流です。データ解析というのは様々なパラメータに依存して最終的な結果がガラッと変わってしまいます。そのため、再現性の担保がかなり重要になるのですが、残念ながら再現性はあまり担保されていない現状があります。

解析手法の再現性が担保できない理由

解析手法は論文のMaterials&Methodsに記載されますし、解析プログラムが存在する場合にはGitHub等で積極的に公開する文化が根付いていますので、一見、再現性は取れるように感じるかもしれません。しかしながら実際は以下のような理由により、解析の完全再現は難しい現状があります。

解析パラメータの一部が記載されていない。
そもそも解析プログラムのパラメータが多すぎて記述できない。
解析記録に不備があったが、解析担当者が退職済で再現できない。
解析プログラムの不可逆的なバージョンアップがあった。
解析プログラムのバグ等により、データが読み込めない。
公開されている解析プログラムが古く、現代の計算機器では解析環境が再現できない。
内部的に乱数の使用や機械学習的アルゴリズムが組み込まれている。
他にも多くの要因があります。再現性の担保は、その論文の透明性の確保という意味でも重要ですが、次の研究に知見をつなげるという点で非常に重要です。そこで当社では、あたかもデータを共有するかのように解析技術を共有できるプラットフォーム「ANCAT」を開発しています。詳細は次回の記事でお話します。

まとめ

オープンサイエンスの概要と課題についてお話してきましたが、データの共有については研究から政治、法にまで議論が及ぶ程になってきましたが、解析手法についてはまだまだ共有文化の発展途上にある状態です。次回は、解析技術の共有化プラットフォーム「ANCAT」の紹介をはさみながら、解析手法共有が進んだ未来についてお話できればと思います。

 

関連記事

#7 これからデータサイエンスをチームに導入する方へ