文献中の実験記述と機械学習を利用した実験検索・提案システム『LEXAS』

2023.12.05 資料提供元 株式会社東京大学TLO

はじめに

生命科学の研究者は実験計画の過程で多くの論文やデータベースを参照しますが、その全ての情報を完全に理解するのは困難です。

そこで私たちは、このような情報の海を効果的にナビゲートするためのツールとして、生命科学実験の検索・提案システムLEXASを開発しました。

開発の背景

生命科学では、関連する複数の遺伝子に注目して実験が進められ、生命に関するさまざまな現象を明らかにしています。

解析対象とする遺伝子を選ぶ際には、研究者は数多くの論文やデータベースを参照し、関連する遺伝子を推定します。

これまでは、遺伝子の関連性を予測するためのツールとして、STRINGFunCoupが一般的に使用されてきました。しかし、これらのツールは過去の研究文献における詳細な実験情報を考慮していません。

 

私たちは、論文に書かれた実験の記述を機械学習に取り入れることで、研究者の実験計画を模倣する効果的なモデルを構築できるのではないかと考えました。

 

次に実験するべき遺伝子を提案するシステム「LEXAS」

私たちは論文から自動で取得した詳細な実験情報と、さまざまな遺伝子データベースの情報を利用して、次に実験するべき遺伝子を提案するシステム、LEXASを構築しました。

開発のプロセス

まず、PubMed Centralに掲載されている論文から、bio-BERTという深層学習モデルを用いて、遺伝子実験に関する情報をおよそ2000万件取得しました。

 

次に、収集した実験の進行順の情報と遺伝子データベースの情報を組み合わせて、次に実験の対象とするべき遺伝子を提案する機械学習モデルを構築しました。アルゴリズムは、ロジスティック回帰、サポートベクターマシン、XGBoost等を検討し、最も性能が高かったXGBoostを採用しました。

 

評価の際は、2018年までの論文の実験情報を用いて学習させたモデルを使用し、2020年以降の実験がどれだけ提案できるかを検証しました。この検証の結果、LEXASは類似する関連遺伝子予測ツールであるSTRING、FunCoup、GOSemSimに比べ、次に実験される遺伝子を有意に高い精度で予測できることがわかりました。

また、LEXASは入力される遺伝子の過去の研究の量や転写産物の細胞内局在に関係なく、もっとも高い予測精度を示しました。

 

 

実行例

LEXASは、SearchとSuggestionの二つのインターフェースを有しております。

 

Search(実験検索機能)

Searchのインターフェースでは、ユーザーが関心を持つヒトの遺伝子名を入力欄に記入し、ドロップダウンメニューで実験の手法を選択することで、該当する実験の一覧が表示されます。


例として、PCNTという遺伝子名を入力し、免疫染色を選択した検索結果を示したものを図示します。

 

表示される結果は、7つの列「Confidence」「Year」「PMCID」「Journal」「Gene」「Experiment」「Sentence」で構成されます。

「Sentence」には、実験を記述する文が表示され、黄色い下線部分は手法、水色の下線部分はその手法が適用された遺伝子を示しています。「Confidence」は、表示される手法と遺伝子の関連の信頼度を示すもので、低いConfidenceのものはその手法がその遺伝子に適用されていない可能性があることを表しています。

「Year」「PMCID」「Journal」は、該当の実験が記載されている論文の出版年、PubMed Central ID、そして雑誌の名称を示します。また、GeneとExperimentは文中での遺伝子と手法を示しています。

 

Suggestion(実験提案機能)

Suggestionのインターフェースでは、ユーザーが関心を持つヒト遺伝子名を入力欄に記入し、ドロップダウンメニューから特定の提案モデルを選択することで、次の実験の対象として提案される遺伝子の一覧が表示されます。


例として、複製起点認識複合体のサブユニットをコードするORC2遺伝子を基に、次の実験対象として考えられる遺伝子の提案結果を図示しました。

 

表示される結果は、「Rank」「Symbol」「Score」「Features and their importance」「Mentioned in the same paper」「Experiment」の6つの列からなり、「Score」に基づいて降順にランク付けされています。

 

「Features and their importance」では、提案の根拠となった特徴とその重要度を示すSHAP値が表示されます。SHAP値は特定の提案の背後にある理由の重要度を示す数値で、この値が大きいほどその特徴が強く考慮されていることを表します。

例えば、トップのORC4遺伝子に対する提案では、がん細胞が依存する遺伝子の情報を持つDepMapデータベースの情報が最も重要であり、その後にNucleoplasmへの局在、H4-16との結合、精子での高発現、膵臓での低発現などの情報が続いています。

 

「Mentioned in the same paper」は、入力遺伝子に対する実験と提案遺伝子に対する実験の両方が行われた論文の数を示しており、ORC2とORC4は過去に6回同じ文献で取り上げられていることがわかります。

一方、4位のGTF3C4遺伝子はORC2と同じ文献には記載されたことがないため、未知の関連遺伝子の可能性があります。「Experiment」の部分は、提案された遺伝子を対象とした潜在的な実験方法を示しています。

 

おわりに

最近の生命科学の研究では、AI技術の導入が急速に進んでいます。

タンパク質のアミノ酸配列からその構造を高い精度で推定するAlphaFoldやESM-Fold、がん依存性のDepMapデータベースの情報を基に遺伝子の機能を予測するWebsterのようなツールが続々と登場しています。これらのシステムは、蓄積された大規模なデータをもとに、手動では解析が難しい情報処理を実施して、驚くべき成果をあげています。

 

一方で私たちは、こうしたシステムが考慮しない、論文に記述された自然言語もまた、非常に価値の高い情報であると考えています。

私たちが構築したLEXASは、多数の論文データを効果的に利用して、実験の検索や提案を行う機械学習システムです。

 

研究者が大量情報に利用できるこの時代に、LEXASが情報の整理と把握のサポートを提供し、研究の進展を加速させることを願っています。

 

著者紹介:伊藤慶

東京大学大学院・薬学系研究科の博士課程3年(現在)。 2020年より同大学院の情報学系研究科を副専攻している。