機械学習による不⻫有機触媒の予測⼿法の開発

2023.03.31 From Chem-Station By Zeolinite

第488回のスポットライトリサーチは、北海道大学化学反応創成研究拠点(ICReDD)、Listグループの辻 信弥 (つじ のぶや)特任助教にお願いしました。

 

辻先生は、2014年のSciFinder Future Leaders in Chemistry のインタビュー記事を皮切りに、ケムステ海外研究記、第三回 ケムステVシンポ「若手化学者、海外経験を語る」、第24回ケムステVシンポ「次世代有機触媒」とケムステの記事やVシンポにご出演頂いております。

 

 

 

本プレスリリースは、機械学習によって触媒の選択性を予測した研究です。

 

近年、機械学習を⽤いて予測モデルを構築し、実験結果を定量的に評価する⼿法が開発されていますが、不⻫有機触媒の性能を精度良く予測するには量⼦化学計算が必要で、膨⼤な計算資源と時間が必要です。

 

一方、量⼦化学計算を必要としないフィンガープリント分⼦記述⼦を用いた予測は簡便かつ⾼速ですが、その予測精度の低さから不⻫有機触媒の設計への利⽤は限定的でした。

 

そこで本研究グループでは、予測精度を向上させるために触媒構造の記述に特化した柔軟な分⼦記述⼦を開発し、触媒の選択性に関する予測モデルを構築しました。

 

また、その予測に基づいてアルケンの分⼦内ヒドロ官能基化反応における⾼選択的な不⻫有機触媒の開発に成功しました。

 

この研究成果は、「Angewandte Chemie International Edition」誌に掲載され、プレスリリースにも成果の概要が公開されています。

 

Predicting Highly Enantioselective Catalysts Using Tunable Fragment Descriptors

Nobuya Tsuji, Pavel Sidorov, Chendan Zhu, Yuuya Nagata, Timur Gimadiev, Alexandre Varnek, Benjamin List

Angew. Chem. Int. Ed. 2023,e202218659

DOI: doi.org/10.1002/anie.202218659

 

研究室を主宰されている2021年ノーベル化学賞者のベンジャミン・リスト教授より研究成果と辻先生についてコメントを頂戴いたしました!

 

We are quite excited about the prospect of machine learning in chemical synthesis and catalysis. To be honest, initially I have been somewhat skeptical while other groups were already rather eager to embrace artificial intelligence (AI). Traditionally, chemists work somewhat intuitively and often design reactions on the basis of their experience. Given the success story that synthesis chemists have written, I would argue that this approach has previously served them well. However, I am also impressed by the amazing advancements AI has recently made. Not only with chatbots like ChatGTP but also with games such as chess and go. Now AlfaFold is revolutionizing structural biology. So we are very open to explore what AI can do for our community. In this regard, I am glad to work with Dr. Tsuji on this project. He is very smart chemical synthesis and catalysis scientist and has quickly been able to familiarize himself with both machine learning approaches as well as computational chemistry. He also is an integrative person who manages the team and the many collaborations we have with other groups at ICReDD.

 

Q1. 今回プレスリリースとなったのはどんな研究ですか?簡単にご説明ください。

今回発表した研究は不斉触媒開発に向けた記述子の開発と、その実証としての不斉テトラヒドロピラン(THP)環合成です。ケムステ読者の方は実験系の方が多いように思うので、ちょっと長めに書きます。

 

近年、不斉触媒開発の場においても機械学習を用いた予測モデル構築および高選択的な触媒構造の予測の手法はホットトピックであり、実際に様々なグループから報告されています。

 

しかし、精度良い予測のためには計算化学的手法に基づいた分子構造や電子状態の情報が必要であることが多く、それでも得られる知見は化学者の直観を大きく超えるものではありませんでした。

 

ここで、実験化学者として改めて考えてみた際に、必ずしも3次元構造や細かい電子状態の数字が無くとも、検討結果とにらめっこすることで二次元構造から間接的に何らかの傾向を掴むことは可能で、これまで実際にそうして『良さそう』な触媒の構造を提案して合成してきたと気づきました。

 

今回目指したのは、そうした実験化学者の直観に沿うような記述子の開発でした。

 

一方で、フィンガープリント分子記述子などの二次元構造に基づく記述子は、量子化学計算などが不要であるという大きな利点があり、これまでにも生理活性物質の構造活性相関やマテリアル分野において長く使われてきました。

 

しかしながら、不斉触媒開発の場において、こうしたフィンガープリント記述子をそのまま流用しても予測精度は限られており、2020年の総説にも

 

these rapidly calculable descriptors frequently do not contain the chemical information necessary for many applications, including for some systems in enantioselective catalysis. Further, when correlations are constructed that are predictive it is likely that the model is simply recognizing patterns in features and relating them to experimental performance…(まだまだ続く)”

 

などと書かれてしまう始末でした。[1]

 

今回我々が用いたのは同じ二次元構造に基づく記述子でもフィンガープリントではなくCGR (Condensed Graph of Reaction)という表現を使った記述子です。

 

その一つが北大ICReDDの外国人PIであるVarnek教授らの開発したISIDA記述子であり、この特徴としてCGRにより化学反応自体を記述できること、フラグメントを柔軟に設定できること、などがあります。

 

[2] Varnek教授らは”Adaptive”なんて表現したりしますが、つまりその系に最適な形で使用できるということです。実際に初期検討において、従来のISIDA記述子でもフィンガープリント記述子の最も良い結果と同等か少し良いくらいの相関が得られました。

 

そこで、我々は新たにCircuS (Circular Substructure)を開発しました。これは過去のISIDA記述子になかった分岐構造や環構造の表現を可能にしたものです。

 

今回用いた触媒のBINOL-3,3’位の置換基はほとんどがヘテロ原子を含まない炭化水素であり、そうした微妙な差を読み取るために必要な機能を実装することで、実際にベンチマークにおいてCircuSが最も良い相関を示すことを見つけました。

 

 

 

この新しい記述子を用いることで、実際に課題を解決したのが後半部分です。

 

過去にアルケンのヒドロアルコキシ化については報告済みですが、テトラヒドロフラン(THF)環合成については高収率・高エナンチオ選択性を達成していたものの、THP環合成に関しては中程度の収率、かつ選択性も90%ee以下であり改善の余地を残していました。

 

[3] そこで、THFのデータ(35種類)+THPのデータ(35種類、81:19 e.r. から18:82 e.r.まで)を合わせてトレーニングデータを作り、そこから最も良さそうな触媒の構造を予測することにしました。

 

ここでTHPの検討データに関しては北大ICReDDの長田先生に協力していただくことで、自動合成装置を用いて反応→処理→SFCによる分析→csvでの出力まで殆ど自動でできるような枠組みを作ることができました。

 

そうして得られた結果をもとにベンチマークと同様にモデルを構築すると、ここでも比較的良い相関が得られました。

 

そこで、触媒において変更しやすい置換基について、実験的に試していない190種類の組み合わせの触媒の選択性を予測し、そのうちのいくつかを新たに合成して検討したところ、実際に予測値とかなり近い結果が得られることが分かりました。

 

また、今回用いたモデルは反応条件も考慮できるので、一番良さそうな触媒で90%eeを超えるような条件をモデルから導き、実際に検討したところ、予測値とほぼ一致するような96:4 e.r.という選択性で目的物が得られることが分かりました。

 

 

今回はハイパーパラメータの最適化に遺伝的アルゴリズムを用いていますが、Optunaなどの他のツールを用いても十分なモデルが構築できます。データさえあれば、一般的なノートPC1台で30分~数時間くらいで最終的なモデルを作成できると思います。

 

全てのプログラム及びデータセットについても自由にダウンロード可能になっているので、興味のある方はぜひ一度触ってみてください。

 

Q2. 本研究テーマについて、自分なりに工夫したところ、思い入れがあるところを教えてください。

Q1で従来の手法によって得られる予測は化学者の直観を大きく超えるものではありませんでした、と書きました。

 

ここで強調しておきたいのが、機械学習によって得られるのは、与えたデータから導かれる最もリーズナブルな予測であり、基本的に突拍子もない予測がされることはない、ということです。

 

そのため、化学者の感じる「オルト位が嵩高い方がよい」「電子不足な置換基を~に導入すると選択性が逆転する」といった直観を、何らかの記述子で定量的に議論できるような枠組みを作っていく、というのが重要になってきます。

 

こうした文脈で、外注スタイルの共同研究ではなく、実験化学者である私が情報化学を学び、情報化学者である同じく北大ICReDD所属のシドロフ先生が実験化学を学び、できるかぎり実験化学者に使いやすいようなツールを一緒に開発できたのはラッキーでした。

 

実際にそれなりの大学院生くらいの予測精度は出ていると思います。

 

Q3. 研究テーマの難しかったところはどこですか?またそれをどのように乗り越えましたか?

ICReDDで研究を始めるまでは情報化学について全く無知だったので、そういった異分野を勉強して、まず議論が出来るようになるまでが大変でした。

 

もちろん情報化学は分からないからヨロシク!で共同研究者に渡してしまうというのも一つのやり方ではあるのですが、そういった外注スタイルの共同研究だと一つの解析は出来ても、新しいツール・枠組み開発などはうまく行かないだろう、

 

と考え、ユーザーレベルであっても自分で手を動かして色々と触ってみたのが良かったと思います。ICReDDでは複数の分野に精通している人が結構多いので、色々と参考になります。

 

また当たり前ですが自前でデータを用意できたのは大きかったと思います。どうしても文献データには信頼性の問題に加え、そもそも大きな偏りがあるので…。

 

Q4. 将来は化学とどう関わっていきたいですか?

今回は実験と機械学習を組み合わせた研究について紹介しましたが、我々のグループでは計算化学や自動合成装置を組み合わせた研究も絶賛進行中です。

 

こういった新しいツールを使うのって人によっては精神的な障壁が結構高いと思うんですが、ホットトピックで論文が出るからやろう、ではなく新しいおもちゃみたいな感じで、有機合成に軸足を置きつつ楽しみながらやっています。

 

幸いなことにICReDDという研究所もボスであるList先生も、私が好きなように研究することを許してくれているので、こういった融合研究もしつつ使える手法を増やし、有機合成化学的な発展に還元していきたいです。

 

Q5. 最後に、読者の皆さんにメッセージをお願いします。

MidjourneyやStableDiffusionがイラスト界隈の流れを大きく変えつつあるように、ChatGPTやBingAIが検索や文章作成の流れを大きく変えるでしょう。

 

それは有機合成の分野においてもおそらく同じで、今回のこんなモデルで予想できる『つまんない実験』の価値は更に下がっていくでしょうし、逆にこれまで煮詰まっていて到達できなかったような反応性や選択性を現実的な時間スケールで発見できるようになるはずです。

 

使える手札が多くて損することはないので、時間がないと言い訳せずに一度色々触ってみると良いかと思います、自戒もこめて。ちなみにトップ画像の背景部分は北大ICReDD・長田先生がローカル版Stable Diffusionを用いて5分くらいで作成しました。

 

そしてここからがこの記事の中で一番大事なんですが、現在北大ICReDD・Listグループは学生・ポスドクを全力で募集中です。ポスドクなんかもList先生がノーベル化学賞を受賞した時にも公募が出ていたので、『応募数がすごそう』なんて勝手にTwitterに書かれていましたが、全然応募がありません!!

 

またICReDDは研究所だったので少し前まで学生は取れなかったのですが、現在北大総合化学院に化学反応創成研究室という研究室が出来たので、大学院生は正式に配属されることもできます。

 

現在はスタッフの私とポスドク二名に加え、北大理学部の前田理研究室との共同研究で二名の学生がいて、春から更に一人増える予定です。

 

まだまだ小さいグループですが、結構面白い研究しているという自負はあって、今回紹介したような融合研究だけじゃなく、かなり面白いガチ不斉有機触媒のトピックもぼちぼち仕上がりそうです。

 

実験設備の面でもかなり充実していて、一通りの分析装置やフラッシュ自動精製装置、TLC-MS等もありますし、4月からは新しい建物に引っ越して、スペースも更に広くなる予定です。

 

List先生は普段ドイツにいるので、名前借りてるだけでは?と思われてる方もいるかもしれないんですが、普段から一緒にセミナーやディスカッションをしていて、私自身は学生としてミュールハイムにいた頃よりも彼と話しています。

 

List先生自身も(コロナ禍の間ではかないませんでしたが)札幌に年に1,2回ですが訪れて、けっこう長めに滞在してくれています。

 

という事で、手前味噌ですがかなりお勧めの研究室です!興味のある方はぜひ一度ご連絡ください!!

 

また最後になりましたが、今回私の色々な無茶な要求の数々に答えてくれた北大ICReDD・シドロフ先生をはじめとして、本研究にお力添えいただいた長田先生、Varnek先生、List先生を含む共同研究者の皆様、そしてICReDDおよびList研の皆様に感謝申し上げます。

 

参考文献

[1] A. F. Zahrt, S. V. Athavale, S. E. Denmark, Chem. Rev. 2020120, 1620-1689.[2] A. Varnek, D. Fourches, D. Horvath, O. Klimchuk, C. Gaudin, P. Vayer, V. Solov’ev, F. Hoonakker, I. V. Tetko, G. Marcou, Current Computer-Aided Drug Design 20084, 191-191.[3] N. Tsuji, J. L. Kennemur, T. Buyck, S. Lee, S. Prevost, P. S. J. Kaib, D. Bykov, C. Fares, B. List, Science 2018359, 1501-1505.

 

研究者の略歴

名前: 辻 信弥(つじ のぶや)

所属(大学・学部・研究室): 北海道大学化学反応創成研究拠点(ICReDD)、Listグループ

研究テーマ: 不斉有機触媒を用いた反応開発

2018  Ph.D. マックスプランク石炭研究所 (Prof. Benjamin List)

2019  博士研究員 カリフォルニア大学バークレー校 (Prof. Omar M. Yaghi)

2020- 特任助教/Co-PI, 北海道大学化学反応創成研究拠点 (Prof. Benjamin List)

(記事協力:Chem-Station)