Родиевые катализаторы уже полвека энантиоселективно превращают алкены в водород (гидрирование). Об этих типах катализаторов и механизме реакций, лежащих в их основе, было опубликовано множество статей, поэтому можно было бы ожидать более глубокого понимания этих каталитических реакций. Но до сих пор не существует простого способа быстро подобрать подходящие лиганды для вашего гомогенного катализатора при смене субстрата. Адарш Каликадиен, Евгений Пидко и коллеги из Делфтского технического университета и компании Janssen Pharmaceutica хотели посмотреть, смогут ли они разработать для этого прогнозирующую модель с помощью машинного обучения, но проект оказался не таким, как ожидалось.
«Идея была несложной», — говорит Калкадян, аспирант из группы Бидко. «Мы создали простую модель реакции с использованием очень известного родиевого катализатора. Целью было создание статистических моделей, позволяющих предсказать, какие катализаторы и лиганды можно использовать, чтобы вам требовалось меньше проб и ошибок. Они использовали разные модели машинного обучения. на ряде вычислительных данных и высокопроизводительных экспериментах, которые проводил Янссен.
случайный
Команда сравнила, среди прочего, производительность этих моделей. Каликадин: «Мы рассчитали все виды свойств на основе квантовой химии — самых сложных и дорогих вычислений — и двумерной химической информатики, а также двумерных представлений». Эти свойства представляют собой различные представления стимула с точки зрения модели. В качестве теста они также добавили случайный набор, содержащий 34 случайных числа от -100 до 100. «Странно то, что все более простые модели, включая случайную, показали ту же производительность, что и дорогая версия, они оказались совершенно бесполезными;
«Мы сделали все открытым исходным кодом».
То, что не отразилось в статье, но повлияло на проект, было просто Цензура Внутри команды. «На компьютере вы можете нарисовать трехмерную структуру катализатора, который вы протестировали при определенных условиях. Затем вы можете выполнить расчеты DFT и извлечь свойства», — говорит Каликадин. «Теперь мы использовали для этого номера CAS лигандов. цель. Но мы не осознавали, что номера CAS и рисунки на флаконах в лаборатории не соответствовали нашим 3D-структурам.
«Мы потратили месяцы на обсуждение функций с командой и внесение улучшений, и в итоге получили действительно хорошие расчеты на высоком вычислительном уровне», — продолжает аспирант. Но в ходе некой встречи выяснилось, что математические структуры не указывают на правильные структуры. идентификаторы Для экспериментальных данных! Поэтому нам пришлось просмотреть все эти структуры одну за другой, чтобы увидеть, где что-то не так. Когда мы обработали правильные молекулы и создали новую статистическую модель, мы были удивлены, получив почти такие же результаты. Итак, один из выводов был: для этого ком. Подход к моделированию, не важно, что вы в него вкладываете. Это было признаком того, что модель мало чему научилась из конкретного представления. «Оглядываясь назад, мы можем посмеяться над этим, но во время проекта это отняло у меня часть здравомыслия», — смеется он.
Оценивать
Предполагалось, что это будет простой проект, но он пошёл не так, как ожидалось. «Многие результаты меня немного разочаровали», — признается Каликадин. Однако исследование – и особенно полученные в результате него данные – оказались чрезвычайно ценными, особенно в свете развития машинного обучения. «Вот почему мы сделали все открытым исходным кодом. Не только можно просмотреть все данные, но мы также предоставляем код, включая пакеты и руководства, так что любой желающий может провести такое же исследование».
Поэтому они опубликовали один из крупнейших наборов данных для конкретного типа реакции гидрирования. «Публикация по-прежнему была проблемой. Это было очень глубокое исследование того, как машинное обучение работает в химии, и не все выводы были положительными. Это привело к тому, что известный журнал отклонил статью, поскольку посчитал, что «она здесь неуместна». К счастью, он выстоял». Химические науки Более открыты для этого, поэтому мы можем размещать там наши данные, код и даже интерактивные числа.
Значимый
Что теперь? «Наше представление было не таким значимым, как мы надеялись, поэтому теперь мы ищем представление стимула, которое, возможно, было бы менее упрощенным, но все же настолько простым, насколько это возможно», — говорит Каликадян. «Вы также хотите, чтобы затраты не стали слишком высокими, поэтому мы стараемся включить в модель больше информации о механизме реакции, не делая ее слишком широкой. Итак, динамическая версия представления».
Каликадин А.В. и др. (2024) Химия. Научная фантастика.Цифровой идентификатор: 10.1039/D4SC03647F
«Создатель. Дружелюбный к хипстерам социальный медиа-голик. Интернет-фанат. Страстный фанатик алкоголя».
More Stories
Брабандцы обеспокоены изменением климата
Фотогалерея и встреча пациентов по ГС в UMCG
Подкаст: ex20ins EGFR мутируют НМРЛ в повседневной клинической практике