Исследователи MIT создали модель для точного прогнозирования растворимости молекул

/ НаукаНовости / Наука

Машинное представление растворов. Автор: Nature Communications (2025). DOI: 10.1038/s41467-025-62717-7

С помощью машинного обучения инженеры-химики из Массачусетского технологического института (MIT) создали вычислительную модель, способную предсказать, насколько хорошо любая заданная молекула будет растворяться в органическом растворителе — ключевой этап синтеза практически любого фармацевтического препарата. Такой прогноз может значительно упростить разработку новых способов производства лекарств и других полезных молекул.

Новая модель, предсказывающая, сколько растворенного вещества растворится в конкретном растворителе, должна помочь химикам выбирать правильный растворитель для любой заданной реакции в их синтезе, говорят исследователи. К распространенным органическим растворителям относятся этанол и ацетон, но существуют сотни других, которые также можно использовать в химических реакциях.

«Прогнозирование растворимости действительно является лимитирующим этапом в синтетическом планировании и производстве химических веществ, особенно лекарств, поэтому уже давно существует интерес к возможности делать более точные прогнозы растворимости», — говорит Лукас Аттия, аспирант MIT и один из ведущих авторов нового исследования.

Исследователи сделали свою модель свободно доступной, и многие компании и лаборатории уже начали её использовать. По словам учёных, модель может быть особенно полезна для выявления растворителей, которые менее опасны, чем некоторые из наиболее часто используемых промышленных растворителей.

«Есть некоторые растворители, которые, как известно, растворяют большинство веществ. Они действительно полезны, но наносят вред окружающей среде и людям, поэтому многие компании требуют минимизировать количество используемых таких растворителей», — говорит Джексон Бёрнс, аспирант MIT и также ведущий автор статьи. — «Наша модель чрезвычайно полезна для определения следующего лучшего растворителя, который, надеемся, будет гораздо менее вредным для окружающей среды».

Уильям Грин, профессор химического инженерии имени Хойта Хоттела и директор Инициативы по энергетике MIT, является старшим автором исследования, опубликованного сегодня в Nature Communications. Патрик Дойл, профессор химического инженерии имени Роберта Т. Хаслама, также является автором статьи.

Решение проблемы растворимости

Новая модель выросла из проекта, над которым Аттия и Бёрнс работали вместе в рамках курса MIT по применению машинного обучения к проблемам химической инженерии. Традиционно химики предсказывали растворимость с помощью инструмента, известного как Модель сольватации Абрахама, которая может использоваться для оценки общей растворимости молекулы путём суммирования вкладов химических структур внутри молекулы. Хотя эти прогнозы полезны, их точность ограничена.

За последние несколько лет исследователи начали использовать машинное обучение, чтобы попытаться делать более точные прогнозы растворимости. До того как Бёрнс и Аттия начали работать над своей новой моделью, самой современной моделью для прогнозирования растворимости была модель, разработанная в лаборатории Грина в 2022 году.

Эта модель, известная как SolProp, работает за счёт предсказания набора связанных свойств и их комбинирования с использованием термодинамики для окончательного прогноза растворимости. Однако модель испытывает трудности с прогнозированием растворимости для растворенных веществ, которые она раньше не видела.

«Для конвейеров открытия лекарств и химических веществ, где вы разрабатываете новую молекулу, вы хотите иметь возможность заранее предсказать, как будет выглядеть её растворимость», — говорит Аттия.

Частично причина, по которой существующие модели растворимости работали не очень хорошо, заключается в отсутствии всеобъемлющего набора данных для их обучения. Однако в 2023 году был выпущен новый набор данных под названием BigSolDB, который объединил данные почти из 800 опубликованных статей, включая информацию о растворимости около 800 молекул, растворенных в более чем 100 органических растворителях, обычно используемых в синтетической химии.

Аттия и Бёрнс решили попробовать обучить два разных типа моделей на этих данных. Обе эти модели представляют химические структуры молекул с использованием числовых представлений, известных как эмбеддинги (вложения), которые включают такую информацию, как количество атомов в молекуле и то, какие атомы связаны с какими другими атомами. Модели могут затем использовать эти представления для прогнозирования различных химических свойств.

Одна из моделей, использованных в этом исследовании, известная как FastProp и разработанная Бёрнсом и другими в лаборатории Грина, включает «статические эмбеддинги». Это означает, что модель уже знает эмбеддинг для каждой молекулы, прежде чем начинать какой-либо анализ.

Другая модель, ChemProp, изучает эмбеддинг для каждой молекулы во время обучения, одновременно обучаясь связывать особенности эмбеддинга с таким признаком, как растворимость. Эта модель, разработанная в нескольких лабораториях MIT, уже использовалась для таких задач, как открытие антибиотиков, разработка липидных наночастиц и прогнозирование скорости химических реакций.

Исследователи обучили оба типа моделей на более чем 40 000 точек данных из BigSolDB, включая информацию о влиянии температуры, которая играет значительную роль в растворимости. Затем они протестировали модели примерно на 1000 растворенных веществах, которые были исключены из обучающих данных.

Они обнаружили, что прогнозы моделей были в два-три раза точнее, чем у SolProp, предыдущей лучшей модели, и новые модели были особенно точны в прогнозировании вариаций растворимости из-за температуры.

«Возможность точно воспроизводить эти небольшие вариации растворимости из-за температуры, даже когда общий экспериментальный шум очень велик, была действительно положительным признаком того, что сеть правильно изучила underlying функцию предсказания растворимости», — говорит Бёрнс.

Точные прогнозы

Исследователи ожидали, что модель на основе ChemProp, которая способна изучать новые представления по ходу работы, сможет делать более точные прогнозы. Однако, к их удивлению, они обнаружили, что две модели работают практически одинаково. Это говорит о том, что основное ограничение их производительности — это качество данных, и что модели работают так хорошо, как это теоретически возможно на основе используемых данных, говорят исследователи.

«ChemProp всегда должен превосходить любой статический эмбеддинг, когда у вас достаточно данных», — говорит Бёрнс. — «Мы были поражены, увидев, что статические и изученные эмбеддинги статистически неразличимы по производительности во всех различных подмножествах, что указывает нам на то, что ограничения данных, присутствующие в этой области, доминировали над производительностью модели».

Модели могут стать более точными, говорят исследователи, если бы были доступны лучшие обучающие и тестовые данные — в идеале, данные, полученные одним человеком или группой людей, обученных проводить эксперименты одинаковым способом.

«Одним из больших ограничений использования таких скомпилированных наборов данных является то, что разные лаборатории используют разные методы и экспериментальные условия при проведении тестов на растворимость. Это способствует этой изменчивости между разными наборами данных», — говорит Аттия.

Поскольку модель на основе FastProp делает прогнозы быстрее и имеет код, который легче адаптировать другим пользователям, исследователи решили сделать её, известную как FastSolv, доступной для публики. Несколько фармацевтических компаний уже начали её использовать.

«Существуют применения по всему конвейеру открытия лекарств», — говорит Бёрнс. — «Мы также excited посмотреть, за пределами разработки формул и открытия лекарств, где люди могут использовать эту модель».

Больше информации: Lucas Attia et al, Data-driven organic solubility prediction at the limit of aleatoric uncertainty, Nature Communications (2025). DOI: 10.1038/s41467-025-62717-7

Источник: Massachusetts Institute of Technology

Подписаться на обновления Новости / Наука
Зарегистрируйтесь на сайте, чтобы отключить рекламу

ℹ️ Помощь от ИИ

В статье есть ошибки или у вас есть вопрос? Попробуйте спросить нашего ИИ-помощника в комментариях и он постарается помочь!

⚠️ Важно:

• AI Rutab читает ваши комментарии и готов вам помочь.
• Просто задайте вопрос 👍
• ИИ может давать неточные ответы!
• ИИ не скажет «Я не знаю», но вместо этого может дать ошибочный ответ.
• Всегда проверяйте информацию и не полагайтесь на него как на единственный источник.
• К ИИ-помощнику можно обратиться по имени Rutab или Рутаб.

Топ дня 🌶️


0 комментариев

Оставить комментарий


Все комментарии - Наука