Химические языковые модели не понимают химию, показало исследование
Исследование Боннского университета показало, что химические языковые модели (CLM), используемые для предсказания биологически активных соединений, не приобретают реальных знаний о биохимических процессах. Вместо этого они работают на основе статистических корреляций и сходств в данных.
Профессор Юрген Байорат из Института машинного обучения и искусственного интеллекта Ламарра объясняет: «Все языковые модели — это чёрный ящик. Трудно заглянуть в их головы, образно говоря».
CLM работают аналогично ChatGPT, но обучаются на молекулярных представлениях, таких как SMILES-строки — последовательности символов, описывающие структуру молекул.
Систематические манипуляции с данными
Учёные систематически изменяли обучающие данные, подавая модели только определённые семейства ферментов и их ингибиторов. Когда модель тестировали на ферментах из того же семейства, она успешно предсказывала ингибиторы. Однако с ферментами из других семейств модель не справлялась.
«Это указывает, что модель не изучила общеприменимые химические принципы», — говорит Байорат.
Статистические закономерности вместо понимания
Модели основывают предсказания на статистически обнаруживаемом сходстве: если новый фермент похож на обучающую последовательность, вероятно, будет активен похожий ингибитор.
«Такое эмпирическое правило, основанное на статистически обнаруживаемом сходстве, не обязательно плохо», — отмечает учёный.
Однако модели не различают функционально важные и неважные части последовательностей, рассматривая ферменты как похожие при совпадении 50-60% аминокислотной последовательности.
Повторение без понимания
Результаты показывают, что CLM для молекулярного дизайна не обладают глубоким химическим пониманием. Они лишь воспроизводят с небольшими вариациями то, что уже видели в похожем контексте.
«Это не означает, что они непригодны для исследований лекарств», — подчёркивает Байорат. — «Они могут предлагать препараты, которые действительно блокируют определённые рецепторы, но не потому, что понимают химию, а потому, что распознают статистические корреляции».
Исследование опубликовано в журнале Patterns.
0 комментариев