Учёные заглянули внутрь «чёрного ящика» языковых моделей для предсказания свойств белков
Автор: CC0 Public Domain
В последние годы модели, способные предсказывать структуру и функции белков, нашли широкое применение в биологии — от поиска мишеней для лекарств до разработки терапевтических антител. Однако до сих пор оставалось загадкой, как именно эти модели, основанные на технологиях больших языковых моделей (LLM), делают свои прогнозы.
Исследователи из Массачусетского технологического института (MIT) разработали новый метод, позволяющий «заглянуть внутрь» этого «чёрного ящика». Их работа поможет учёным лучше понимать, какие особенности белков учитывают модели при прогнозировании, что ускорит разработку новых лекарств и вакцин.
«Наше исследование имеет важное значение для повышения прозрачности моделей, используемых в биологических задачах. Кроме того, выявление особенностей, которые отслеживают белковые языковые модели, может привести к новым биологическим открытиям», — говорит Бонни Бергер, профессор математики и старший автор исследования.
Как работают белковые языковые модели
Белковые языковые модели, такие как ESM2 и OmegaFold, анализируют последовательности аминокислот подобно тому, как ChatGPT анализирует тексты. Хотя эти модели успешно применялись для предсказания структуры белков и поиска мишеней для вакцин (включая исследования по COVID-19), их внутренние механизмы оставались неясными.
Чтобы решить эту проблему, команда MIT использовала алгоритм «разреженного автоэнкодера» (sparse autoencoder), который расширяет нейронные представления белков с 480 до 20 000 узлов. Это позволяет «распутать» сложные взаимосвязи и сделать каждый нейрон более специализированным.
«При разреженном представлении нейроны активируются более осмысленно. До этого информация была настолько плотно упакована, что её было невозможно интерпретировать», — объясняет аспирант MIT Онкар Гуджрал, ведущий автор исследования.
ИИ помогает расшифровать данные
Для анализа полученных данных учёные применили ИИ-ассистента Claude (аналог популярного чат-бота Anthropic). Алгоритм сопоставил активацию нейронов с известными свойствами белков, такими как молекулярные функции или локализация в клетке. В результате исследователи смогли определить, какие именно особенности белков «видит» модель.
Оказалось, что чаще всего модель учитывает семейство белка и его функции, включая метаболические и биосинтетические процессы. Это открытие не только улучшит выбор моделей для конкретных задач, но и может привести к новым биологическим открытиям.
«Когда модели станут ещё мощнее, их анализ позволит нам узнать о белках больше, чем мы знаем сейчас», — отмечает Гуджрал.
Исследование опубликовано в журнале Proceedings of the National Academy of Sciences.
0 комментариев