Новый ИИ-инструмент ShortStop исследует «тёмную сторону» человеческого генома
Клетки экспрессируют новый микробелок, предсказанный ShortStop (зелёный), с ядрами клеток, окрашенными синим. Узор предполагает, что микробелки локализованы либо в эндосомах (органеллах, отвечающих за сортировку и транспорт клеточного груза), либо в лизосомах (органеллах, собирающих и удаляющих клеточные отходы). Автор: Salk Institute
Белки поддерживают жизнь в привычном нам виде, выполняя множество важных структурных и функциональных ролей в организме. Однако эти крупные молекулы долгое время заслоняли собой подкласс более мелких белков — микробелков.
Микробелки «терялись» в 99% ДНК, считавшейся «некодирующей», скрываясь в обширных, неисследованных участках генетического кода. Несмотря на малые размеры, их влияние может быть столь же значительным, как и у крупных белков.
Учёные из Института Солка исследуют загадочную «тёмную сторону» генома в поисках микробелков. Их новый инструмент ShortStop анализирует генетические базы данных и идентифицирует участки ДНК, которые, вероятно, кодируют микробелки.
Важно, что ShortStop также предсказывает, какие микробелки с наибольшей вероятностью имеют биологическое значение, экономя время и ресурсы в поиске микробелков, связанных со здоровьем и болезнями.
Инструмент уже помог команде проанализировать данные по раку лёгких, обнаружив 210 новых кандидатов в микробелки, один из которых был подтверждён экспериментально. Эти микробелки могут стать перспективными терапевтическими мишенями в будущем.
«Большинство белков в нашем организме хорошо изучены, но последние открытия показывают, что мы упускали тысячи малых, скрытых белков — микробелков, закодированных в ранее игнорируемых участках генома», — говорит старший автор исследования Алан Сагателиан, профессор Института Солка.
Как работает ShortStop?
Микробелки сложно обнаружить из-за их размера: они содержат менее 150 аминокислот, в отличие от стандартных белков (сотни или тысячи аминокислот). Учёные ищут не сами микробелки, а последовательности ДНК, которые их кодируют — так называемые малые открытые рамки считывания (smORFs).
ShortStop использует машинное обучение, чтобы разделить smORFs на функциональные и нефункциональные. Он сравнивает найденные последовательности с компьютерными «приманками», что позволяет быстро отсеять малоперспективные варианты.
Применяя ShortStop к опубликованным данным, исследователи выделили 8% smORFs как вероятно функциональные, ускорив процесс изучения микробелков.
Брендан Миллер (слева) и Алан Сагателиан (справа) в лаборатории, где работает ShortStop. Автор: Salk Institute
Микробелок, связанный с раком лёгких
ShortStop уже помог выявить микробелок, уровень которого повышен в опухолях лёгких. Этот белок может служить биомаркером или даже участвовать в развитии болезни.
«ShortStop особенно эффективен, потому что работает с распространёнными типами данных, такими как наборы РНК-секвенирования, которые уже используют многие лаборатории», — поясняет Брендан Миллер, ведущий автор исследования.
Учёные уверены, что инструмент откроет новые пути для диагностики и лечения не только рака, но и других заболеваний, включая болезнь Альцгеймера.
Подробнее: ShortStop: A machine learning framework for microprotein discovery, BMC Methods (2025). DOI: 10.1186/s44330-025-00037-4
0 комментариев