SPRTA: новый метод оценки эволюционных деревьев для анализа пандемий
SPRTA: новый метод оценки эволюционных деревьев. Автор: Карен Арнотт/EMBL-EBI
С началом пандемии COVID-19 исследователи столкнулись с проблемой построения эволюционных деревьев (филогенетических деревьев) вируса. Эти деревья помогают ученым понять, когда появляются новые штаммы и как они связаны между собой. Однако анализ миллионов геномов сделал проверку надежности таких деревьев практически невозможной.
Чтобы решить эту проблему, исследователи из Европейского института биоинформатики EMBL (EMBL-EBI) и Австралийского национального университета разработали SPRTA (SPR-based Tree Assessment) — интерпретируемый и эффективный метод оценки надежности каждой ветви в филогенетическом дереве. SPRTA стал первым инструментом такого рода, который можно масштабировать для работы с наборами данных пандемийного масштаба.
Переосмысление филогенетической оценки
С 1985 года ученые использовали метод «бустрап Фельзенштейна» для оценки достоверности филогенетических деревьев. Однако этот метод, требующий сотни и тысячи повторных анализов, оказался слишком медленным для обработки миллионов геномов вируса, секвенированных во время пандемии.
В статье, опубликованной в журнале Nature, представлен SPRTA — современная масштабируемая альтернатива, способная работать с огромными наборами данных, генерируемыми во время крупных вспышек заболеваний. SPRTA позволяет исследователям надежно и быстро отслеживать распространение и эволюцию патогенов, что способствует принятию более обоснованных решений во время вспышек и повышает готовность к пандемиям.
«Почти 40 лет ученые полагались на один и тот же метод оценки достоверности эволюционных деревьев, но при столкновении с объемами данных, которые мы наблюдали во время пандемии COVID-19, старый метод просто не справлялся», — отметил Ник Голдман, руководитель группы в EMBL-EBI.
«SPRTA дает нам быстрый и надежный способ понять, каким частям этих массивных деревьев можно доверять, и найти наиболее правдоподобные альтернативы в областях с низкой достоверностью. Именно такой инструмент нам понадобится для более быстрого и эффективного реагирования на следующую пандемию».
Более умный способ измерения достоверности
Традиционные методы, такие как бустрап Фельзенштейна, фокусируются на том, насколько сильно группы образцов (клады) подтверждаются собранными данными. Но для анализа вспышек этого не всегда достаточно. SPRTA использует другой подход: он анализирует вероятность происхождения штамма вируса от конкретного предка и определяет возможные альтернативные эволюционные пути.
Для этого SPRTA тестирует множество возможных сценариев, виртуально перестраивая ветви филогенетического дерева и сравнивая, насколько хорошо каждый вариант соответствует данным. Затем метод присваивает простую вероятностную оценку, показывающую, насколько исследователи могут быть уверены в каждом соединении.
«С SPRTA мы не просто ускоряем построение филогенетических деревьев, мы делаем его умнее», — сказал Никола Де Майо, старший научный сотрудник EMBL-EBI. — «Он помогает исследователям понять, какие взаимосвязи надежны, а где следует проявить осторожность, даже при работе с миллионами геномов».
Создан для данных пандемийного масштаба
Используя более двух миллионов геномов SARS-CoV-2, исследователи продемонстрировали, что SPRTA может:
- выделять части филогенетического дерева с высокой надежностью,
- отмечать неопределенные размещения образцов, часто вызванные неполными или зашумленными данными,
- выявлять правдоподобные альтернативные происхождения для конкретных ветвей.
SPRTA встроен в MAPLE — инструмент, разработанный в EMBL-EBI для эффективного построения крупномасштабных филогенетических деревьев. SPRTA также доступен в IQ-TREE, одном из наиболее широко используемых программных пакетов для филогенетического анализа.
Интеграция SPRTA в эти устоявшиеся инструменты делает метод открытым, доступным и готовым к использованию исследователями по всему миру для отслеживания вспышек, геномного надзора и эволюционных исследований.
Дополнительная информация: Никола Де Майо, Оценка филогенетической достоверности в масштабах пандемии, Nature (2025). DOI: 10.1038/s41586-025-09567-x. www.nature.com/articles/s41586-025-09567-x
Источник: European Molecular Biology Laboratory















0 комментариев