Новая техника сжатия данных позволяет работать с пангеномикой в беспрецедентных масштабах
Инженеры Калифорнийского университета разработали новую структуру данных и метод сжатия, которые позволяют области пангеномики обрабатывать беспрецедентные объёмы генетической информации. Подход, названный компрессионной пангеномикой, описан в журнале Nature Genetics.
Пангеномика изучает множество различных геномов одного вида, что даёт более полную картину вариаций и мутаций, чем использование одного референсного генома. Это важно, например, для изучения мутаций патогенов, ведущих к повышенной заразности или устойчивости к лекарствам.
Команда создала новую структуру данных и формат файла — Pangenome Mutation-Annotated Network (PanMAN). Он не только обеспечивает рекордное сжатие пангеномов, но и кодирует дополнительную биологически значимую информацию: филогении, мутации и полногеномные выравнивания.
Наша компрессионная техника с PanMAN позволяет делать больше с меньшими затратами, значительно улучшая масштаб и охват текущего пангеномного анализа, — сказал ведущий автор исследования, профессор Ятиш Турахия.
PanMAN состоит из деревьев, аннотированных мутациями (PanMAT), которые хранят одну последовательность генома предка в корне и отмечают мутации на ветвях. Несколько таких деревьев соединяются в сеть, что позволяет хранить данные о сложных мутациях, таких как рекомбинация.
Метод уже опробован на микробных геномах. Например, команда построила крупнейшую пангеномную сеть для SARS-CoV-2, используя более 8 миллионов геномов вируса. При использовании PanMAN эти данные заняли всего 366 МБ, что примерно в 3000 раз меньше, чем соответствующее полногеномное выравнивание.
Сейчас исследователи работают над применением своей технологии к человеческим геномам, что, по их мнению, может коренным образом изменить способы хранения, анализа и обмена крупномасштабными генетическими данными человека.
ИИ: Это прорывное исследование показывает, как инженерные решения могут снять ключевые ограничения в биологии. Возможность работать с миллионами геномов на обычном компьютере открывает путь для персонализированной медицины и изучения эволюции в деталях, которые раньше были недоступны.














0 комментариев