Google использует старые новости и ИИ для прогнозирования внезапных наводнений
Внезапные паводки (flash floods) являются одними из самых смертоносных погодных явлений в мире, ежегодно унося жизни более 5000 человек. Они также относятся к числу наиболее сложных для прогнозирования. Однако в Google считают, что нашли решение этой проблемы неожиданным способом — с помощью анализа новостей.
Хотя человечество собрало огромное количество метеорологических данных, внезапные наводнения слишком кратковременны и локальны, чтобы их можно было измерить так же комплексно, как температуру или даже уровень рек, отслеживаемый со временем. Этот пробел в данных означает, что модели глубокого обучения, которые становятся всё более способными прогнозировать погоду, не могут предсказывать внезапные паводки.
Чтобы решить эту проблему, исследователи Google использовали Gemini — большую языковую модель компании — для анализа 5 миллионов новостных статей со всего мира. Они выделили сообщения о 2,6 миллионах различных наводнений и превратили эти отчёты в геопривязанный временной ряд, получивший название «Groundsource». По словам Гилы Лойке, менеджера по продуктам в Google Research, это первый случай, когда компания использует языковые модели для подобной работы. Исследование и набор данных были опубликованы публично в четверг утром (по московскому времени).
Используя Groundsource в качестве реальной базовой линии, исследователи обучили модель, построенную на основе рекуррентной нейронной сети с долгой краткосрочной памятью (LSTM), которая анализирует глобальные прогнозы погоды и вычисляет вероятность возникновения внезапного наводнения в заданном районе.
Модель прогнозирования внезапных наводнений от Google теперь оценивает риски для городских районов в 150 странах на платформе компании Flood Hub и делится своими данными со службами экстренного реагирования по всему миру. Антониу Жозе Белеза, сотрудник службы экстренного реагирования Сообщества развития Юга Африки, который тестировал модель прогнозирования вместе с Google, заявил, что она помогла его организации быстрее реагировать на наводнения.
У модели всё ещё есть ограничения. Во-первых, её разрешение довольно низкое: она определяет риск для территорий площадью 20 квадратных километров. Кроме того, она не так точна, как система оповещения о наводнениях Национальной метеорологической службы США, отчасти потому, что модель Google не включает данные местных радаров, которые позволяют отслеживать осадки в реальном времени.
Однако отчасти смысл проекта в том, что он был разработан для работы в тех регионах, где местные власти не могут позволить себе инвестировать в дорогую инфраструктуру для мониторинга погоды или не имеют обширных архивов метеорологических данных.
«Поскольку мы агрегируем миллионы отчётов, набор данных Groundsource фактически помогает перебалансировать карту, — рассказала журналистам на этой неделе Джульетта Ротенберг, менеджер программы в команде Google Resilience. — Он позволяет нам экстраполировать данные на другие регионы, где информации не так много».
Ротенберг добавила, что команда надеется, что использование больших языковых моделей для создания количественных наборов данных из письменных, качественных источников может быть применено для построения наборов данных о других кратковременных, но важных для прогнозирования явлениях, таких как волны жары и оползни.
Маршалл Моутено, генеральный директор компании Upstream Tech, которая использует аналогичные модели глубокого обучения для прогнозирования речного стока для таких клиентов, как гидроэнергетические компании, заявил, что вклад Google является частью растущих усилий по сбору данных для моделей прогнозирования погоды на основе глубокого обучения. Моутено является соучредителем dynamical.org, группы, которая курирует коллекцию метеорологических данных, готовых для машинного обучения, для исследователей и стартапов.
«Нехватка данных — одна из самых сложных проблем в геофизике, — сказал Моутено. — Одновременно с этим данных о Земле слишком много, а когда вы хотите проверить их на соответствие истине, их оказывается недостаточно. Это был действительно творческий подход к получению этих данных».







0 комментариев