Эпидемии научились прогнозировать по «Википедии»
Американские ученые смогли с большой степенью точности спрогнозировать время и скорость распространения эпидемий гриппа и лихорадки денге — на основе запросов к соответствующим статьям из «Википедии». О новом методе сообщается в журнале PLOS Computational Biology, а коротко о нем пишет Los Angeles Times.
Сайт «Википедии» собирает данные всех поисковых запросов, отправленных читателями (примерно 850 миллионов за сутки). По этой информации, имеющейся в открытом доступе, пытаются предсказывать популярность фильмов и биржевые котировки, но сотрудники отдела оборонных систем и анализа Лос-Аламосской национальной лаборатории впервые построили модель прогнозирования эпидемий.
Проверить ее решили на восьми заболеваниях (холера, лихорадки денге и Эбола, СПИД, грипп, чума и туберкулез) в девяти странах (Бразилия, Китай, Гаити, Япония, Норвегия, Таиланд, Уганда и США — связь запроса со страной выявляли по его языку). Ученые собрали данные по поиску статей, посвященных этим болезням (за 2010-2014 годы), и наложили пиковые часы и дни запросов на хронологию распространения эпидемии.
Лучше всего модель предсказала ход эпидемии гриппа в Японии (за семь дней вперед), лихорадки денге в Бразилии (за две недели), и туберкулеза в Таиланде (за месяц вперед).
По остальным болезням результаты оказались более чем скромными. Причина в том, что грипп и денге являются сезонными заболеваниями: в ожидании вспышки люди готовы заранее разузнать о них побольше. Кроме того, эти болезни отличается короткий инкубационный период (несколько дней): замечая у близких подозрительные симптомы, люди обращаются к «Википедии», чтобы понять, что грозит им самим.
Неудачные же прогнозы касаются вялотекущих (СПИД в Японии) и малозначительных (чума в США) эпидемий. Ученые отметили, что значимые закономерности часто заглушались информационным шумом. Например, просчитать распространение Эболы по Уганде и Демократической республике Конго не удалось потому, что большинство авторов запросов к соответствующим статьям живут в других странах, а местные жители почти не имеют доступа к Интернету. Та же ситуация возникла со вспышками холеры в Гаити.
Компания Google пришла к сходным выводам: она использует данные поисковых запросов для прогноза сезонных вспышек того же гриппа и денге (и только этих заболеваний). Однако ученые из Лос-Аламоса утверждают, что их модель полезнее, так она опирается на выложенные в открытый доступ данные.