Прогнозирование гриппа Google — остерегайтесь эффекта СМИ


Веб-сайт Google по прогнозированию гриппа — действительно хорошая идея, но недавно она ошиблась — все из-за медиа-эффекта, который, как вы могли подумать, очень легко учесть.

Что касается интеллектуального анализа данных или статистики, это очень простая идея — существует корреляция между количеством случаев заболевания гриппом и количеством поисковых запросов по теме гриппа. Это очень разумная идея. Конечно, не все запросы по теме гриппа исходят от людей, которые болеют гриппом, но если вы соберете некоторые данные, окажется, что соотношение сигнал / шум очень хорошее. На самом деле, это так хорошо, что у Google есть сайт, который показывает текущую географическую распространенность гриппа, и есть даже статья в Nature, объясняющая, насколько хороша эта система.

Важным моментом является то, что прогнозы, которые делает Google, опережают данные CDC, основанные на зарегистрированных случаях, на целых 14 дней — этого достаточно для людей, чтобы отреагировать на информацию.

Вы можете увидеть это в следующем видео:

Однако, согласно отчету в Nature, в этом году все не так хорошо. Грипп в США начал расти в ноябре 2012 года и достиг своего пика сразу после Рождества. Кривая Google, похоже, следует тенденции, но в некоторых регионах она завышает показатели CDC в два и более раза.

Проблема кажется очевидной — это медиа-эффект. Шум в цифрах Google связан с количеством поисковых запросов о гриппе, которые не связаны с тем, что люди, выполняющие поиск, действительно болеют гриппом. Если это число останется постоянным, то его можно будет вычесть. Проблема в этом году заключается в том, что средства массовой информации очень активно освещают тему гриппа, и это, скорее всего, заставило людей искать общие новости о гриппе или искать те данные, которые предоставляет Google Flu Trends.

Чем краснее, тем больше гриппа

Таким образом, хотя методика Google так же хороша или лучше, чем более дорогие способы отслеживания эпидемии, она не работает по очень очевидной причине.

Конечно, это поправимо. Все, что нужно сделать Google, — это найти переменную на основе поиска или любую переменную, которую легко получить, которая коррелирует с вниманием СМИ, и построить модель, которая учитывает это. В принципе это просто, но сопряжено с обычными практическими проблемами реализации.

Необходимо усвоить и более общий урок. Социальные сети и данные поиска могут выявить текущие интересы толпы, но причина этих интересов может варьироваться в разных направлениях. Разве что-то в корреляции не то же самое, что и причинность …


Добавить комментарий