Google грипп все еще не очень хорошо


Система отслеживания гриппа Google снова оказалась в затруднительном положении из-за того, что переоценила серьезность эпидемии гриппа в этом году, как и в прошлом году, и годом ранее … и годом ранее.

Google Flu Trends был запущен в 2008 году, чтобы предсказать, сколько случаев гриппа может произойти в течение следующих девяти недель в любой момент времени. Это делается путем мониторинга поисковых запросов в Интернете, чтобы найти те, в которых поисковый запрос связан с гриппом, например «кашель» или «лихорадка». Затем анализ этих поисков используется в качестве основы для прогноза.

Проблема, как мы сообщали ранее, заключается в том, что на основе этого анализа Google Flu Trends переоценивает количество случаев и делает это особенно неправильно в разгар сезона гриппа, когда повышенное внимание средств массовой информации увеличивает интерес к этим ключевым словам.

Анализ результатов сезона 2012/2013, проведенный командой из Северо-Восточного университета, показал, что Google Flu Trends (GFT) предсказывает вдвое больше посещений врачей, чем было зафиксировано на основе «реальных» данных Центров США по контролю и профилактике заболеваний ( CDC). Аналогичная картина в 2011–2012 гг. Характеризовалась завышением показателей более чем на 50%.

В ноябре 2013 года GFT обновил свою модель, чтобы улучшить ее прогностические возможности (см. Модель гриппа в Google Updates), и, хотя это дало некоторый положительный эффект, исследователи по-прежнему указывают на модель завышения прогнозов:

Оценки GFT и CDC после последнего обновления GFT Источник: Lazer et al.

На этом графике показана пропорциональная ошибка в GFT (рассчитанная как (GFT ‐ CDC) / CDC) с июля 2010 года по январь 2014 года. Наблюдения справа от синей линии сделаны после того, как GFT принял свой новый алгоритм.

Исследователи заявляют:

Хотя обновление уменьшило размер оценок GFT (примерно на 12% для тех наблюдений, в которых у нас есть совпадение между старой и новой моделью), GFT по-прежнему оценивает высокий почти в 75% случаев. Он также по-прежнему оценивается примерно на 30% выше, чем CDC в сезоне гриппа 2013-2014 гг.

В отчете об исследовании профессор Дэвид Лазер из Северо-Восточного университета, который руководил исследованием, говорит:

«Большие данные имеют огромные научные возможности, но мы должны осознавать, что большая часть больших данных не предназначена для научных целей».

Лазер добавляет, что инженеры Google могли бы значительно улучшить свои результаты, включив запаздывающие данные из Центров по контролю и профилактике заболеваний, а также сделав несколько простых статистических настроек модели. Можно получить более точные результаты, чем результаты из Google Flu Trends, если просто спроецировать текущие данные CDC на три недели в будущее, и их сочетание дает наиболее точную модель.

Полный отчет был опубликован в журнале Science, а документ в формате PDF «Тенденции гриппа Google по-прежнему кажутся больными: оценка сезона гриппа 2013–2014 гг.» Доступен для загрузки в Социальной исследовательской сети.


Добавить комментарий