После успеха в предсказании лучшей картины прошлого года на 90-й церемонии вручения премии «Оскар«, центр Data Science Thinkful повторил упражнение для «Оскара» этого года и предсказал, что победит «Рома». UPDATE: И победителем стала не «Рома». Вместо этого победа досталась фильму «Зеленая книга«, занявшему второе место. Что пошло не так с наукой о данных?
В прошлом году команда онлайн-коучинга Thinkful использовала метод контролируемого обучения для поиска закономерностей в прошлых результатах премии «Лучший фильм», чтобы предсказать будущие. Проделав тяжелую работу по сбору и очистке большого количества данных для первоначального упражнения в 2018 году — и воодушевившись точностью прогноза о победе «Формы воды» — повторное проведение упражнения было относительно простым делом:
В своем блоге Адам Левенсон пишет:
Чтобы сделать наш прогноз, мы использовали Random Forest Classifier … алгоритм машинного обучения, который определяет взаимосвязи между переменными посредством создания и оценки деревьев решений. В случае нашего прогноза «Оскара» эти деревья решений задают простые вопросы типа «Да/Нет»: «Победил ли фильм в номинации «Лучшая картина» в Гильдии режиссеров?» или «Рейтинг IMBD фильма выше, чем X?», а Random Forest Classifier определяет их относительную важность».
Относительные веса важности, конечно же, изменились по сравнению с прошлым годом, чтобы учесть это. В то время как три первых места остались в прежнем порядке, значимость «Победителей-режиссеров» и «Победителей-продюсеров» выросла на несколько процентов, а «Победителей-актеров», которые были четвертыми по значимости, потеряли несколько процентов и опустились на шестое место. Победа в номинации «Золотой глобус» также опустилась на одно место — с восьмого на девятое. Весовые коэффициенты рейтингов IMDB и номинаций Bafta немного увеличились, что позволило им подняться на одно место.
Окончательные весовые коэффициенты представлены в этой таблице, которая наглядно показывает, что «Победа режиссеров» является наиболее важным показателем:
После обновления весовых коэффициентов модель может быть использована для получения вероятности победы среди номинаций, что и является прогнозом:
В прошлом году предсказанный Thinkful и фактически победивший фильм «Форма воды» имел вероятность победы, значительно опережающую только одного ближайшего претендента, а семь других были отправлены в аутфилд с вероятностью менее 0,1 В этом году все не так однозначно. Как говорит Левенсон:
Разрыв между «Ромой» и следующим ближайшим фильмом — «Зеленой книгой» — составляет 12% (36% → 24%). Это больше, чем в прошлогодней гонке двух картин — «Форма воды» (47%) и «Три билборда на границе Эббинга, Миссури» (27%).
Осталось подождать всего несколько часов, чтобы узнать, принесет ли «Мысль» второй успех.
UPDATE: «Рома», полуавтобиографический черно-белый фильм Альфонсо Куарона, снятый на Netflix о его детстве, выросшем в Мехико, не стал лучшим фильмом, но получил три «Оскара» — за лучшую режиссуру, лучший иностранный фильм и лучшую операторскую работу, став лишь вторым черно-белым фильмом, которому это удалось.
Таким образом, Data Science не смогла прийти к тому же выводу, что и судьи Академии. Неужели ключевые характеристики «Ромы» — выход на Netflix и ограниченное число кинотеатров, испанский язык и монохромность — заставили Академию отказаться от присуждения фильму звания лучшей картины? Стоит ли в следующий раз включать в классификатор вопросы типа «да/нет», «в широком прокате», «в полном цвете» и «на английском языке»?
Тот факт, что победитель в номинации «Лучшая картина», «Зеленая книга», был вторым выбором Thinkful, подтверждает, что у этой методики есть много преимуществ. Учитывая, что рейтинг IMDB у «Зеленой книги» выше, чем у «Ромы» — 8,3 против 7,9 — можно предположить, что весовые коэффициенты на 2020 год должны быть изменены.