Прогнозирование обладателя “Оскара” с помощью Data Science


После успеха в предсказании лучшей картины прошлого года на 90-й церемонии вручения премии “Оскар“, центр Data Science Thinkful повторил упражнение для “Оскара” этого года и предсказал, что победит “Рома”. UPDATE: И победителем стала не “Рома”. Вместо этого победа досталась фильму “Зеленая книга“, занявшему второе место. Что пошло не так с наукой о данных?

Прогнозирование обладателя "Оскара" с помощью Data Science

В прошлом году команда онлайн-коучинга Thinkful использовала метод контролируемого обучения для поиска закономерностей в прошлых результатах премии “Лучший фильм”, чтобы предсказать будущие. Проделав тяжелую работу по сбору и очистке большого количества данных для первоначального упражнения в 2018 году – и воодушевившись точностью прогноза о победе “Формы воды” – повторное проведение упражнения было относительно простым делом:

В своем блоге Адам Левенсон пишет:

Чтобы сделать наш прогноз, мы использовали Random Forest Classifier … алгоритм машинного обучения, который определяет взаимосвязи между переменными посредством создания и оценки деревьев решений. В случае нашего прогноза “Оскара” эти деревья решений задают простые вопросы типа “Да/Нет”: “Победил ли фильм в номинации “Лучшая картина” в Гильдии режиссеров?” или “Рейтинг IMBD фильма выше, чем X?”, а Random Forest Classifier определяет их относительную важность”.

Относительные веса важности, конечно же, изменились по сравнению с прошлым годом, чтобы учесть это. В то время как три первых места остались в прежнем порядке, значимость “Победителей-режиссеров” и “Победителей-продюсеров” выросла на несколько процентов, а “Победителей-актеров”, которые были четвертыми по значимости, потеряли несколько процентов и опустились на шестое место. Победа в номинации “Золотой глобус” также опустилась на одно место – с восьмого на девятое. Весовые коэффициенты рейтингов IMDB и номинаций Bafta немного увеличились, что позволило им подняться на одно место.

Окончательные весовые коэффициенты представлены в этой таблице, которая наглядно показывает, что “Победа режиссеров” является наиболее важным показателем:

Победа режиссеров

После обновления весовых коэффициентов модель может быть использована для получения вероятности победы среди номинаций, что и является прогнозом:

прогноз

В прошлом году предсказанный Thinkful и фактически победивший фильм “Форма воды” имел вероятность победы, значительно опережающую только одного ближайшего претендента, а семь других были отправлены в аутфилд с вероятностью менее 0,1 В этом году все не так однозначно. Как говорит Левенсон:

Разрыв между “Ромой” и следующим ближайшим фильмом – “Зеленой книгой” – составляет 12% (36% → 24%). Это больше, чем в прошлогодней гонке двух картин – “Форма воды” (47%) и “Три билборда на границе Эббинга, Миссури” (27%).

Осталось подождать всего несколько часов, чтобы узнать, принесет ли “Мысль” второй успех.

UPDATE: “Рома”, полуавтобиографический черно-белый фильм Альфонсо Куарона, снятый на Netflix о его детстве, выросшем в Мехико, не стал лучшим фильмом, но получил три “Оскара” – за лучшую режиссуру, лучший иностранный фильм и лучшую операторскую работу, став лишь вторым черно-белым фильмом, которому это удалось.

Таким образом, Data Science не смогла прийти к тому же выводу, что и судьи Академии. Неужели ключевые характеристики “Ромы” – выход на Netflix и ограниченное число кинотеатров, испанский язык и монохромность – заставили Академию отказаться от присуждения фильму звания лучшей картины? Стоит ли в следующий раз включать в классификатор вопросы типа “да/нет”, “в широком прокате”, “в полном цвете” и “на английском языке”?

Тот факт, что победитель в номинации “Лучшая картина”, “Зеленая книга”, был вторым выбором Thinkful, подтверждает, что у этой методики есть много преимуществ. Учитывая, что рейтинг IMDB у “Зеленой книги” выше, чем у “Ромы” – 8,3 против 7,9 – можно предположить, что весовые коэффициенты на 2020 год должны быть изменены.


Добавить комментарий