Google изобрел камеру, которая может делать то, что делает фотограф или, если это должен быть видеооператор, — выбирать момент. Это последняя часть фотографии, для которой были нужны люди. Как это работает-интересная история, которая может найти применение в других областях.
Фотография-странный зверь. Это искусство или нет? Вы можете спорить об этом до тех пор, пока не устанете и действительно не перестанете беспокоиться, но получить ответ-это просто посмотреть на фотографию, сделанную Картье-Брессоном или Анселем Адамсом. В лучшем случае фотография похожа на искусство, потому что она вызывает в нас те же реакции, что и другие вещи, называемые искусством.
Однако это не решает всех вопросов. Возможно, просто фотография-это вопрос выбора момента. Как, как известно, сказал Картье-Брессон:
Для меня фотография-это одновременное распознавание, за долю секунды, значения события, а также точной организации форм, которые придают этому событию надлежащее выражение.
Да, это выбор момента. Один из способов выполнить эту работу, и я знаю фотографов, которые работают таким образом, — это сделать тысячи фотографий и выбросить большинство из них. В этом смысле фотография — это не творческое искусство, это просто вопрос знания того, когда картина хороша-это искусство принятия решений.
Google и ее исследовательская группа по ИИ действительно считают, что фотография-это решение о том, что делает хорошую фотографию, и думают, что ее можно автоматизировать. Со временем фотография становится все менее искусной. Сначала автоматическая экспозиция отнимает навык настройки записывающего оборудования, а затем автоматическая фокусировка позволяет легко сфокусироваться на объекте переднего плана. Управляемый ИИ фокус даже избавляет от необходимости вручную выбирать то, что должно быть в фокусе. Все, что осталось, это момент, чтобы нажать кнопку спуска затвора или записи.
Приложение Google Clips не совсем создает Cartier-Bresson в вашем телефоне, но оно утверждает, что может выбирать интересные видеоклипы с мероприятия. Для этого он сначала использует метод попарного сравнения, распространенный в маркетинговых исследованиях, для оценки видеоклипов. Случайным образом выбранные пары видеосегментов были показаны испытуемым, которым было предложено выбрать тот, который они предпочитали. На основе этих данных можно рассчитать субъективную рейтинговую оценку. Большой шок заключается в том, что 50 миллионов пар были оценены из 1000 видео. Это много попарных сравнений!
Следующая часть идеи состоит в том, чтобы создать способ присвоения рейтинговой оценки новым видеоклипам без участия человека. Это само по себе является двухэтапным процессом. Сначала нейронная сеть используется для определения того, какие объекты, понятия и действия находятся в клипе. Это не имеет никакого отношения к рейтингу видео, но вполне разумно, что рейтинг имеет какое-то отношение к этим вещам. Сеть была преобразована в одну из реализаций Google MobileNet, которые представляют собой нейронные сети, оптимизированные для работы на мобильных устройствах.
Второй этап состоит в том, чтобы взять выходные данные нейронной сети и ввести их в сравнительно классическую статистическую модель — кусочно-линейную регрессионную модель. Это сделано для того, чтобы наилучшим образом предсказать субъективные оценки видео, которые оценили люди. Предполагается, что этот рейтинг будет обобщен на новые видео. Рейтинг вычисляется для каждого кадра, а средняя оценка вычисляется для сегмента видео. Сегмент видео с самым высоким баллом-это тот, который нужно сохранить.
Процедура не совсем чистая, как звучит это описание, и в систему также была введена некоторая человеческая настройка:
«Хотя эта оценка, основанная на данных, отлично справляется с выявлением интересных (и неинтересных) моментов, мы также добавили некоторые бонусы к нашей общей оценке качества для явлений, которые, как мы знаем, мы хотим запечатлеть в клипах, включая лица (особенно повторяющиеся и, следовательно, “знакомые”), улыбки и домашних животных. В нашем последнем выпуске мы добавили бонусы за определенные действия, которые клиенты особенно хотят запечатлеть, такие как объятия, поцелуи, прыжки и танцы. Признание этих видов деятельности потребовало расширения модели ICM.»
В саму камеру также встроены некоторые руководящие принципы. Например, не сходите с ума и не расплющивайте батарею, взяв слишком много зажимов. Избегайте одновременного использования большого количества клипов одного и того же типа. Наконец, захватите больше клипов, чем вам нужно, и выбросьте самые слабые.
Однако для человека еще есть место:
«Клипы предназначены для работы вместе с человеком, а не автономно; чтобы получить хорошие результаты, человек все еще должен осознавать кадрирование и следить за тем, чтобы камера была направлена на интересный контент. Мы довольны тем, как хорошо работает Google Clips, и рады продолжать совершенствовать наши алгоритмы, чтобы запечатлеть этот “идеальный” момент!»
Настолько велика моя роль фотографа, что теперь сводится к поиску хорошего места для размещения камеры на интересном мероприятии.
Google Clips сейчас стоит 249 долларов в Play Store.
Насколько хорошо, по вашему мнению, это работает, вероятно, зависит от того, насколько вы хороший фотограф и, следовательно, от того, насколько вы решите ненавидеть это в принципе.