Опишите это, и AI нарисует это для вас


Нейронные сети, кажется, могут продолжать впечатлять нас своей способностью выполнять различные задачи лучше, чем мы думали. Последняя из трех сетей от Microsoft способна рисовать то, что вы описываете.

Microsoft внедрила несколько нейронных сетей, чтобы увидеть, на что они способны. Первый автоматически записывает подписи к изображениям, второй отвечает на вопросы об изображениях, оба довольно примечательные, а последняя сеть завершает круг, рисуя изображения того, что вы описываете, и это уводит нас в новое место. Это также подчеркивает тот факт, что, хотя некоторые люди начинают игнорировать нейронные сети и глубокое обучение в целом, нам еще многое предстоит сделать, прежде чем мы продолжим. Фактически, он может даже показать нам, к чему мы можем перейти, поскольку он использует более одной нейронной сети в более сложном дизайне, чем вы могли бы ожидать от простой глубокой сети.

Эта конструкция называется «многомодальной подобной моделью глубокого внимания» или сокращенно DAMSM. Три нейронные сети генерируют изображения с увеличивающимся разрешением. Вся сеть была обучена на изображениях с подписями. Обучение было реализовано с использованием генерирующей состязательной сети, которая генерирует изображение и пытается передать его в другую сеть как изображение, соответствующее подписи.
Это довольно стандартно, но в этом случае каждый из слоев концентрируется на разных аспектах подписи, он обращает внимание на разные части описания и постепенно постепенно улучшает изображение, пока оно не станет достаточно хорошим, чтобы обмануть человека — некоторые по крайней мере того времени.

Просто возможность воссоздать изображение птицы после того, как вам показали изображения птиц и подписи, не особенно впечатляет. В основном вы могли бы решить проблему, запомнив примеры ввода без какого-либо анализа структуры данных. Что делает нейронные сети и системы, построенные из нескольких нейронных сетей, интересными, так это то, как они обобщают и ведут себя на входных данных, которые им никогда не были представлены. В этом случае сети, похоже, улавливают значение отдельных слов в предложениях, а не сопоставляют полные предложения с законченными изображениями:

Это также довольно впечатляет, когда вводятся странные описания, которые не входят в обучающий набор:

Вы можете видеть, что это имеет смысл, если не полный смысл.
Иногда сеть ошибается, и это доказывает, что ей не удалось полностью смоделировать, что такое естественное изображение:

Я не знаю, ждет ли эта конкретная сеть практическое приложение, но его можно было бы развить во что-то более способное, и тогда это могло бы иметь последствия. Представьте, что у вас есть возможность описать произведение искусства, которое вы хотите, и сеть создаст его для вас?
Приложения?
Много.


Добавить комментарий