AWS и Facebook запускают инструменты PyTorch


Были выпущены два новых инструмента для PyTorch, библиотеки с открытым исходным кодом для глубокого обучения. Оба являются результатом сотрудничества Amazon AWS и Facebook. TorchServe — это библиотека обслуживания моделей PyTorch, а TorchElastic Controller для Kubernetes добавляет поддержку Kubernetes в TorchElastic, библиотеку для отказоустойчивого и эластичного обучения в PyTorch.

PyTorch — это оптимизированная тензорная библиотека для глубокого обучения с использованием графических процессоров и процессоров. Он нацелен на то, чтобы предложить замену NumPy, использующую мощь графических процессоров, и в то же время предоставить исследовательскую платформу для глубокого обучения, которая обеспечивает максимальную гибкость и скорость.

TorchServe стремится предоставить чистый, хорошо поддерживаемый и промышленный путь к развертыванию моделей PyTorch для масштабного вывода без необходимости написания специального кода. TorchServe предоставляет API прогнозирования с низкой задержкой, а также встраивает обработчики по умолчанию для наиболее распространенных приложений, таких как обнаружение объектов и классификация текста. Он также включает в себя обслуживание нескольких моделей, управление версиями моделей для A / B-тестирования, показатели мониторинга и конечные точки RESTful для интеграции приложений.
Контроллер Kubernetes с интеграцией TorchElastic дает разработчикам PyTorch возможность обучать модели машинного обучения на кластере вычислительных узлов, которые могут динамически изменяться без нарушения процесса обучения модели. Если узел выходит из строя, TorchElastic может приостановить обучение на уровне узла и возобновить его, как только узел снова станет работоспособным. Используя контроллер Kubernetes с TorchElastic, распределенные обучающие задания можно запускать на кластерах с заменяемыми узлами либо из-за проблем с оборудованием, либо из-за восстановления узлов. Это означает, что разработчики могут создавать системы обучения, которые могут работать на больших распределенных кластерах Kubernetes, которые включают более дешевые спотовые инстансы. Такие экземпляры могут значительно различаться в зависимости от того, сколько неиспользуемых экземпляров EC2 доступно, и могут прерываться, что может вызвать проблемы с традиционными средами обучения машинного обучения.


Добавить комментарий