Среда выполнения Databricks для машинного обучения


Databricks Runtime для машинного обучения теперь общедоступен, предлагая встроенную интеграцию с популярными фреймворками ML / DL, такими как scikit-learn, XGBoost, TensorFlow, PyTorch, Keras и Horovod.

Databricks Runtime для машинного обучения – это среда выполнения машинного обучения, которая содержит несколько популярных библиотек, включая TensorFlow, PyTorch, Keras и XGBoost. Он также поддерживает распределенное обучение с использованием Horovod. Преимущество Databricks Runtime ML заключается в том, что он предоставляет готовую среду для машинного обучения.

Databricks Runtime ML стремится быть простым в использовании. Основные библиотеки, поддерживаемые в нем, поставляются предварительно настроенными как часть программного обеспечения, в том числе HorovodRunner, что позволяет использовать распределенный фреймворк глубокого обучения Horovod. Horovod может быть сложнее в использовании, чем некоторые фреймворки, потому что он требует, чтобы вы делили код и библиотеки между узлами, настраивали SSH и выполняли команды MPI. HorovodRunner избегает этих требований, предоставляя API, позволяющий использовать Horovod.
Команда Databricks создала самые популярные библиотеки машинного обучения как библиотеки высшего уровня. Для этих «высокоуровневых» библиотек Databricks планирует ускорить обновление и предоставить расширенную поддержку. Библиотеки верхнего уровня:

TensorFlow / TensorBoard / tf.keras
Тензор-искровый соединитель
PyTorch
Хоровод / HorovodRunner
GraphFrames

Производительность – еще одна область, в которой нужно было улучшить с момента выхода бета-версии. В этом выпуске улучшены как логистическая регрессия Apache Spark MLlib, так и древовидные классификаторы. При запуске в Databricks Runtime for ML команда Databricks наблюдала примерно 40% -ное ускорение в тестах производительности Spark по сравнению с Apache Spark 2.4.0.
Библиотека GraphFrames в Databricks Runtime для ML также содержит оптимизированную реализацию, которая работает в два раза быстрее, чем GraphFrames с открытым исходным кодом, и поддерживает более крупные графики. Кроме того, запросы Graph будут использовать оптимизацию на основе затрат (CBO) Spark для определения порядка соединения, если базовый узел и граничные таблицы содержат статистику столбцов. По словам Databricks, это может привести к ускорению в 100 раз.


Добавить комментарий