Обновлены библиотеки Rapids Data Analysis


Коллекция программных библиотек RAPIDS для машинного обучения и анализа данных была обновлена за счет улучшений производительности и основных библиотек.

RAPIDS — это набор программных библиотек на основе графического процессора для машинного обучения и анализа данных. RAPIDS можно использовать для создания конвейера обработки данных, включая загрузку данных, ETL, обучение моделей и логический вывод, до 50 раз быстрее при типичном сквозном рабочие процессы в области науки о данных. RAPIDS был разработан NVidia совместно с разработчиками из некоторых популярных проектов с открытым исходным кодом, в частности Apache Arrow, pandas и scikit-learn. Программное обеспечение также интегрировано в платформу с открытым исходным кодом Apache Spark для анализа данных.

В обновленной версии произошел серьезный рефакторинг всего: от ядра RAPIDS до отдельных библиотек. Библиотеки RAPIDS более совместимы и более производительны. Разработчики говорят, что пользователи Python должны просто видеть, как все идет быстрее без изменений в их коде. Основная библиотека C ++ нижнего уровня также получила серьезную работу. Операция рефакторинга также улучшила взаимодействие с BlazingSQL и Java.

Базовый набор библиотек cuML, реализующих алгоритмы машинного обучения и функции математических примитивов, был улучшен с помощью алгоритмов с несколькими узлами и графическими процессорами (MNMG) для масштабирования до более крупных наборов данных, а также добавлены функции травления и клонирования объектов модели для повышения удобства использования. . Библиотека графовых алгоритмов cuGraph также была переработана для улучшения взаимодействия с cuDF и cuML. cuDF предоставляет API, похожий на pandas, и он также подвергся рефакторингу, который описывается как «почти завершенный» с ключевыми API, такими как объединение, сортировка, группировка на основе сортировки, и большинство строковых функций, перенесенных на новый API-интерфейсы libcudf ++ и структуры данных.

Механизм SQL с ускорением на графическом процессоре BlazingSQL был обновлен для поддержки пропуска данных, что означает, что предложения WHERE в операторах SQL будут выборочно фильтровать и загружать группы строк Apache Parquet во время выполнения запроса на основе метаданных Parquet. Разработчики говорят, что это существенно сокращает объем данных, загружаемых в память, и позволяет пользователям работать с еще более крупными рабочими нагрузками.

Разработчики говорят, что следующая версия RAPIDS будет иметь гораздо больше функций и будет выпущена одновременно с конференцией NVidia GTC в конце марта.


Добавить комментарий