В новом выпуске Microsoft R Server добавлены новые улучшения машинного обучения и интеграция с HDInsight.
Microsoft приобрела технологию языка R, когда она приняла Revolution Analytics, и с тех пор разрабатывает ряд продуктов, основанных на языке статистического анализа.
В новом выпуске добавлено несколько усовершенствованных алгоритмов машинного обучения от Microsoft, а также предварительно обученные модели нейронных сетей для анализа настроений и определения характеристик изображений. Он также добавляет поддержку SparklyR, SparkETL и SparkSQL, а также GPU для глубоких нейронных сетей. Разработчики могут использовать R Tools для Visual Studio для написания приложений, которые работают с Microsoft R Server, и есть образ виртуальной машины Microsoft R Server Azure, который можно использовать для подготовки сервера в облаке.
Еще одно улучшение новой версии — возможность использовать MicrosoftML для Spark и Hadoop. MicrosoftML был добавлен в Microsoft R Server 9.0. Он добавляет алгоритмы машинного обучения и преобразования данных. Эти средства стали более портативными и распространены для работы в Linux, Windows и наиболее популярных дистрибутивах Hadoop, в частности, Cloudera, Hortonworks и MapR. Поддержка Spark была добавлена, когда в декабре был выпущен R Server 9.0.
Алгоритмы, которые теперь можно использовать для Spark и Hadoop:
Быстрый линейный обучающийся с поддержкой регуляризации L1 и L2.
Дерево решений с быстрым ускорением.
Быстрый случайный лес.
Логистическая регрессия с поддержкой регуляризации L1 и L2.
Глубокие нейронные сети (DNN) с ускорением на GPU со свёртками.
Бинарная классификация с использованием машины одноклассных опорных векторов.
Также была добавлена новая функция, позволяющая выполнять «приятно параллельные» вычисления R на разделах набора данных. Приятно параллельный означает, что вы выполняете массовые параллельные вычисления на разделах, сгруппированных по одному или нескольким атрибутам. Функция rxExecBy позволяет применять любую функцию R к определенному разделу набора данных и выполнять вычисления на разделах параллельно, без необходимости вручную разбивать или разделять данные.
Добавление функций оценки тональности и определения характеристик изображений является результатом глубоких моделей нейронных сетей, обученных в Microsoft Research. Эти функции означают, что теперь вы можете рассчитать оценку тональности английского текста, давая вам результат от «очень положительный» до «очень отрицательный». Функциональность изображения позволяет вам взять изображение и представить его в виде набора числовых переменных на основе распознавателей ResNet. Эти значения затем можно использовать в качестве основы для прогнозной модели.
Еще одно ключевое улучшение в новой версии — совместимость между Microsoft R Server и sparklyr. Sparklyr RStudio — это R-интерфейс для Apache Spark, который позволяет вам использовать Spark в качестве бэкэнда для пакета обработки данных dplyr. Sparklyr также предоставляет способ запроса данных в Spark с помощью SQL. Microsoft R Server и sparklyr теперь можно использовать в тандеме в рамках одного сеанса Spark. поэтому вы можете использовать все функции расширенных алгоритмов машинного обучения Microsoft R Server для данных, подготовленных с использованием грамматики dplyr.
Также существует обновленная версия Microsoft R Client, которая имеет те же параметры анализа для локального использования и теперь доступна как для Linux, так и для Windows.
Помимо поддержки Hadoop в R Server, Microsoft объявила, что начиная с SQL Server 2017 вы сможете использовать код Python для аналитики в базе данных и машинного обучения. То, что называлось R Services, было переименовано в Machine Learning Services, и R и Python являются двумя вариантами в рамках этой функции.