SparklyR — Интерфейс R Для Spark


Команда, стоящая за R Studio, анонсировала SparklyR, новый пакет, который обеспечивает интерфейс между R и Apache Spark.

SparklyR
SparklyR

Новый пакет направлен на удовлетворение потребности в собственном интерфейсе dplyr для Spark и обеспечение интерфейсов для алгоритмов распределенного машинного обучения Spark. Dplyr-это пакет, который предоставляет набор инструментов, которые вы можете использовать для управления наборами данных в R. Это разработка от plyr, ориентированная только на фреймы данных.

Новый пакет позволяет интерактивно манипулировать данными Spark как с помощью dplyr, так и с помощью SQL (через DBI). Вы можете фильтровать и агрегировать наборы данных Spark, а затем переносить их в R для анализа и визуализации.

Пакет также может использоваться для организации распределенного машинного обучения из R с использованием Spark MLlib или H2O SparkingWater. Оба предоставляют набор высокоуровневых API, построенных поверх фреймов данных, которые помогают создавать и настраивать рабочие процессы машинного обучения.

Разработчики также могут расширить пакет с помощью расширений, которые вызывают полный API Spark и предоставляют интерфейсы для пакетов Spark, поскольку средства, используемые sparklyr для своих интерфейсов dplyr и машинного обучения, доступны для пакетов расширений.

Вы можете настроить соединения Spark и просматривать фреймы данных Spark в среде IDE RStudio с помощью SparklyR, а также подключаться к Spark из R через встроенный сервер dplyr.

Последняя версия RStudio Preview IDE RStudio включает интегрированную поддержку Spark и пакета sparklyr, включая инструменты для: 

  • Создание и управление подключениями Spark
  • Просмотр таблиц и столбцов фреймов данных Spark
  • Предварительный просмотр первых 1000 строк фреймов данных Spark

Окончательная версия RStudio IDE, включающая интегрированную поддержку sparklyr, будет выпущена в течение следующих нескольких недель.


Добавить комментарий