Oracle выпустила унифицированный инструмент запросов, который вы можете использовать, чтобы задавать вопросы по смешанным источникам данных SQL, Hadoop и NoSQL.
Oracle Big Data SQL будет доступен «через несколько месяцев», первоначально для платформы Oracle Big Data Appliance. В будущем планируется выпуск версий Oracle Database на серийном оборудовании.
Программное обеспечение позволяет использовать Oracle SQL для написания запросов к Hadoop и NoSQL и имеет «службу Smart Scan», которая, по словам Oracle, сводит к минимуму перемещение данных и максимизирует производительность.
Утилита использует технологию Oracle Exadata Smart Scan. Он обрабатывает запросы SQL на уровне хранилища Hadoop, сканирует данные и возвращает конечному пользователю только релевантные данные. Это сокращает объем данных, которые необходимо передать.
Smart Scan для Hadoop добавляет новую службу, которая затем совмещается с HDFS DataNodes и YARN NodeManager в системе Hadoop. В эти службы отправляются запросы из новых внешних таблиц, чтобы гарантировать, что чтение выполняется по прямому пути и локально для данных. Smart Scan также сокращает количество возвращаемых данных, отправляя только те столбцы, которые включены в требуемые результаты, и выбирая строки в источнике, чтобы удалить нерелевантные данные.
«Используя интеллектуальное сканирование в Hadoop, вы сократили объем данных, которые в противном случае переместили бы на 99 процентов», — говорит Пол Сондереггер, стратег по большим данным в Oracle.
Oracle Big Data SQL обрабатывает источники данных, отличные от SQL, как внешние таблицы для «нормальной» базы данных Oracle. Обработка внешних таблиц заключается в использовании хранилища метаданных Hive или пользовательских определений для определения как параллелизма, так и семантики чтения. Это означает, что если файл в HFDS состоит из 100 блоков, база данных Oracle понимает, что существует 100 единиц, которые можно читать параллельно. Если данные были сохранены в SequenceFile с использованием двоичного SerDe, или как данные Parquet, или как Avro, данные читаются именно так. Big Data SQL использует те же InputFormat, RecordReader и SerDes, определенные в хранилище метаданных Hive, для чтения данных из HDFS. Это позволяет избежать проблем, обычно вызываемых обработкой внешних таблиц как плоских файлов, а не распределенных данных, что приводит к плохому параллелизму и удалению значения схемы при чтении.
Oracle Big Data SQL будет упакован в качестве опции для платформы Big Data Appliance компании аналогично набору инструментов коннекторов для больших данных. Программное обеспечение будет доступно в третьем квартале 2014 года.