Была обновлена база данных Splice Machine, сочетающая Hadoop и традиционные реляционные возможности. Новая версия предлагает улучшенное покрытие SQL, лучшее управление рабочей нагрузкой и поддержку Kubernetes.
База данных Splice Machine построена на двух технологических стеках: Apache Derby, основанная на Java, база данных ANSI SQL и HBase / Hadoop. Компания заявляет, что предоставляет технологию горизонтального масштабирования Hadoop, распределенную вычислительную мощность в реальном времени хранилища ключей и значений HBase, а также все функции СУБД, включая транзакции ANSI SQL и ACID.
Splice Machine обеспечивает как транзакционные, так и аналитические функции. Большинство систем баз данных сосредоточены либо на быстром доступе к данным с помощью индексов, либо на обеспечении масштабируемости и поддержки неструктурированных данных, но без поддержки транзакций ACID и быстрых индексов. Splice Machine стремится сделать и то, и другое, с автоматическим сегментированием для масштабируемости, а также транзакциями и индексами ACID.
В этом выпуске управление рабочими нагрузками было улучшено за счет добавления поддержки нескольких очередей OLAP (оперативной аналитической обработки), что означает, что вы можете зарезервировать емкость кластера для конкретных запросов и изолировать рабочие нагрузки друг от друга, чтобы соответствующие ресурсы были доступны при выполнении нескольких ресурсоемких запросов.
Покрытие SQL было улучшено благодаря поддержке синтаксиса SQL, специфичного для DB2. В более общем плане Splice Machine 3 имеет полную поддержку внешнего соединения, а также поддержку запросов на определенный момент времени. Это позволяет запрашивать базу данных в том виде, в котором она существовала когда-то в прошлом. Также улучшена поддержка триггеров, поэтому вы можете обрабатывать события, которые могут запускать автоматические действия, и действия, которые могут быть предприняты в результате этих триггеров.
Параметры репликации теперь включают активную и пассивную репликацию, что означает, что вы можете автоматически синхронизировать несколько кластеров БД. Безопасность — еще одна область, которая была улучшена за счет поддержки ограничений доступа к схеме, чтобы вы могли ограничить доступ к объектам, принадлежащим указанной схеме, чтобы другие пользователи не могли просматривать или получать к ним доступ.
Наибольшие изменения произошли в области науки о данных с новой поддержкой записных книжек Jupyter, JupyterHub и BeakerX.
JupyterHub предоставляет возможность обслуживать записные книжки Jupyter нескольким пользователям, а BeakerX — это дополнительный уровень, который находится поверх Jupyter и предоставляет функции, включая программирование многоязычных языков и поддержку кросс-ядерных переменных.
Поддержка программирования Polyglot означает, что вы можете использовать несколько разных языков в одной записной книжке Jupyter, включая SQL, R, Python, Java и Scala. Глобальное пространство имен BeakerX означает, что вы можете создавать кросс-языковые модели, сохранять переменные в глобальном объекте beakerx и получать доступ к этим данным из других ядер. В новом выпуске также добавлено Model Workflow Management, основанное на MLFlow.