Библиотека Python с открытым исходным кодом Amazon для AWS Glue


Amazon предоставил открытый исходный код библиотеки Python, известной как Athena Glue Service Logs (AGSlogger), которая упрощает синтаксический анализ форматов журналов в AWS Glue для анализа и предназначена для использования с журналами обслуживания AWS.

Организации, использующие Amazon Simple Storage Service (S3) для хранения журналов, часто хотят запрашивать журналы с помощью Amazon Athena, бессерверного механизма запросов данных на S3. Amazon заявляет, что многие клиенты используют Athena для запросов к журналам для устранения неполадок служб и приложений, анализа производительности и аудита безопасности.

В недавно созданной библиотеке Python с открытым исходным кодом Athena Glue Service Logs (AGSlogger) есть предопределенные шаблоны для анализа и оптимизации различных популярных форматов журналов. AGSLogger позволяет определять схемы, управлять разделами и преобразовывать данные в рамках задания извлечения, преобразования, загрузки (ETL) в AWS Glue. Идея состоит в том, что разработчики смогут использовать библиотеку с заданиями AWS Glue ETL, чтобы предоставить вам общую платформу для обработки данных журнала.

Библиотека предназначена для первоначального преобразования журналов AWS Service, а затем продолжения преобразования журналов по мере их доставки в S3. Хотя можно запрашивать журналы на месте с помощью Athena, по соображениям стоимости и производительности может быть лучше преобразовать журналы в разделенные файлы Parquet. В библиотеке есть задания Glue Jobs для ряда типов журналов службы, которые будут создавать исходную и целевую таблицы, преобразовывать исходные данные в многораздельные файлы Parquet и поддерживать новые разделы для исходной и целевой таблиц.

Библиотека поддерживает несколько типов журналов:

Балансировщик нагрузки приложений

Классический балансировщик нагрузки

AWS CloudTrail

Amazon CloudFront

S3 доступ

Amazon VPC Flow

После преобразования из строковых файлов журнала в Parquet на основе столбцов данные можно запрашивать с помощью Athena. Apache Parquet — это формат хранения с открытым исходным кодом, ориентированный на столбцы, первоначально разработанный для Apache Hadoop, но в настоящее время используемый более широко.


Добавить комментарий