GitHub для данных в стадии разработки


Gretel, который позволит разработчикам совместно работать с данными, создан командой, состоящей из инженеров и разработчиков, которые ранее работали в Агентстве национальной безопасности, Google и Amazon Web Services.

Их проект решает проблему необходимости работы с реальными пользовательскими данными и предоставляет разработчикам возможность обмениваться конфиденциальными данными в режиме реального времени, сохраняя при этом конфиденциальность данных.

Разработчики Gretel, Alex Watson, John Myers, Ali Golshan и Laszlo Bock говорят, что он работает в режиме реального времени, обеспечивая безопасный обмен и совместную работу между разработчиками и приложениями, и имеет инструменты, которые являются «открытыми, интеллектуальными и интегрированными».

Команда подчеркивает важность того, чтобы разработчики могли безопасно изучать данные и экспериментировать с данными, чтобы поддерживать быстрые инновации от имени клиентов:

«Как разработчики, нам не всегда нужен полный доступ к конфиденциальным данным клиентов. Мы знаем, что часто лучше всего выбирать только те данные, которые вам нужны для разработки новых функций или изучения идей, особенно если вы можете использовать свою личность разработчика для доступа к данным. за секунды, вместо того, чтобы тратить недели или месяцы на ожидание утверждения соответствия ».

Решение Gretel призвано удовлетворить эту потребность, используя комбинацию машинного обучения, синтетических данных и формальных аргументов, чтобы предложить доказуемые гарантии конфиденциальности для данных. Используя это для обеспечения конфиденциальности рабочих процессов разработчиков, Gretel может обеспечить безопасный доступ к данным в течение нескольких секунд после их создания, разблокируя разрозненные данные и открывая дверь для новых идей.

Синтетические данные — это поддельные данные, которые следуют тем же шаблонам, что и реальные пользовательские данные, но, по-видимому, более реалистичны, чем старая разновидность «A. Person, 3, High Street, Sometown», к которой обычно обращаются программисты. Gretel использует машинное обучение для определения категорий данных и классифицирует их, используя как можно больше тегов к данным. Затем эти теги используются для применения «дифференциальной конфиденциальности», чтобы сделать данные анонимными, чтобы они не соответствовали информации о клиенте. Это приводит к полностью поддельному набору данных, генерируемому машинным обучением.

Наряду с аспектами конфиденциальности данных команда разрабатывает модели машинного обучения, чтобы помочь разработчикам разобраться в своих данных и автоматизировать объединение данных с дополнительными наборами данных с открытым исходным кодом, частными наборами данных или чем-либо промежуточным. Они говорят, что все услуги Gretel доступны через простые API-интерфейсы, которые интегрируются с существующими рабочими процессами и инструментами разработчиков.


Добавить комментарий