Data Scientist или Data Engineer? Выбери свой путь в Udacity


Поток данных невозможно остановить – каждый день создается 2,5 миллиона террабайт, поэтому хранение, организация и анализ данных становятся важнее, чем когда-либо. Udacity обновил программы Nanodegree, предлагаемые его Школой науки о данных, и они начинаются 23 сентября.

Школа данных Udacity теперь имеет в общей сложности тринадцать программ Nanodegree, одиннадцать из которых помечены как новые программы. Он также определяет пути к определенной карьере с двумя расходящимися путями для разработчиков, интересующихся данными, один из которых ведет к роли Data Scientist, а другой – к Data Engineer.

Специалистов по данным можно рассматривать как тех, кто разбирается в данных, представляет информацию, которую они содержат, и вносит свой вклад в принятие решений на ее основе. Предлагая путь к этой карьере, Udacity напоминает нам:

В рабочей силе не хватает квалифицированных специалистов по анализу данных, и люди с такими навыками пользуются большим спросом. Развивайте навыки программирования, обработки данных, машинного обучения, проектирования экспериментов и визуализации данных и начните карьеру в области науки о данных.

На продвинутом уровне Data Scientist Nanodegree от Udacity – это последний шаг на указанном пути, если вы хотите сделать карьеру в этой должности. Обучение начинается с программирования для науки о данных с помощью Python. Этот наноуровень, который, по оценкам, займет 3 месяца, относится к начальному уровню. Он охватывает основы Python и знакомит вас с основными инструментами программирования данных, включая SQL, а также с контролем версий с помощью Git.

Промежуточным этапом является Data Analyst Nanodegree, которая представляет собой 4-месячную программу, в которой вы используете Python, SQL и статистику для получения информации, передачи важных результатов и создания решений на основе данных. Его модули и проекты (названия в CAPS) следующие:

Введение в анализ данных Изучите процесс анализа данных, заключающийся в обработке, изучении, анализе и передаче данных. Работайте с данными в Python, используя такие библиотеки, как NumPy и Pandas.

Практическая статистика

Узнайте, как применять выводную статистику и вероятность к реальным сценариям, например к анализу A / B-тестов и построению контролируемых моделей обучения.

Изучите процесс обработки данных для сбора, оценки и очистки данных. Научитесь использовать Python для программной обработки данных и подготовки их к анализу.

Визуализация данных с помощью Python Научитесь применять принципы визуализации в процессе анализа данных. Изучите данные визуально на нескольких уровнях, чтобы найти идеи и создать увлекательную историю.

Перед тем, как приступить к 4-месячной программе Data Scientist Nanodegree, вам также понадобится подготовка в области машинного обучения. В нем есть эти модули и проекты, а также заключительный проект, объединяющий все это воедино:

Решение проблем науки о данных Изучите процесс науки о данных, в том числе о том, как создавать эффективные визуализации данных и как общаться с различными заинтересованными сторонами.

Разработка программного обеспечения для специалистов по данным Развивайте навыки разработки программного обеспечения, необходимые для специалистов по данным, такие как создание модульных тестов и построение классов.

Data Engineering for Data Scientists Научитесь работать с данными на протяжении всего процесса обработки данных, от запуска конвейеров, преобразования данных, построения моделей и развертывания решений до облака. СОЗДАЙТЕ ТРУБОПРОВОДЫ ДЛЯ КЛАССИФИКАЦИИ СООБЩЕНИЙ С РИСУНОК ВОСЕМЬ

План эксперимента и рекомендации: научитесь планировать эксперименты и анализировать результаты A / B-тестов. Изучите подходы к созданию рекомендательных систем. РАЗРАБОТАТЬ РЕКОМЕНДАЦИОННЫЙ ДВИГАТЕЛЬ С IBM

Альтернативный карьерный путь, которым вы, возможно, захотите следовать, ведет к роли инженера по данным. По словам Сэма Нельсона, руководителя школы данных Udacity.

Специалисты по обработке данных создают механизмы, которые помогают компаниям разобраться во всем этом. Они имеют решающее значение для стратегии обработки данных любой компании. Без правильной инфраструктуры вы можете собирать данные, но они просто сидят и занимают место.

Первый шаг на этом пути – это снова наноразмерное программирование для науки о данных с помощью Python. Второй, на промежуточном уровне, – это Data Engineer Nanodegree, который разработан, чтобы показать вам, как понимать экосистему данных, дать вам правильные инструменты для навигации по ней и позволить вам применять полученные знания, выполняя практические проекты, готовые для портфолио. . Это 5-месячная программа, включающая следующие модули и проекты, а также заключительный проект, объединяющий все это воедино:

Моделирование данных: научитесь создавать реляционные модели данных и модели данных NoSQL, соответствующие разнообразным потребностям потребителей данных. Используйте ETL для создания баз данных в PostgreSQL и Apache Cassandra. МОДЕЛИРОВАНИЕ ДАННЫХ С ПОМОЩЬЮ МОДЕЛИРОВАНИЯ POSTGRESDATA С APACHE CASSANDRA.

Облачные хранилища данныхОтточите свои навыки работы с хранилищами данных и углубите свое понимание инфраструктуры данных. Создание облачных хранилищ данных на Amazon Web Services (AWS). СОЗДАНИЕ ОБЛАЧНОГО СКЛАДА ДАННЫХ

Spark и Data Lakes Узнайте об экосистеме больших данных и о том, как использовать Spark для работы с массивными наборами данных. Храните большие данные в озере данных и запрашивайте их с помощью Spark.

Конвейеры данных с помощью Airflow Планируйте, автоматизируйте и отслеживайте конвейеры данных с помощью Apache Airflow. Выполняйте проверки качества данных, отслеживайте происхождение данных и работайте с конвейерами данных в производственной среде.

Третий шаг на пути к продвинутому уровню – это Data Streaming Nanodegree, о которой мы сообщали, когда она была первоначально запущена в марте 2020 года. Предполагается, что на это потребуется 2 месяца, с двумя курсами и двумя проектами, она разработана, чтобы научить вас обрабатывать данные в режиме реального времени, развивая навыки работы с современными инструментами инженерии данных, такими как Apache Spark, Kafka, Spark Streaming и Kafka Streaming.


Добавить комментарий