itechart_logo

Кто есть кто: обзор ключевых IT-специальностей в сфере обработки данных

23 апреля 2021
Александр Цуканов.JPG

Александр
Цуканов

ML Engineer / Data Scientist

Цифровая трансформация всех сфер жизни дала толчок к развитию профессий, связанных с обработкой данных. Некоторые специальности имеют настолько схожие названия, что кажутся взаимозаменяемыми. С ходу определить, в чём разница между Data Scientist и Data Analyst или же Data Engineer и Machine Learning Engineer – та ещё головоломка. Много ли общего у этих 4-х профессий и чем отличаются зоны ответственности каждой из них, объясняет Александр Цуканов, ML Engineer / Data Scientist iTechArt.

Матрица навыков

Data Scientist

Data Science, или наука о данных, призвана решать бизнес-проблемы с использованием данных. Data Scientist превращает груды непонятных данных в набор полезных знаний. Специалист такого профиля оказывает бизнесу две полезные услуги: проверяет гипотезы и ищет способы улучшить бизнес-показатели. Для этого используется разведывательный анализ данных (EDA), A/B-тестирование, а часто ещё и машинное обучение. Именно поэтому специалисту в Data Science жизненно важно разбираться в статистике и ML‑алгоритмах, а ещё мыслить экономическими и бизнес-категориями.

От специалиста в Data Science не требуется быть первоклассным разработчиком, хотя умение писать код на Python всё же понадобится. Зато собрать и исследовать неструктурированные данные так, чтобы найти скрытые закономерности и снабдить клиента ценными инсайтами – ещё как. Для этого могут пригодиться навыки в технологиях Big Data.

Что касается машинного обучения, Data Scientist, как правило, проводит исследовательский этап (найти подходящее решение из области ML под конкретный бизнес-случай), реализует в коде и тренирует ML‑модель. На помощь могут прийти другие инженеры: они помогают со сложными техническими моментами. Когда ML‑решение готово, Data Scientist проводит эксперименты и мониторинг бизнес-метрик в продакшене. Наряду с Data Analyst, может определить эффект от решения для бизнеса и сделать понятную презентацию с визуализацией итогов.

Data Analyst

Аналитик данных (Data Analyst) фокусируется на определённом подмножестве задач из области Data Science. Так, для решения многих бизнес-проблем с использованием данных зачастую не нужно привлекать машинное обучение, и даже навыки программирования и Big Data могут не потребоваться. Получается, что в ряде случаев возможно производить анализ данных максимально простыми инструментами (с использованием BI-систем или даже Excel) и сфокусироваться на полном погружении в предметную область – чем и занимается Data Analyst. Аналитик данных хорошо знает статистику, умеет быстро и глубоко погрузиться в специфику продукта и точно понять бизнес-нужды клиента. Data Analyst обладает исключительными коммуникативными компетенциями. Из технических навыков, как правило, владеет SQL, Excel, BI-инструментами, иногда могут также пригодиться R или Python. Data Analyst – гуру презентации и визуализации, такому специалисту важно уметь представлять данные таким образом, чтобы они были понятны каждому, а не только экспертам.

Ирархия потребностей, связанных с данными

Machine Learning Engineer

Machine Learning, или машинное обучение – удивительная область, в которой алгоритмы не создаются в явном виде программистом, а обучаются, впитывая знания из данных. Чтобы разобраться во внутреннем устройстве моделей машинного обучения, потребуется базовое понимание некоторых академических дисциплин (теория вероятностей, статистика, линейная алгебра, матанализ, численная оптимизация). Между тем, современный бум машинного обучения связан именно с прикладным применением ML‑алгоритмов. Создание прикладного ПО на базе машинного обучения называют Machine Learning Engineering. ML‑инженеру следует быть прежде всего хорошим разработчиком, но при этом отлично разбираться в специфике создания ML‑решений и внутреннем устройстве ML‑алгоритмов.

ML‑инженер отвечает практически за весь цикл разработки, обучения, развертывания и поддержки решений в области машинного обучения. В то же время, когда на проект привлекают ML‑инженера, предполагается, что задача уже перешла из области абстрактной бизнес-проблемы в область технической задачи. Как только ML‑решение готово и развёрнуто в продакшене, ML‑инженер наблюдает только технические показатели, но не занимается доказательством эффекта для бизнеса (ведь для этого есть Data Scientist и Data Analyst). От ML‑инженера не ждут глубокого понимания бизнес-составляющей и искусной презентации – такому специалисту достаточно иметь soft skills на уровне типичного инженера по разработке ПО.

Машинное обучение может использоваться для самых разнообразных данных и задач. Из-за этого возникло множество углубленных специализаций в рамках профессии Machine Learning Engineer. В качестве примеров можно назвать специалистов Computer Vision Engineer, NLP Engineer, Motion Planning Engineer и т.д.

Data Engineer

Для Data Engineer типично работать с большими данными, поэтому владение инструментами Big Data и умение писать софт – мастхэв. А вот вещи, связанные с машинным обучением, статистикой, бизнес-коммуникацией не настолько востребованы.

Data Engineer работает с сырыми данными, которые могут содержать ошибки и едва ли могут быть использованы Data Scientist для анализа и систематизации. Инженер данных приводит их в нужный вид, чтобы затем передать ML‑инженеру или Data Scientist. 

Data Engineer организует хранилища данных, разрабатывает конвейеры для обработки данных и интегрирует различные источники между собой. Такой специалист знает, как обеспечить бесперебойный доступ к данным в нужном виде для последующей аналитики, создания отчётов, обучения ML‑алгоритмов и т.д. Для этого Data Engineer использует арсенал различных языков программирования, СУБД, инструментов ETL и Big Data.

Резюмируем:

  • Data Engineer предоставляет инфраструктуру данных.
  • Data Analyst и Data Scientist решают бизнес-задачи с помощью данных. Последний может привлекать ML.
  • Machine Learning Engineer создает программное обеспечение на основе машинного обучения.

Видно, что границы этих профессий размытые и нестрогие, при желании можно относительно быстро переквалифицироваться из одной роли в другую. К слову, в небольших IT‑компаниях один и тот же человек может совмещать несколько ролей. 

Существует и отдельный вид специалиста по работе с данными, которого все мечтают заполучить, но мало кому это удаётся. Речь идёт про Full Stack Data Scientist. Такой специалист, с одной стороны, может легко и непринужденно общаться с бизнесом, с другой стороны – проявляет отличные способности в разработке ПО, конкретно в машинном обучении, и при этом может собрать данные даже в безнадёжной с виду ситуации. Чтобы стать тем самым Full Stack Data Scientist придётся обзавестись всеми компетенциями, которые есть у рассмотренных нами специальностей по отдельности.

CATEGORIES

Development & QA Students Lab Company News Success Story

Похожие
статьи

arrow_left БЛОГ