iTechArt logo

Приятно познакомиться, Data Scientist: главное об одной из трендовых data-профессий

Development & QA

С тем, кто такие Data Engineers, мы уже разобрались. На очереди — Data Scientists, специалисты, способные извлекать из данных максимум пользы.
 

Что такое Data Science?

Если коротко, это процесс превращения  данных в полезные знания. Также часто можно встретить название Data Mining: оно синонимично первому термину.

Data Science строится на гипотезах, которые в рамках изучения и анализа данных либо подтверждаются, либо нет. Например, бизнес-гипотеза — не подтвержденная идея о продукте или проекте, которая приходит от доменного эксперта, клиента или Data Scientist. Пример для понимания: кто-то предположил, что внедрение нового дизайна на сайте поможет повысить конверсию. Это гипотеза, и ее нужно проверить.

Data Science — больше, чем просто анализ данных. Это выявление закономерностей, связей, несущих в себе business value. На их основе строятся достаточно точные прогнозы на будущее по проекту, предлагаются решения, позволяющие улучшить продукт, сделать его более удобным, полезным, повышающие его ценность и, как следствие, выгоду для  стейкхолдера.

В каких доменных областях нередко применяется Data Science?

  • Ритейл и коммерция
  • Банкинг и финансы
  • Образование
  • Здравоохранение
  • Маркетинг и продажи
  • Реклама
  • SaaS и мобильные приложения

Цикл работы Data Scientist следующий:

1. Анализ бизнес-проблемы

Специалисту Data Science важно обладать предпринимательским или экономическим складом ума, чтобы видеть гипотезы, исходящие от проектов. Например, на первом этапе работы важно понять, какую цель ставит клиент, какую проблему бизнеса должна решить работа команды и Data Scientist в частности. Тут же выдвигаются гипотезы, которые будут анализироваться в дальнейшем.

2. Сбор данных

На этом этапе специалист собирает всю необходимую для работы информацию (статистику, сведения за определенный период и др.). В зависимости от форматов и источников данных Data Scientist может использовать SQL, Pandas, Spark и другие инструменты, чтобы собрать и переработать данные из внутренних источников (например, из логов или таблиц). В сложных случаях и на крупных проектах с разделением ролей сбор данных может делегироваться Data Engineer. Встречаются также случаи, когда данные необходимо собрать из открытых источников или даже разметить вручную. 

3. Разведочный анализ данных

После того, как данные собраны / получены, от клиента может поступить расплывчатый вопрос: «Посмотри, пожалуйста, на них. Видишь что-нибудь интересное?» В этом и заключается разведочный, первичный анализ данных, без задействования гипотез. Он производится чаще всего на Python благодаря инструментам Jupyter и Pandas. По окончанию этого этапа Data Scientist получает либо набор словесных выводов, либо графики и диаграммы. Все это оформляется в отчет и отправляется Business Analyst или стейкхолдеру проекта. 

4. Материализация гипотез

На этом, четвертом, этапе, производится воплощение гипотез в жизнь: смена дизайна сайта, реализация скрипта по автоматизации, создание и развертывание ML-функционала.

Есть разные по сложности виды гипотез (примеры приведены в таблице) Гипотезы на тему ML реализовываются долго, чаще всего специалисты работают с первымими двумя приведенными примерами из таблицы.

5. Валидация 

После того, как выявлены наиболее ценные гипотезы, проводится, наконец, A/B тестирование. Оно помогает отобрать гипотезы, приводящие к статистически значимым положительным эффектам. Статистическая значимость — уверенность в неслучайности полученных результатов

Что такое А/B-тестирование? Пользователей системы делят на 2 группы: А и В. Одной из них предлагают воспользоваться системой с нововведением, второй оставляют для работы прежнюю версию. Их впечатления, поведение — та самая полезная информация, которую анализирует Data Scientist. 

В заключение этапа — презентация отчета с результатами клиенту.

Data Scientist и Data Analyst: так ли сильно похожи?

Data Science находится на стыке бизнеса, разработки и машинного обучения. Со стороны может показаться, что Data Scientists и Data Analysis имеют одинаковый пул обязанностей, но это не так.

  • Data Scientists — специалисты ML и статистики, которые, при этом, не далеки от бизнеса. Могут писать код, сильнее подкованы технически, например, могут создавать на проекте модели данных с помощью алгоритмов машинного обучения и нейросетей.
  • Data Analysts — те, кто идеально понимают бизнес-потребности клиентов. Обладают развитыми soft skills, высокими коммуникативными навыками, талантливо презентуют информацию. Навык работы с кодом для них опционален.

Что должен знать и уметь Data Scientist?

  • Языки программирования: Python (встречается на 90% проектов), R (на 10% проектов), SQL
  • Тулы: NumPy, Scikit-Learn, Jupyter, matplotlib
  • Знание ML и статистики
  • Аналитический, бизнес-ориентированный склад ума, умение презентовать информацию