Data scientist что за профессия

Кажется, что из каждого утюга говорят про Data Science? Вам не кажется! Об этом действительно говорят, в том числе что это, без сомнения, профессия будущего. За последние годы количество вакансий в этой области выросло в несколько раз. В этой статье я расскажу вам о том:

Приступим к разбору.

Data Scientist – кто это?

Data Scientist — это эксперт по анализу массивов данных. Обычно имеет математический склад ума, понимает как работает статистический анализ и умеет видеть и находить закономерности. По большому счету у них нет определенной специализации для работы, так как массивы данных существуют в любой сфере. Задача Data Scientist заключается в том, чтобы с помощью анализа данных создавать модели для совершенствования рабочих процессов.

Чем занимаются и что делают Data Scientist?

Вне зависимости от специфики бизнеса, каждый специалист по Big Data занимается примерно одинаковыми вещами:

  • Сбор больших массивов данных и видоизменение их для удобной работы;
  • Решение бизнес-задач с помощью анализа данных;
  • Работа с языками программирования: SAS, R и Python;
  • Работа со статистикой;
  • Аналитика, в том числе машинное обучение и текстовая аналитика;
  • Выявление закономерностей, которые помогают достигнуть конечного бизнес-результата.

А уже исходя из специализации в результате работы получаются модели прогнозирующие поведение пользователей в сети, погоды, курсов валют. Рекомендации музыки и фильмов, исходя из ваших предпочтений — все это тоже Data Science.

Для эффективной работы хороший специалист должен знать:

  • статистику и машинное обучение;
  • языки программирования SAS, R или Python;
  • базы данных MySQL и Postgres;
  • технологии визуализации данных и отчетности;
  • Hadoop and MapReduce.

Как бы сложно это не звучало, всему можно научиться, причем довольно быстро. Но об этом позже, а пока поговорим про то, где может работать Data Scientist и сколько им за это платят.

Зарплата Data Scientist

Если я скажу что Data Scientist работать можно везде — я не преувеличу. Нет такой сферы бизнеса, где бы нельзя было бы применить анализ данных. Фриланс, remote или работа в офисе — любой вариант доступен. Что же касается зарплаты, то здесь даже младший специалист получает больше, чем среднестатистический россиянин.

По данным hh.ru на ноябрь 2019 года получилась вот такая картина:

  • Москва: от 120 000 до 230 000 рублей;
  • Санкт-Петербург: от 70 000 до 180 000 рублей;
  • Регионы: от 40 000 до 120 000 рублей.

Очень много специалистов требуется в банковскую сферу, а это чаще всего подразумевает такие плюшки как белая зарплата, ДМС и официальный отпуск. Многие компании предлагают работать удаленно, поэтому если вы хороший спец, то не важно где вы проживаете — работать можно и на столичного работодателя.

Как стать Data Scientist: где учиться?

Мы подошли к самой главной части — где и как можно выучиться на специалиста по Big Data. Здесь пожалуй будет самый разнообразный топ онлайн школ предлагающих обучение. Поехали:

Длительность: 15 месяцев.

Формат: вебинары + воркшопы + домашнее задание + работа с наставником.

Содержание: в программе 3 блока: начальный уровень анализа данных и машинного обучения, средний уровень соответственно и дипломная работа для онлайн кинотеатра ivi.ru.

Преподаватели: ведущие специалисты по Data Science в Skillbox, ivi.ru, специалисты по Deep Learning в NVIDIA , и преподаватели ВУЗов.

Ключевые навыки:

  • Владение языком программирования Python для анализа данных и применения алгоритмов машинного обучения;
  • R и знание основных библиотек;
  • Работа с различными источниками данных: CSV, XML и XLS;
  • Знание основ SQL и NoSQL баз данных;
  • Организация и проведение А/B-тестирования;
  • Создание аналитических панелей (фреймворки Dash и Shiny).

Инструменты: R, Dash, Shiny, Jupyter, Numpy, Scipy, Pandas, Matplotlib, Scikit-learn, Python, SQL.

Цена:

  • полная — 135 000 рублей;
  • рассрочка без первого взноса — 3750 рублей.

Бонусы: первый платеж через 6 месяцев после начала учебы, гарантированное трудоустройство, 2 месяца изучения английского языка в подарок.

Итоги: диплом + портфолио + гарантированное трудоустройство.

Ссылка на курс: перейти к обучению >>>

Резюме: Курс, который позволит вам с нуля освоить профессию Data Scientist и уже спустя полгода начать работать и при этом продолжать обучение

2. Курс «Data Scientist» от Нетологии

Длительность: 9 месяцев.

Формат: вебинары + очные лекции + домашнее задание + работа с наставником.

Содержание:

  • SQL и получение данных;
  • Python и математика для анализа данных;
  • Feature engineering и предобработка данных;
  • Построение модели;
  • Работа с заказчиком;
  • Рекомендательные системы;
  • Распознавание изображений, машинное зрение;
  • Обработка естественного языка (NLP).

Преподаватели: ведущие специалисты по Data Science в компаниях Сбербанк, ндекс, Дом. ру и тд, и преподаватели ВУЗов.

Ключевые навыки:

  • Сбор и подготовка данных для анализа
  • Создание нейросетей
  • Генерация текстов и изображений
  • Создание рекомендательных систем
  • Выбор и реализация алгоритма под задачу
  • Выбор и создание фич для модели

Инструменты: Pandas, Scikit-learn, OpenCV, PostgreSQL, NLTK, Tensorflow

Цена:

  • полная — 200 000 рублей;
  • со скидкой — 180 000 рублей
  • рассрочка без первого взноса — 16 667 рублей.

Бонусы: помощь в трудоустройстве

Итоги: диплом + портфолио

Ссылка на курс: перейти к обучению >>>

Резюме: Отличный курс для тех, кто уже в теме IT и хочет проапгрейдить свои скиллы.

3. «Специализация Data Science» от SkillFactory

Длительность: 12 месяцев

Формат: видеоуроки + домашнее задание + работа с наставником

Содержание:

  • Основы программирования на Python + Python для анализа данных;
  • Mатематика и статистика для Data Science;
  • Практический Machine Learning;
  • Deep learning и нейронные сети;
  • Data Engineering;
  • Менеджмент для Data Science;

Преподаватели: ведущие специалисты по Data Science топовых компаний, преподаватели ВУЗов.

Ключевые навыки:

  • Программирование на Python;
  • Анализ данных в Pandas и NumPy;
  • Визуализация, очистка данных и feature engineering;
  • Работа c файлами, html-страницами и API;
  • Data Science в production;
  • Оценка эффективности моделей в реальных бизнес-задачах;
  • Управление data science проектом и командой;
  • Общение с заказчиками.

Инструменты: Python, Tensorflow, Keras, Numpy, Pandas и тд.

Цена:

  • полная — 150 000 рублей;
  • со скидкой — 90 000 рублей;
  • рассрочка — 3800 рублей.

Бонусы: помощь в трудоустройстве.

Итоги: диплом + портфолио.

Резюме: курс, на котором вы с нуля освоите Data Science и научитесь работе с базовыми инструментами.

4. «Факультет искусственного интеллекта» от GeekBrains

Длительность: 18 месяцев.

Формат: видеоуроки + домашнее задание + работа с наставником.

Содержание: курс содержит 6 основных блоков:

  1. Создание инфраструктуры;
  2. Сбор данных и статистическое исследование;
  3. Математика для Data Scientist-a;
  4. Машинное обучение. Совместно с компанией МегаФон;
  5. Нейронные сети;
  6. Задачи искусственного интеллекта. Совместно с компанией NVIDIA.

И еще пять курсов которые нужно освоить помимо основных:

  • Спортивный анализ данных. Платформа Kaggle.
  • Как студенту GeekUniversity найти свою первую работу?
  • История развития искусственного интеллекта. Видеокурс.
  • Алгоритмы и структуры данных на Python. Интерактивный курс.
  • Введение в высшую математику.

Преподаватели: ведущие специалисты по Data Science топовых компаний, преподаватели ВУЗов.

Ключевые навыки:

  • Навыки программирования на Python;
  • Знание алгоритмов и структур данных;
  • Умение работать в Linux и операционных системах;
  • Навыки проектирования архитектуры, использования шаблонов проектирования: singletone, adapter, factory, dependency injection и пр.
  • Умение писать «чистый» код;
  • Навыки работы с нейронными сетями;
  • Методы машинного обучения;
  • Умение решать задачи машинного зрения и распознавания естественного языка;
  • Умение применять теорию вероятности и математическую статистику;
  • Знание линейной алгебры, математического анализа и методов оптимизации;

Инструменты: Python, Tensorflow, Keras, PyTorch, Numpy, Pandas, Matplotlib, Scikit-learn, Jupyter, SQL, nosql, Linux, HTML, https, RESTful API.

Цена:

Бонусы: 3 месяца изучения английского языка, английский язык для IT-специалистов и доступ в GeekClub.

Итоги: диплом + портфолио

Резюме: очень объемный курс, который позволит почти с нуля освоить Data Science. Рекомендуется перед началом закончить подготовительные курсы.

Будущее за вами!

Выбирая обучение профессии Data Scientist вы выбираете будущее. Но отдавайте себе отчет в том, что это все же программирование, и для него необходимо обладать определенным складом ума. Но в любом случае после обучения, вас ждет огромный выбор вакансий, потому что пока на спецов по Big Data есть большой спрос. Поэтому не теряйте время и вливайтесь!

В послед­нее вре­мя на слу­ху два тер­ми­на: биг дата и дата-саенс. Сего­дня — что это такое и зачем нуж­но.

Большие данные

Нач­нём с про­сто­го — big data, или «боль­шие дан­ные». Это мод­ный тер­мин, обо­зна­ча­ю­щий огром­ные мас­си­вы дан­ных, кото­рые накап­ли­ва­ют­ся в каких-то боль­ших систе­мах.

Напри­мер, чело­век в Москве совер­ша­ет 5-6 поку­пок по кар­те в день, это око­ло 2 тысяч поку­пок в год. В стране таких людей, допу­стим, 80 мил­ли­о­нов. За год это 160 мил­ли­ар­дов поку­пок. Дан­ные об этих покуп­ках — биг дата.
В бан­ках какой-то стра­ны каж­дый день совер­ша­ют­ся сот­ни тысяч опе­ра­ций: пла­те­жи, пере­во­ды, воз­вра­ты и так далее. Дан­ные о них хра­нят­ся в цен­траль­ном бан­ке стра­ны — это биг дата.
Ещё биг дата: дан­ные о звон­ках и смс у мобиль­но­го опе­ра­то­ра; дан­ные о пас­са­жи­ро­по­то­ке на обще­ствен­ном транс­пор­те; свя­зи меж­ду людь­ми в соц­се­тях, их лай­ки и пред­по­чте­ния; посе­щён­ные сай­ты; дан­ные о покуп­ках в кон­крет­ном мага­зине (кото­рые хра­нят­ся в их кас­се); дан­ные с шаго­ме­ров и тайм-трекеров; ска­чан­ные при­ло­же­ния; откры­тые вами фай­лы и про­грам­мы… Коро­че, любой боль­шой мас­сив дан­ных.

Поче­му появил­ся такой тер­мин: в кон­це девя­но­стых ком­па­нии в США ста­ли пони­мать, что сидят на доволь­но боль­ших мас­си­вах дан­ных, с кото­ры­ми непо­нят­но что делать. И чем даль­ше — тем этих дан­ных боль­ше.

Рань­ше дан­ные были, услов­но гово­ря, по кре­дит­ным кар­там, теле­фон­ным сче­там и из про­филь­ных госу­дар­ствен­ных ведомств; а теперь чем даль­ше — тем боль­ше все­го счи­та­ет­ся. Супер­мар­ке­ты научи­лись вести сверх­точ­ный учёт скла­да и про­даж. Поли­ция научи­лась с высо­кой точ­но­стью сле­дить за маши­на­ми на доро­ге. Появи­лись смарт­фо­ны, и вооб­ще вся чело­ве­че­ская жизнь ста­ла оциф­ро­вы­вать­ся.

И вот — дан­ные вро­де есть, а что с ними делать? Тут на сце­ну выхо­дит дата-сайенс — дис­ци­пли­на о боль­ших дан­ных.

Минут­ка зануд­ства. Все зна­ют, что пра­виль­но гово­рить «биг дэй­та», пото­му что имен­но так про­из­но­сят носи­те­ли язы­ка. Но в рус­ском язы­ке этот тер­мин при­жил­ся с побук­вен­ной транс­ли­те­ра­ци­ей — как напи­са­но, так и чита­ем. Поэто­му — дата. Кста­ти, с сай­ен­ти­ста­ми тако­го не про­изо­шло — они зву­чат так же, как в ори­ги­на­ле.

Дата-сайенс

Дата-сайентисты — люди, кото­рые зани­ма­ют­ся боль­ши­ми дан­ны­ми: нахо­дят зако­но­мер­но­сти и дела­ют на их осно­ве полез­ные для сво­ей ком­па­нии выво­ды.

Напри­мер, мы — управ­ля­ю­щая ком­па­ния мага­зи­на «Пятё­роч­ка». В каком-то рай­оне у нас откры­то три мага­зи­на. Мы можем попро­сить дата-сайентиста про­ана­ли­зи­ро­вать тран­зак­ции в наших мага­зи­нах и сде­лать про­гноз, мож­но ли какие-то из них закрыть, сохра­нив общую выруч­ку на преж­нем уровне.

Или мы хотим открыть кофей­ню. У нас есть дан­ные об обще­ствен­ном транс­пор­те горо­да, о поло­же­нии кофе­ен в горо­де и сто­и­мо­сти арен­ды в раз­ных домах. Мы можем попро­сить дата-сайентиста пред­ска­зать, где в горо­де не хва­та­ет кофе­ен отно­си­тель­но пас­са­жир­ских пото­ков.

Допу­стим, мы мобиль­ный опе­ра­тор. Мы хотим сде­лать тариф «Юный хай­по­жор» для юных люби­те­лей отве­дать хай­па. Мы отда­ём нашу кли­ент­скую базу и дан­ные о пове­де­нии кли­ен­тов дата-сайентисту, и тот счи­та­ет нам эко­но­ми­ку буду­ще­го тари­фа и потен­ци­аль­ный объ­ём рын­ка, а так­же помо­га­ет выде­лить самых голод­ных до хай­па людей.

Ино­гда эти ребя­та помо­га­ют с управ­ле­ни­ем в ком­па­ни­ях: они на осно­ве дан­ных пишут отчё­ты, кото­рые пока­зы­ва­ют сла­бые места на про­из­вод­стве и дают реко­мен­да­ции по их устра­не­нию. Или отве­ча­ют на вопро­сы из серии «Поче­му наши мене­дже­ры так мало про­да­ют?» или «Где сто­ять продавцу-консультанту, что­бы к нему обра­ща­лись чаще все­го?».

Что знают и умеют дата-сайентисты

Вот началь­ный спи­сок навы­ков, зна­ний и уме­ний, кото­рые нуж­ны любо­му дата-сайентисту для стар­та в рабо­те.

Мате­ма­ти­че­ская логи­ка, линей­ная алгеб­ра и выс­шая мате­ма­ти­ка. Без это­го не полу­чит­ся постро­ить модель, най­ти зако­но­мер­но­сти или пред­ска­зать что-то новое.

Есть те, кто гово­рит, что это всё не нуж­но, и глав­ное — писать код и кра­си­во делать отчё­ты, но они лука­вят. Что­бы обу­чить ней­рон­ку, нуж­на мате­ма­ти­ка и фор­му­лы; что­бы най­ти зако­но­мер­но­сти в дан­ных — нуж­на мате­ма­ти­ка и ста­ти­сти­ка; что­бы сде­лать отчёт на осно­ве боль­шой выбор­ки дан­ных — ну, вы поня­ли. Мате­ма­ти­ка рулит.

Зна­ние машин­но­го обу­че­ния. Рабо­та дата-сайентиста — ана­лиз дан­ных огром­но­го раз­ме­ра, и вруч­ную это сде­лать нере­аль­но. Что­бы было про­ще, они пору­ча­ют это ком­пью­те­рам. Пору­чить такую зада­чу — зна­чит настро­ить гото­вую ней­ро­сеть или обу­чить свою. Пору­чить про­грам­ми­сту обыч­но это нель­зя — слиш­ком мно­го нуж­но будет объ­яс­нить и про­кон­тро­ли­ро­вать.

Про­грам­ми­ро­ва­ние на Python и R. Мы уже писа­ли, что Python — иде­аль­ный язык для машин­но­го обу­че­ния и ней­ро­се­тей. На нём мож­но быст­ро напи­сать любую модель для пер­во­на­чаль­ной оцен­ки гипо­те­зы, поис­ка общих дан­ных или про­стой ана­ли­ти­ки.

R — язык про­грам­ми­ро­ва­ния для ста­ти­че­ско­го ана­ли­за. Если вам нуж­но при­ки­нуть, как лай­ки на стра­ни­це зави­сят от коли­че­ства про­смот­ров или до како­го места чита­тель гаран­ти­ро­ван­но доли­сты­ва­ет ста­тью (что­бы поста­вить туда бан­нер), — R вам помо­жет. Но если вы не зна­е­те мате­ма­ти­ку — не помо­жет.

Уме­ние полу­чать и визу­а­ли­зи­ро­вать дан­ные. Не всем дата-сайентистам везёт настоль­ко, что они сра­зу полу­ча­ют гото­вые набо­ры дан­ных для обра­бот­ки. Чаще все­го они сами долж­ны выяс­нить, где, отку­да, как и сколь­ко брать дан­ных. Здесь обыч­ные про­грам­ми­сты им уже могут помочь — спар­сить сайт, выка­чать боль­шую базу дан­ных или настро­ить сбор ста­ти­сти­ки на сер­ве­ре.

Вто­рой важ­ный навык в этой про­фес­сии — уме­ние нагляд­но пока­зать резуль­та­ты рабо­ты. Какой толк в гра­фи­ках, если никто, кро­ме авто­ра, не пони­ма­ет, что там нари­со­ва­но? Зада­ча дата-сайентиста — пред­ста­вить дан­ные нагляд­ным обра­зом, что­бы зри­те­лю было лег­че сде­лать нуж­ный вывод.

Как это выглядит в жизни

Дата-сайентист в совре­мен­ном пони­ма­нии — очень моло­дая про­фес­сия. Ком­па­нии уже поня­ли, что эти ребя­та помо­гут им зара­бо­тать или сэко­но­мить мил­ли­о­ны дол­ла­ров, поэто­му они созда­ют для них новые отде­лы и рабо­чие места.

С дру­гой сто­ро­ны, такой набор зна­ний — ред­кость, поэто­му дата-сайентистов сей­час на рын­ке очень мало: гораз­до мень­ше, чем пред­ло­же­ний о рабо­те. Имен­но поэто­му у них такие высо­кие зар­пла­ты — ком­па­нии сами борют­ся за то, что­бы нанять тако­го спе­ци­а­ли­ста.

Так как это направ­ле­ние толь­ко раз­ви­ва­ет­ся, у мно­гих про­грам­ми­стов есть шанс попасть туда и рабо­тать ана­ли­ти­ком. Для это­го нуж­но про­ка­чи­вать уме­ние писать код, мате­ма­ти­ку и ста­ти­сти­ку. Если вы всё это уже зна­е­те и уме­е­те — може­те попро­бо­вать себя в «про­фес­сии буду­ще­го».

В «Яндекс-практикуме» есть курс для ана­ли­ти­ков — это нача­ло пути дата-сайентиста. Мож­но попро­бо­вать бес­плат­ный урок и посмот­реть, как вам — понра­вит­ся или нет.

Data Scientist — специалист по обработке, анализу и хранению больших массивов данных, так называемых «Big Data». Профессия подходит тем, кого интересует физика, математика и информатика (см. выбор профессии по интересу к школьным предметам).

Data Science – наука о данных на стыке разных дисциплин: математика и статистика; информатика и компьютерные науки; бизнес и экономика.

(С.Мальцева, В.Корнилов НИУ «ВШЭ»)

Профессия новая, актуальная и чрезвычайно перспективная. Сам термин «Big Data» появился в 2008 году. А профессия Data Scientist — «Учёный по данным» официально зарегистрирована как академическая и межотраслевая дисциплина в начале 2010 г. Хотя первое упоминание термина «data science” было отмечено в книге Петера Наура 1974 г., но в ином контексте.

Необходимость возникновения такой профессии была продиктована тем, что когда речь идет об Ультра Больших Данных, массивы данных оказываются слишком велики для того, чтобы обрабатывать их стандартными средствами математической статистики. Каждый день через сервера компаний всего мира проходит тысячи петабайт ( 10 15 байт =1024 терабайт) информации. Кроме таких объёмов данных, проблему усложняет их разнородность и высокая скорость обновления.

Массивы данных подразделяют на 3 вида:

структурированные (например, данные кассовых аппаратов в торговле);

полуструктурированные (сообщения E-mail);

неструктурированные (видеофайлы, изображения, фотографии).

Большинство данных Big Data является неструктурированными, что значительно усложняет их обработку.

По отдельности специалист по статистике, системный аналитик или бизнес-аналитик не может решить задачи с такими объёмами данных. Для этого нужен человек с междисциплинарным образованием, компетентный в математике и статистике, экономике и бизнесе, информатике и компьютерных технологиях.

Главная задача Data Scientist — умение извлекать необходимую информацию из самых разнообразных источников, используя информационные потоки в режиме реального времени; устанавливать скрытые закономерности в массивах данных и статистически анализировать их для принятия грамотных бизнес-решений. Рабочим местом такого специалиста является не 1 компьютер и даже не 1 сервер, а кластер серверов.

Особенности профессии

В работе с данными Data Scientist использует различные способы:

  • статистические методы;
  • моделирование баз данных;
  • методы интеллектуального анализа;
  • приложения искусственного интеллекта для работы с данными;
  • методы проектирования и разработки баз данных.

Должностные обязанности data scientist зависят от сферы его деятельности, но общий перечень функций выглядит следующим образом:

  • сбор данных из разных источников для последующей оперативной обработки;
  • анализ поведения потребителей;
  • моделирование клиентской базы и персонализация продуктов;
  • анализ эффективности внутренних процессов базы;
  • анализ различных рисков;
  • выявление возможного мошенничества по изучению сомнительных операций;
  • составление периодических отчетов с прогнозами и презентацией данных.

Data Scientist, как настоящий учёный, занимается не только сбором и анализом данных, но и изучает их в разных контекстах и под разными углами, подвергая сомнению любые предположения. Важнейшее качество специалиста по данным — это умение видеть логические связи в системе собранной информации, и на основе количественного анализа разрабатывать эффективные бизнес-решения. В современном конкурентном и быстро меняющемся мире, в постоянно растущем потоке информации Data Scientist незаменим для руководства в плане принятия правильных бизнес-решений.

Плюсы и минусы профессии

Плюсы

  • Профессия не только чрезвычайно востребованная, но существует острый дефицит специалистов такого уровня. Поэтому так стремительно и широко финансируются и развиваются факультеты при самых престижных вузах по подготовке специалистов по данным. В России также растет спрос на Data Scientist.
  • Высокооплачиваемая профессия.
  • Необходимость постоянно развиваться, идти в ногу с развитием IT-технологий, самому создавать новые методы обработки, анализа и хранения данных.

Минусы

  • Не каждый человек сможет освоить эту профессию, нужен особый склад ума.
  • В процессе работы могут не сработать известные методы и более 60% идей. Множество решений окажется несостоятельным и нужно иметь большое терпение, чтобы получить удовлетворительные результаты. Учёный не имеет права сказать: «НЕТ!» проблеме. Он должен найти способ, который поможет решить поставленную задачу.

Место работы

Data Scientist занимают ключевые позиции в:

  • технологических отраслях (системы автонавигации, производство лекарств и т.д.);
  • IT-сфере (оптимизация поисковой выдачи, фильтр спама, систематизация новостей, автоматические переводы текстов и многое другое);
  • медицине (автоматическая диагностика болезней);
  • финансовых структурах (принятие решений о выдаче кредитов) и т.д;
  • телекомпаниях;
  • крупных торговых сетях;
  • избирательных кампаниях.

Важные качества

  • аналитический склад ума;
  • трудолюбие;
  • настойчивость;
  • скрупулёзность, точность, внимательность;
  • способность доводить исследования до конца, несмотря на неудачные промежуточные результаты;
  • коммуникабельность;
  • умение объяснить сложные вещи простыми словами;
  • бизнес-интуиция.

Профессиональные знания и навыки:

  • знание математики, матанализа, математической статистики, теории вероятностей;
  • знание английского языка;
  • владение основными языками программирования, у которых имеются компоненты для работы с большими массивами данных: Java (Hadoop), C ++ (BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy);
  • владение статистическими инструментами — SPSS, R, MATLAB, SAS Data Miner, Tableau;
  • основательное знание отрасли, в которой работает data scientist; если это фармацевтическая отрасль, то необходимо знание основных процессов производства, компонентов лекарств;
  • главный базовый навык специалиста по data scientist — организация и администрация кластерных систем хранения больших массивов данных;
  • знание законов развития бизнеса;
  • экономические знания.

Обучение на Data Scientist-а (Образование)

Профессию Data Scientist в России можно получить и совершенствовать по специальным программам дополнительного образования, организуемым компаниями, которые занимаются исследованиями в этой сфере.

Курсы

  • МГУ им. Ломоносова, Факультет вычислительной математики и кибернетики, специальная образовательная программа Mail.Ru Group «Техносфера», с обучением методам интеллектуального анализа большого объема данных, программированию на С ++ , многопоточному программированию и технологии построения систем информационного поиска.
  • МФТИ, Кафедра анализа данных.
  • Факультет бизнес-информатики в НИУ ВШЭ готовит системных аналитиков, проектировщиков и внедренцев сложных информационных систем, организаторов управления корпоративными информационными системами.
  • Школа анализа данных Яндекс.
  • Университет в Иннополисе, университет Данди, университет Южной Калифорнии, Оклендский университет, Вашингтонский университет: Магистратуры по направлению Big Data.
  • Бизнес-школа Имперского колледжа Лондона, Магистратура по науке о данных и менеджменту.

Как и в любой профессии здесь важно самообразование, несомненную пользу которому принесут такие ресурсы, как:

  • онлайн-курсы ведущих университетов мира COURSERA;
  • канал машинного обучения MASHIN LEARNING;
  • подборка курсов edX;
  • курсы Udacity;
  • курсы Dataquest, на которых можно стать настоящим профи в Data Science;
  • 6-шаговые курсы Datacamp;
  • обучающие видео O’Reilly;
  • скринкасты для начинающих и продвинутых Data Origami;
  • ежеквартальная конференция специалистов Moskow Data Scients Meetup;
  • соревнования по анализу данных Kaggle.сom

Оплата труда

Зарплата на 13.11.2019

Профессия Data Scientist является одной из самых высокооплачиваемых. Информация с сайта hh.ru — зарплата в месяц составляет от $8,5 тыс. до $9 тыс. В США оплата труда такого специалиста составляет $110 тыс. — $140 тыс. в год.

По результатам опроса исследовательского центра Superjob зарплата специалистов Data Scientist зависит от опыта работы, объёма обязанностей и региона. Начинающий специалист может рассчитывать на 70 тыс. руб. в Москве и 57 тыс. руб. в Санкт-Петербурге. С опытом работы до 3 лет зарплата повышается до 110 тыс. руб. в Москве и 90 тыс. руб. в Санкт-Петербурге. У опытных специалистов с научными публикациями зарплата может достигать 220 тыс. руб. в Москве и 180 тыс. руб. в Петербурге.

Ступеньки карьеры и перспективы

Профессия Data Scientist сама по себе является высоким достижением, для которой требуются серьёзные теоретические знания и практический опыт нескольких профессий. В любой организации такой специалист является ключевой фигурой. Чтобы достичь этой высоты надо упорно и целенаправленно работать и постоянно совершенствоваться во всех сферах, составляющих основу профессии.

Интересные факты о профессии

Про Data Scientist шутят: это универсал, который программирует лучше любого специалиста по статистике, и знает статистику лучше любого программиста. А в бизнес-процессах разбирается лучше руководителя компании.

ЧТО ТАКОЕ «BIG DATA» в реальных цифрах?

  1. Через каждые 2 дня объём данных увеличивается на такое количество информации, которое было создано человечеством от Рождества Христова до 2003 г.
  2. 90% всех существующих на сегодня данных появились за последние 2 года.
  3. До 2020 г. объём информации увеличится от 3,2 до 40 зеттабайт. 1 зеттабайт = 10 21 байт.
  4. В течение 1 минуты в сети Facebook загружается 200 тысяч фото, отправляется 205 млн. писем, выставляется 1,8 млн. лайков.
  5. В течение 1 секунды Google обрабатывает 40 тыс. поисковых запросов.
  6. Каждые 1,2 года удваивается общий объём данных в каждой отрасли.
  7. К 2020 г. объём рынка Hadoop-сервисов вырастет до $50 млрд.
  8. В США в 2015 г. создано 1,9 млн. рабочих мест для специалистов, работающих на проектах Big Data.
  9. Технологии Big Data увеличивают прибыль торговых сетей на 60% в год.
  10. По прогнозам объём рынка Big Data увеличится до $68,7 млрд. в 2020 г. по сравнению с $28,5 млрд. в 2014 г.

Несмотря на такие позитивные показатели роста, бывают и ошибки в прогнозах. Так, например, одна из самых громких ошибок 2016 года: не сбылись прогнозы по поводу выборов президента США. Прогнозы были представлены знаменитыми Data Scientist США Нейт Сильвером, Керк Борном и Биллом Шмарзо в пользу Хиллари Клинтон. В прошлые предвыборные компании они давали точные прогнозы и ни разу не ошибались.

В этом году Нейт Сильвер, например, дал точный прогноз для 41 штата, но для 9 штатов — ошибся, что и привело к победе Трампа. Проанализировав причины ошибок 2016 года, они пришли к выводу, что:

  1. Математические модели объективно отражают картину в момент их создания. Но они имеют период полураспада, к концу которого ситуация может кардинально измениться. Прогнозные качества модели со временем ухудшаются. В данном случае, например, сыграли свою роль должностные преступления, неравенство доходов и другие социальные потрясения. Поэтому модель необходимо регулярно корректировать с учётом новых данных. Это не было сделано.
  2. Необходимо искать и учитывать дополнительные данные, которые могут оказать существенное влияние на прогнозы. Так, при просмотре видео митингов в предвыборной кампании Клинтон и Трампа, не было учтено общее количество участников митингов. Речь шла приблизительно о сотнях человек. Оказалось, что в пользу Трампа на митинге присутствовало 400-600 человек в каждом, а в пользу Клинтон — всего 150-200, что и отразилось на результатах.
  3. Математические модели в предвыборных кампаниях основаны на демографических данных: возраст, раса, пол, доходы, статус в обществе и т.п. Вес каждой группы определяется тем, как они голосовали на прошлых выборах. Такой прогноз имеет погрешность 3-4 % и работает достоверно при большом разрыве между кандидатами. Но в данном случае разрыв между Клинтон и Трампом был небольшим, и эта погрешность оказала существенное влияние на результаты выборов.
  4. Не было учтено иррациональное поведение людей. Проведенные опросы общественного мнения создают иллюзию, что люди проголосуют так, как ответили в опросах. Но иногда они поступают противоположным образом. В данном случае следовало бы дополнительно провести аналитику лица и речи, чтобы выявить недобросовестное отношение к голосованию.

В целом, ошибочный прогноз оказался таковым по причине небольшого разрыва между кандидатами. В случае большого разрыва эти погрешности не имели бы такого решающего значения.

Видео: Новая специализация «Большие данные» — Михаил Левин


[an error occurred while processing the directive]
Карта сайта