. Что такое data science и как это работает? Data scientist где учиться

Давно хотели разобраться, как стать аналитиком данных, изучить data science, но не знали с чего начать? Тогда эта статья для вас.

Кто из нас не слышал про «big data»? Вряд ли найдётся хоть один. В последние годы интерес к работе с данными значительно вырос, так как крупным IT компаниям нужно придумывать всё новые решения для анализа, обработки и последующего использования данных. Некоторые даже запускают учебные программы совместно с вузами. Однако у большинства нет понимания, что это за люди, аналитики данных. Если вы один из таких людей, и у вас есть желание стать аналитиком данных, то эта статья для вас. Мы отобрали только бесплатные средства обучения, которыми можно пользоваться вне зависимости от вашего местоположения.

Чем занимаются аналитики данных

Так называемые data analyst`ы занимаются её информации и анализом для получения наглядных, воспринимаемых человеком результатов. К таким людям обычно причисляют специалистов по big data, data mining, машинному обучению, анализу систем, бизнес-аналитиков.

Что смотреть

Лекции «Школы анализа данных» от Яндекса

ШАД - курсы по анализу данных от сотрудников Яндекса. Поступить туда довольно непросто, минимум, предъявляемый к поступающим - базовые разделы высшей алгебры, математического анализа, комбинаторики, теории вероятностей, а также основы программирования. К счастью, курсы записываются, чтобы все желающие смогли обучаться по видеолекциям.

Курс «Машинное обучение»

На курсе учат применять теорию вероятности и статистику, рассказывают об основах машинного обучения, учат строить алгоритмы

Курс «Алгоритмы и структуры данных поиска»

Во время лекций рассказывается про алгоритмы поиска и сортировки больших объёмов данных, алгоритмы и манипуляции со строками, теоретико-графовые алгоритмы, построение и анализ структур данных.

Курс «Параллельные и распределенные вычисления»

Для тех, кто хотел давно познакомиться с многопоточным и параллельным программированием, а также MapReduce.

Курс «Дискретный анализ и теория вероятностей»

В рамках курса рассматриваются основные понятия и методы комбинаторного, дискретного и асимптотического анализа, теории вероятностей, статистики, а также демонстрируется их применение.

Курс «Сложность вычислений»

После просмотра курса вы узнаете о вероятностных классах сложности и основных приёмов анализа и построения данных.

Лекции Технострим Mail.ru Group

Программы курсов предназначены для учащихся нескольких вузов Москвы, но доступны любым желающим. Будущим аналитикам мы советуем следующие сборники лекций:

Лекции Big Data University

Big Data University - онлайн курс, созданный совместно с IBM для новичков и людей не имеющих математического образования. Лекции, помогающие ознакомиться с основами работы с данными записаны на понятном английском языке.

Welch Labs

На этом канале собраны лекции по математике, информатике, программированию и машинному обучению. В процессе, приводятся примеры применения изучаемых вещей в реальной жизни. Лекции на английском, но есть отличные русские субтитры.

Курс « Обучение по структурированным данным: Введение в вероятностные графические модели» факультета компьютерных наук НИУ ВШЭ

Курс ориентирован на углублённое введение в теорию и приложения одного из самых популярных на сегодняшний день подходов к решению таких задач — дискретных вероятностных графических моделей. Язык курса — английский.

Канал sentdex

Канал полностью посвящен работе с данными. Причем полезные вещи для себя найдут не только те, кому интересна математика. Здесь есть видео по анализу и программированию для финансовых аналитиков и робототехнике с помощью Rasperri Pi.

Канал Siraj Raval

Парень рассказывает о современных технологиях и как с ними работать. Научиться работе с данными помогут курсы по глубинному обучению, data science, машинному обучению.

Канал Data School

Если вы только краем уха слышали что-то про машинное обучение, но уже заинтересовались, то этот канал для вас. Автор на понятном уровне, с примерами объяснит что это, как работает и где применяется.

Где заниматься

Для тех, кто не уверен, что готов полностью самостоятельно обучаться смотря лекции существуют онлайн-курсы с заданиями с проверкой.

Курсы по data science на Coursera

Не нужно объяснять что это за платформа. Нужно выбирать курс и начинать заниматься.

Stepik.org

Анализ данных в R

В первой части рассматриваются все основные этапы статистического анализа R, считывание данных, предобработка данных, применение основных статистических методов и визуализация результатов. Слушатели научатся основным элементам программирования на языке R, что позволит быстро и эффективно решать широчайший спектр задач, возникающих при обработке данных.

Во второй части разбираются несколько продвинутых тем, которые не были рассмотрены в первой: предобработка данных при помощи пакетов data.table и dplyr, продвинутые приемы визуализации, работа в R Markdown.

Введение в базы данных

Погружение в СУБД

Курс для тех, кто имеет некоторый опыт общения с реляционными СУБД и желает знать больше про то, как они работают. В курсе затронуты:

  • проектирование схемы базы данных;
  • управление транзакциями;
  • оптимизация запросов;
  • новые возможности реляционных СУБД

Hadoop. Система для обработки больших объемов данных

Курс посвящен методам обработки больших объемов данных с помощью системы Hadoop. После прохождения курса вы получите знания основных способов хранения и методов обработки больших объемов данных, поймете принципы работы распределенных систем в контексте фреймворка Hadoop и освоите практические навыки разработки приложений, используя программную модель MapReduce.

Data science, машинное обучение – вы наверняка слышали эти громкие слова, но насколько понятным был для вас их смысл? Для кого-то они являются красивыми приманками. Кто-то думает, что data science – это магия, которая бесплатно заставит машину делать, что прикажут. Другие и вовсе полагают, что это легкий способ зарабатывать огромные деньги. Никита Никитинский, глава R&D в IRELA и Полина Казакова, Data Scientist, объясняют, что это такое простым и понятным языком.

Я работаю в сфере автоматической обработки естественного языка, одного из приложений data science, и часто наблюдаю, как люди не совсем корректно употребляют эти термины, поэтому мне захотелось внести немного ясности. Эта статья для тех, кто плохо представляет себе, что такое data science и хочет разобраться в понятиях.

Определимся с терминологией

Начнем с того, что на самом деле никто точно не знает, что такое data science, и строгого определения не существует – это очень широкий и междисциплинарный концепт. Поэтому здесь я поделюсь своим видением, которое совсем не обязательно совпадает с мнением других.

Термин data science на русский переводят как «наука о данных», а в профессиональной среде часто просто транслитерируют – «дата сайенс». Формально это набор некоторых взаимосвязанных дисциплин и методов из области информатики и математики. Звучит слишком абстрактно, правда? Давайте разбираться.

Первая часть: data

Первая составляющая науки о данных, то, без чего весь дальнейший процесс невозможен, – это, собственно, сами данные: как их собирать, хранить и обрабатывать, а также как выделять из общего массива данных полезную информацию. Именно очистке данных и приведению их к нужному виду специалисты посвящают до 80% своего рабочего времени.

Важная часть этого пункта – как обращаться с данными, для которых не подходят стандартные способы хранения и обработки из-за их огромного объема и/или разнообразия – так называемые большие данные, big data. Кстати, не дайте себя запутать: big data и data science – не синонимы: скорее, первое подраздел второго. При этом не всегда специалистам по анализу данных на практике приходится работать именно с большими данными – полезными могут быть и маленькие.

Соберем данные

Представьте, что нас интересует, есть ли какая-то взаимосвязь между тем, сколько ваши коллеги по работе выпивают кофе за день, и тем, сколько они спали накануне. Запишем доступную нам информацию: допустим, ваш коллега Григорий сегодня спал 4 часа, так что ему пришлось выпить 3 чашки кофе; Эллина спала 9 часов и не пила кофе вообще; а Полина спала все 10 часов, но выпила 2,5 чашки кофе – и так далее.

Изобразим полученные данные на графике (визуализация – тоже немаловажный элемент любого data science-проекта). Отложим по оси X время в часах, а по оси Y – кофе в миллилитрах. Получим что-то вроде такого:

Вторая часть: science

У нас есть данные, что теперь с ними можно делать? Правильно, анализировать, извлекать полезные закономерности и как-то их использовать. Тут нам помогут такие дисциплины, как статистика, машинное обучение, оптимизация.

Они формируют следующую и, возможно, самую важную составляющую data science – анализ данных. Машинное обучение позволяет находить закономерности в существующих данных, чтобы затем предсказывать нужную информацию для новых объектов.

Проанализируем данные

Вернемся к нашему примеру. На глаз кажется, что два параметра как-то взаимосвязаны: чем меньше человек спал, тем больше он выпьет кофе на следующий день. При этом у нас есть и выбивающийся из этой тенденции пример – любительница поспать и попить кофе Полина. Тем не менее можно попытаться приблизить полученную закономерность некоторой общей прямой линией так, чтобы она максимально близко подходила ко всем точкам:

Зеленая линия – и есть наша модель машинного обучения, она обобщает данные и ее можно описать математически. Теперь с помощью нее мы можем определять значения для новых объектов: когда мы захотим предсказать, сколько кофе сегодня выпьет вошедший в кабинет Никита, мы поинтересуемся, сколько он спал. Получив в качестве ответа значение в 7,5 часов, подставим его в модель – ему соответствует количество выпитого кофе в объеме чуть менее 300 мл. Красная точка обозначает наше предсказание.

Примерно так и работает машинное обучение, идея которого очень проста: найти закономерность и распространить ее на новые данные. На самом деле, в машинном обучении выделяется еще один класс задач, когда нужно не предсказывать какие-то значения, как в нашем примере, а разбивать данные на некоторые группы. Но об этом мы подробнее поговорим в другой раз.

Применим результат

Однако на мой взгляд, data science не заканчивается на выявлении закономерностей в данных. Любой data science-проект – это прикладное исследование, где важно не забывать о таких вещах, как постановка гипотезы, планирование эксперимента и, конечно, оценка результата и его пригодности для решения конкретного кейса.

Последнее очень важно в реальных бизнес-задачах, когда необходимо понять, принесет ли найденное data science решение пользу вашему проекту или нет. Какова могла бы быть полезность построенной модели в нашем примере? Возможно, с ее помощью мы могли бы оптимизировать доставку кофе в офис. При этом нам нужно оценить риски и определить, лучше наша ли наша модель справлялась бы с этим, чем существующее решение – офис-менеджер Михаил, ответственный за закупку продукта.

Найдем исключения

Конечно, наш пример максимально упрощен. В реальности можно было бы построить более сложную модель, которая учитывала бы какие-то другие факторы, например, любит ли человек кофе в принципе. Или модель могла бы находить более сложные, чем представляемые прямой линией, взаимосвязи.

Можно было бы сперва найти в наших данных выбросы – объекты, которые, как Полина, сильно непохожи на большинство других. Дело в том, что при реальной работе такие примеры могут плохо повлиять на процесс построения модели и ее качество, и их имеет смысл обрабатывать как-то иначе. А иногда такие объекты представляют первостепенный интерес, например, в задаче обнаружения аномальных банковских транзакций с целью предотвращения мошенничества.

Кроме того, Полина демонстрирует нам еще одну важную идею – несовершенство алгоритмов машинного обучения. Наша модель прогнозирует всего 100 мл кофе для человека, который спал 10 часов, в то время как на самом деле Полина выпила аж целых 500. В это никогда не поверят заказчики data science-решений, но пока еще невозможно научить машину идеально предсказывать все на свете: как бы хорошо мы ни выделяли закономерности в данных, всегда найдутся непредсказуемые элементы.

Продолжим рассказ

Итак, data science – это набор методов обработки и анализа данных и применение их к практическим задачам. При этом надо понимать, что у каждого специалиста свой взгляд на эту сферу и мнения могут отличаться.

В основе data science лежат достаточно простые идеи, однако на практике часто обнаруживается много неочевидных тонкостей. Как data science окружает нас в повседневной жизни, какие существуют методы анализа данных, из кого состоит команда data science и какие сложности могут возникнуть в процессе исследования – об этом мы расскажем в следующих статьях.

Data Scientist в инфографике. Профессия свежая, высокооплачиваемая и на слуху. Но какими навыками должен обладать такой специалист? Рассмотрим.

Поговорим о навыках

Data Scientist – это универсальный сотрудник, охватывающий аналитику и обработку информации. Ученый по данным разбирается в статистике и программировании. Полезно, не правда ли? Спектр возможностей каждого отдельно взятого Data Scientist представляет собой градацию и может перемещаться в сторону кодинга или чистой статистики.

  • Аналитик данных из Сан-Франциско. Некоторые компании действительно сравнивают Data Scientist с аналитиками. Работа такого специалиста сводится к извлечению информации из БД, взаимодействию с Excel и к базовой визуализации.
  • Огромный трафик и большое количество данных заставляют некоторые фирмы срочно искать нужного специалиста. Часто они бросают объявления с поиском инженеров, аналитиков, программистов или ученых, при этом подразумевая одну и ту же должность.
  • Есть компании, для которых данные являются продуктом. В этом случае потребуются интенсивный анализ и машинное обучение.
  • Для других же компаний данные – не продукт, но само управление или рабочий процесс построены на них. С целью структурировать данные компаний также разыскиваются Data Scientist.

Заголовки пестрят названиями в стиле «Самая сексуальная профессия 21-го века». Не знаем, правда ли это, но точно знаем, что ученый по данным должен разбираться в:

  1. Математике и статистике.
  2. Предметной области и софте.
  3. Программировании и БД.
  4. Обмене данными и визуализации.

Рассмотрим каждый пункт подробнее.

Data Scientist и математическая статистика

Разработка математических методов с применением статистических данных – основополагающая часть работы. Математическая статистика опирается на теорию вероятностей, благодаря чему можно делать точные выводы и оценивать их надежность.

1. Машинное обучение, как подраздел ИИ. Есть обучающаяся программа и примеры данных с закономерностями. Формируем модель закономерностей, внедряем ее и получаем возможность искать закономерности в новых данных с помощью программы.

2. Data Scientist должен знать статистическое моделирование, чтобы испытывать модель случайными сигналами с определенной плотностью вероятности. Цель – статистическое определение полученных результатов.

3. Экспериментальный дизайн. В ходе опытов меняют одну или несколько переменных, чтобы увидеть разницу. При этом есть группа для воздействия и контрольная группа, благодаря чему осуществляется проверка.

4. Байесовский вывод способствует подправке вероятности гипотезы.

5. Контролируемое обучение:

  • деревья решений;
  • случайные леса;
  • логистическая регрессия.

6. Неконтролируемое обучение:

  • кластеризация;
  • уменьшение размерности.

7. Оптимизация: градиентный спуск и варианты.

Навыки в предметной области и софте

Изучайте и практикуйтесь! Таков фундамент этой специальности. Data Scientist должен хорошо разбираться в предметной области, которую затрагивает наука, а также быть на «ты» с софтом.

Перечень необходимых скиллов диковинный, но не менее полезный:

Программирование и базы данных

От основ до знания Python, XaaS, реляционной алгебры и SQL. В общем, все то, без чего попытки качественно обработать данные бесполезны.

1. Основы информатики, как отправная точка для любого, кто связывает жизнь с программированием и автоматизацией процессов.

Я работаю в сфере автоматической обработки естественного языка, одного из приложений data science, и часто наблюдаю, как люди не совсем корректно употребляют эти термины, поэтому мне захотелось внести немного ясности. Эта статья для тех, кто плохо представляет себе, что такое data science и хочет разобраться в понятиях.

Определимся с терминологией

Начнем с того, что на самом деле никто точно не знает, что такое data science, и строгого определения не существует - это очень широкий и междисциплинарный концепт. Поэтому здесь я поделюсь своим видением, которое совсем не обязательно совпадает с мнением других.

Термин data science на русский переводят как «наука о данных», а в профессиональной среде часто просто транслитерируют - «дата сайенс». Формально это набор некоторых взаимосвязанных дисциплин и методов из области информатики и математики. Звучит слишком абстрактно, правда? Давайте разбираться.

Первая часть: data

Первая составляющая науки о данных, то, без чего весь дальнейший процесс невозможен, - это, собственно, сами данные: как их собирать, хранить и обрабатывать, а также как выделять из общего массива данных полезную информацию. Именно очистке данных и приведению их к нужному виду специалисты посвящают до 80% своего рабочего времени.

Важная часть этого пункта - как обращаться с данными, для которых не подходят стандартные способы хранения и обработки из-за их огромного объема и/или разнообразия - так называемые большие данные, big data. Кстати, не дайте себя запутать: big data и data science - не синонимы: скорее, первое подраздел второго. При этом не всегда специалистам по анализу данных на практике приходится работать именно с большими данными - полезными могут быть и маленькие.

Представьте, что нас интересует, есть ли какая-то взаимосвязь между тем, сколько ваши коллеги по работе выпивают кофе за день, и тем, сколько они спали накануне. Запишем доступную нам информацию: допустим, ваш коллега Григорий сегодня спал 4 часа, так что ему пришлось выпить 3 чашки кофе; Эллина спала 9 часов и не пила кофе вообще; а Полина спала все 10 часов, но выпила 2,5 чашки кофе - и так далее.

Изобразим полученные данные на графике (визуализация - тоже немаловажный элемент любого data science-проекта). Отложим по оси X время в часах, а по оси Y - кофе в миллилитрах. Получим что-то вроде такого:

Вторая часть: science

У нас есть данные, что теперь с ними можно делать? Правильно, анализировать, извлекать полезные закономерности и как-то их использовать. Тут нам помогут такие дисциплины, как статистика, машинное обучение, оптимизация.

Они формируют следующую и, возможно, самую важную составляющую data science - анализ данных. Машинное обучение позволяет находить закономерности в существующих данных, чтобы затем предсказывать нужную информацию для новых объектов.

Проанализируем данные

Вернемся к нашему примеру. На глаз кажется, что два параметра как-то взаимосвязаны: чем меньше человек спал, тем больше он выпьет кофе на следующий день. При этом у нас есть и выбивающийся из этой тенденции пример - любительница поспать и попить кофе Полина. Тем не менее можно попытаться приблизить полученную закономерность некоторой общей прямой линией так, чтобы она максимально близко подходила ко всем точкам:

Зеленая линия - и есть наша модель машинного обучения, она обобщает данные и ее можно описать математически. Теперь с помощью нее мы можем определять значения для новых объектов: когда мы захотим предсказать, сколько кофе сегодня выпьет вошедший в кабинет Никита, мы поинтересуемся, сколько он спал. Получив в качестве ответа значение в 7,5 часов, подставим его в модель - ему соответствует количество выпитого кофе в объеме чуть менее 300 мл. Красная точка обозначает наше предсказание.

Примерно так и работает машинное обучение, идея которого очень проста: найти закономерность и распространить ее на новые данные. На самом деле, в машинном обучении выделяется еще один класс задач, когда нужно не предсказывать какие-то значения, как в нашем примере, а разбивать данные на некоторые группы. Но об этом мы подробнее поговорим в другой раз.

Применим результат

Однако на мой взгляд, data science не заканчивается на выявлении закономерностей в данных. Любой data science-проект - это прикладное исследование, где важно не забывать о таких вещах, как постановка гипотезы, планирование эксперимента и, конечно, оценка результата и его пригодности для решения конкретного кейса.

Последнее очень важно в реальных бизнес-задачах, когда необходимо понять, принесет ли найденное data science решение пользу вашему проекту или нет. Какова могла бы быть полезность построенной модели в нашем примере? Возможно, с ее помощью мы могли бы оптимизировать доставку кофе в офис. При этом нам нужно оценить риски и определить, лучше наша ли наша модель справлялась бы с этим, чем существующее решение - офис-менеджер Михаил, ответственный за закупку продукта.

Найдем исключения

Конечно, наш пример максимально упрощен. В реальности можно было бы построить более сложную модель, которая учитывала бы какие-то другие факторы, например, любит ли человек кофе в принципе. Или модель могла бы находить более сложные, чем представляемые прямой линией, взаимосвязи.

Можно было бы сперва найти в наших данных выбросы - объекты, которые, как Полина, сильно непохожи на большинство других. Дело в том, что при реальной работе такие примеры могут плохо повлиять на процесс построения модели и ее качество, и их имеет смысл обрабатывать как-то иначе. А иногда такие объекты представляют первостепенный интерес, например, в задаче обнаружения аномальных банковских транзакций с целью предотвращения мошенничества.

Кроме того, Полина демонстрирует нам еще одну важную идею - несовершенство алгоритмов машинного обучения. Наша модель прогнозирует всего 100 мл кофе для человека, который спал 10 часов, в то время как на самом деле Полина выпила аж целых 500. В это никогда не поверят заказчики data science-решений, но пока еще невозможно научить машину идеально предсказывать все на свете: как бы хорошо мы ни выделяли закономерности в данных, всегда найдутся непредсказуемые элементы.

Продолжим рассказ

Итак, data science - это набор методов обработки и анализа данных и применение их к практическим задачам. При этом надо понимать, что у каждого специалиста свой взгляд на эту сферу и мнения могут отличаться.

В основе data science лежат достаточно простые идеи, однако на практике часто обнаруживается много неочевидных тонкостей. Как data science окружает нас в повседневной жизни, какие существуют методы анализа данных, из кого состоит команда data science и какие сложности могут возникнуть в процессе исследования - об этом мы расскажем в следующих статьях.

Продолжаем серию аналитических исследований востребованности навыков на рынке труда. В этот раз благодаря Павлу Сурменку sharky мы рассмотрим новую профессию – Data Scientist.

Последние года термин Data Science начал набирать популярность. Об этом много пишут, говорят на конференциях. Некоторые компании даже нанимают людей на должность со звучным названием Data Scientist. Что же такое Data Science? И кто такие Data Scientists?

Кто такие Data Scientists?

Если задать такой вопрос жителю Сан-Франциско, можно получить ответ, что Data Scientist – это статистик, живущий в Сан-Франциско. Смешно, хотя не сильно обнадеживает тех, кто живет не в Сан-Франциско, правда? Хорошо, тогда еще одно определение: Data Scientist – это тот, кто разбирается в статистике лучше, чем любой программист, и разбирается в программировании лучше, чем любой статистик. А вот этот вариант уже близок к сути. Data Scientist, ученый по данным, является своеобразным гибридом статистика и программиста. Причем как статистики, так и программисты бывают очень разными, поэтому лучше рассматривать эту профессию как широкий спектр от чистых статистиков до чистых программистов.

Роберт Чанг, Data Scientist из Twitter, делит представителей своей профессии на 2 группы: Type A Data Scientist v.s. Type B Data Scientist .

Тип A, где A – это Analysis. Эти люди по большей части занимаются извлечением смысла из статических данных. Они очень похожи на статистиков, могут даже быть статистиками и просто сменить название должности на Data Scientist, а, как мы знаем, уже только одна смена названия должности может дать значительный прирост зарплаты, плюс почет и уважение. Но кроме статистики они знают еще и практические аспекты: как очищать данные, как работать с большими наборами данных, как визуализировать данные и описывать результаты своей работы.

Тип B, где B – Building. Они также обладают знаниями статистики, но при этом сильные и опытные программисты. Они больше заинтересованы в применении данных на реальных системах. Часто строят модели, работающие во взаимодействии с пользователями, например, системы рекомендаций товаров, фильмов, рекламы.

Data Science также немного пересекается с такими областями деятельности как Machine Learning и Artificial Intelligence, представители этой сферы близки к Data Science типа B.

Что же изучать тем, кто хочет стать Data Scientist, какие навыки необходимы? Давайте посмотрим на то, какие требования американские работодатели предъявляли к кандидатам на позиции в областях Data Science и Machine Learning.

Data Scientist Hard Skills

Начнем с анализа требований к владению профессиональными навыками (hard skills).

Как можно увидеть из рейтинга, наиболее популярными являются фундаментальные знания математики, статистики, Computer Science и машинного обучения. Помимо теоретических знаний, Data Scientist должен уметь «добывать», очищать, моделировать и визуализировать данные. Также важен опыт в разработке программного обеспечения и управлении качеством.

Data Science Tools and Technologies

Основным инструментарием Data Scientist являются языки программирования Python и R.

R – это специализированный язык программирования для статистических расчетов, именно поэтому он так полюбился статистикам и ученым по данным. Он позволяет быстро загрузить набор данных, посчитать основные статистические характеристики, визуализировать данные, построить модели данных.

Python, хоть и представляет собой язык программирования общего назначения, но имеет огромное количество качественных библиотек и платформ для Data Science и Machine Learning.

Что примечательно, в 39% вакансий требуется знание как R, так и Python одновременно, поэтому лучше изучать оба языка сразу, а не пытаться выбрать один из них.

Для работы с большими данными работодатели предпочитают использовать Hadoop и Spark. Среди баз данных популярны MySQL и MongoDB.

Data Scientist Soft Skills

Общие компетенции (soft skills) по сравнению с профессиональными навыками востребованы в меньшей мере, так как упоминаются в вакансиях более чем вдвое реже. Средние зарплаты вакансий, в которых требуются soft skills так же существенно, примерно на 20%, ниже тех, где требуются hard skills и знание технологий.

Тем не менее, среди встреченных soft skills наиболее важными являются следующие: умение общаться, визуализировать данные, делать презентации, эффективно писать и говорить. Также полезны навыки работы в команде, менеджмента и решения проблем.

Data Scientist Domain Knowledge

В некоторых вакансиях требуется знание предметной области от физики и биологии до недвижимости и гостиничного бизнеса. Здесь в лидерах экономика, маркетинг и медицина.

Data Scientists Specializations

Перед началом исследования мы предполагали выделить подспециализации профессии Data Scientist. Например, отделить тех, кто занимается преимущественно анализом и визуализацией данных от тех, кто строит модели для предсказательной аналитики или алгоритмы машинного обучения. Но, как оказалось в ходе анализа данных, требования к большинству вакансий достаточно однородны, и четкого разбиения на специальности не прослеживается.

Хотя некоторые закономерности кажутся интересными. Например, если в вакансии требуются знания Python или C++, то маловероятно требование коммуникационных навыков и менеджмента, и наоборот.

Влияние технологий на зарплату

Опрос O’Reilly 2015 Data Science Salary Survey помогает нам взглянуть на рынок труда с противоположной стороны. Это исследование базируется на опросе 600 Data Scientists, а собранные данные включают уровень зарплат, демографическую информацию и количество времени, которое специалисты тратят на задачи различных типов. Ключевые выводы этого исследования следующие:
  • SQL, Excel, R, Python – ключевые инструменты, и этот список не меняется на протяжение 3 лет.
  • Сильно растет популярность Spark и Scala.
  • Фокус тех, кто ранее использовал специализированные коммерческие инструменты, смещается на использование R.
  • Но те, кто ранее использовал R, переходят на Python, Python лидирует.
  • Среди всех индустрий наиболее высокие зарплаты в Software Development.
  • Cloud Computing продолжает быть востребованным.
Рекомендуем прочитать отчет целиком. Кроме прочего, он описывает математическую модель зависимости зарплаты Data Scientist от того, где он живет, какое образование имеет и над какими задачами работает. Например, Data Scientists, которые проводят больше времени на встречах, зарабатывают больше. А кто больше 4 часов в день занимаются изучением данных, зарабатывает меньше.

Как изучать Data Science?

За последние годы появилось множество online-курсов на эту тему. И это очень хороший способ начать!

Если вы склоняетесь больше к анализу данных, то хорошим вариантом являются курсы специализации Data Science на Coursera: Launch Your Career in Data Science . Получение специализации не бесплатно, но если вам не нужен сертификат, то вы можете пройти все эти курсы бесплатно: просто посмотрите название курса и с помощью поиска найдите курс.

Для тех, кого интересует Machine Learning, можно порекомендовать курс Андрю Эн (Andrew Ng), Chief Scientist в компании Baidu Research, который по совместительству преподаватель в Стэнфорде и является основателем Coursera: Компьютерное обучение .

Что же такое Data Science?

Data Science – это новая область деятельности, поэтому требования к Data Scientists еще не до конца сформированы. Учитывая динамичность нашего времени, возможно, Data Science никогда не станет самостоятельной профессией, которой будут обучать в университетах, а так и останется набором практик и навыков. Но это точно те практики и те навыки, которые будут очень востребованы в ближайшие годы.
 

Пожалуйста, поделитесь этим материалом в социальных сетях, если он оказался полезен!