Что такое data science и как это работает?

Содержание:

Модели в Data Science

Predictive causal analytics. Если вы хотите модель, которая может предсказать возможности конкретного события в будущем, вам необходимо применить предиктивную аналитику. Скажем, если вы предоставляете деньги в кредит, то вероятность того, что клиенты будут оплачивать платежи по кредиту вовремя, вызывает у вас беспокойство. Здесь вы можете создать модель, которая может выполнять аналитику в истории платежей клиента, чтобы предсказать, будут ли будущие платежи своевременными или нет.

Prescriptive analytics. Если вам нужна модель, которая обладает интеллектом принятия собственных решений и возможностью изменять ее с помощью динамических параметров, для этого вам, безусловно необходимо аналитическое прогнозирование. Это относительно новое поле деятельности — предоставление консультаций. Другими словами, оно не только прогнозирует, но и предлагает ряд предписанных действий и связанных с ними результатов.

Лучший пример для этого — автомобиль с автопилотом от Google, о котором я уже говорил ранее. Данные, собранные на транспортных средствах, могут использоваться для обучения автомобилей с самообслуживанием. Вы можете запускать алгоритмы на этих данных, чтобы использовать ИИ. Это позволит вашему автомобилю принимать решения, например, когда нужно повернуть, какое взять направление, когда замедлить или ускорить ход.

Machine learning for making predictions. Если у вас есть транзакционные данные финансовой компании и вам нужно построить модель для определения будущей тенденции, то наилучшим вариантом будут алгоритмы машинного обучения. Это подпадает под парадигму обучения с учителем. Оно называется с учителем, потому что у вас уже есть данные, на основе которых вы можете обучать свои машины. Например, модель обнаружения мошенничества может быть обучена с использованием исторической записи мошеннических покупок.

Machine learning for pattern discovery. Если у вас нет параметров, на основе которых вы можете делать прогнозы, вам нужно выяснить скрытые шаблоны в наборе данных, чтобы иметь возможность делать значимые прогнозы. Это не что иное, как обучение без учителя, поскольку у вас нет предопределенных категорий для группировки. Наиболее распространенным алгоритмом, используемым для обнаружения паттернов, является кластеризация.

Допустим, вы работаете в телефонной компании, и вам нужно создать сеть, разместив вышки в регионе. Затем вы можете использовать метод кластеризации, чтобы найти те вышки, которые гарантируют, что все пользователи получат оптимальную мощность сигнала.

Основные обязанности

Четких требований к специалистам нет, часть работы занимает аналитика и сбор данных. Но не нужно их путать с аналитиками, это совершенно разные профессии.

Очень мало профессионалов, которые отлично понимают все перечисленные дисциплины: математику, логику, машинное обучение, статистику экономику и программирование.

Основные должностные обязанности Data scientist заключаются в следующем:

  1. Выяснить, что нужно заказчику и подобрать самый эффективный вариант решения проблемы.
  2. Собрать, обработать, изучить весь массив данных.
  3. Владеть языками программирования для составления различных моделей.
  4. Проанализировать целевую аудиторию и ее поведение.
  5. Решать различные задачи для повышения уровня доходов.
  6. Программировать и тренировать различные модели машинного обучения.
  7. Исключать возможные риски и предлагать варианты минимизации негативных последствий.
  8. Внедрять полученную модель для подтверждения гипотез.
  9. Подготавливать презентации и отчеты по различным этапам работы.

Если аналитик оперирует только однотипными данными, то Data scientist принимает во внимание все детали, предлагает гипотезы и создает рабочую модель

Робототехника

  • Роботы (робототехника)
  • Робототехника (мировой рынок)
  • Обзор: Российский рынок промышленной робототехники 2019
  • Карта российского рынка промышленной робототехники
  • Промышленные роботы в России
  • Каталог систем и проектов Роботы Промышленные
  • Топ-30 интеграторов промышленных роботов в России
  • Карта российского рынка промышленной робототехники: 4 ключевых сегмента, 170 компаний
  • Технологические тенденции развития промышленных роботов
  • В промышленности, медицине, боевые (Кибервойны)
  • Сервисные роботы
  • Каталог систем и проектов Роботы Сервисные
  • Collaborative robot, cobot (Коллаборативный робот, кобот)
  • IoT — IIoT — Цифровой двойник (Digital Twin)
  • Компьютерное зрение (машинное зрение)
  • Компьютерное зрение: технологии, рынок, перспективы
  • Как роботы заменяют людей
  • Секс-роботы
  • Роботы-пылесосы
  • Искусственный интеллект (ИИ, Artificial intelligence, AI)
  • Обзор: Искусственный интеллект 2018
  • Искусственный интеллект (рынок России)
  • Искусственный интеллект (мировой рынок)
  • Искусственный интеллект (рынок Украины)
  • В банках, медицине, радиологии, ритейле, ВПК, производственной сфере, образовании, Автопилот, транспорте, логистике, спорте, СМИ и литература, видео (DeepFake, FakeApp), музыке
  • Национальная стратегия развития искусственного интеллекта
  • Национальная Ассоциация участников рынка робототехники (НАУРР)
  • Российская ассоциация искусственного интеллекта
  • Национальный центр развития технологий и базовых элементов робототехники
  • Международный Центр по робототехнике (IRC) на базе НИТУ МИСиС

Robot Control Meta Language (RCML)

  • Машинное обучение, Вредоносное машинное обучение, Разметка данных (data labeling)
  • RPA — Роботизированная автоматизация процессов
  • Видеоаналитика (машинное зрение)
  • Машинный интеллект
  • Когнитивный компьютинг
  • Наука о данных (Data Science)
  • DataLake (Озеро данных)
  • BigData
  • Нейросети
  • Чатботы
  • Умные колонки Голосовые помощники
  • Безэкипажное судовождение (БЭС)
  • Автопилот (беспилотный автомобиль)
  • Беспилотные грузовики
  • В мире и России
  • Летающие автомобили
  • Электромобили
  • Подводные роботы
  • Беспилотный летательный аппарат (дрон, БПЛА)

Специалист по изучению данных (data scientist)

Основная статья — здесь

Почему Data Scientist сексуальнее, чем BI-аналитик

В связи с ростом популярности data science (DS) возникает два совершенно очевидных вопроса. Первый – в чем состоит качественное отличие этого недавно сформировавшегося научного направления от существующего несколько десятков лет и активно используемого в индустрии направления business intelligence (BI)? Второй — возможно более важный с практической точки зрения — чем различаются функции специалистов двух родственных специальностей data scientist и BI analyst? В материале, подготовленном специально для TAdviser, на эти вопросы отвечает журналист Леонид Черняк.

Плюсы и минусы профессии Data Scientist

Плюсы

  • Профессия не только чрезвычайно востребованная, но существует острый дефицит специалистов такого уровня. Поэтому так стремительно и широко финансируются и развиваются факультеты при самых престижных вузах по подготовке специалистов по данным. В России также растет спрос на Data Scientist.
  • Высокооплачиваемая профессия.
  • Необходимость постоянно развиваться, идти в ногу с развитием IT-технологий, самому создавать новые методы обработки, анализа и хранения данных.

Минусы

  • Не каждый человек сможет освоить эту профессию, нужен особый склад ума.
  • В процессе работы могут не сработать известные методы и более 60% идей. Множество решений окажется несостоятельным и нужно иметь большое терпение, чтобы получить удовлетворительные результаты. Учёный не имеет права сказать: «НЕТ!» проблеме. Он должен найти способ, который поможет решить поставленную задачу.

Подборка хороших курсов

  • Практический курс по машинному обучению с менторской поддержкой
  • Курс содержит полный обзор современных методов машинного обучения от простых моделей до работы с нейросетями и Big Data от опытного практика области
  • Специализация Яндекса и МФТИ на Coursera на русском языке
  • Полное введение в data science и машинное обучение на базе Python
  • Теорию можно смотреть бесплатно, задания и сертификат — платные
  • Интерактивное пошаговое изучение Data Science с фокусом на Python
  • Обучение через практику: с самого начала работа с реальными данными и кодом
  • 3 направления на выбор: Data Scientist, Data Analyst или Data Engineer
  • Интерактивный онлайн-курс по Data Science с фокусом на R
  • 66 курсов по машинному обучению, анализу данных и статистике
  • Курс построен на решении практических задач

«Специализация Аналитик Данных»

  • Специализация включает сквозной курс и тренажёры по инструментам для анализа данных.
  • Срок обучения: 6 месяцев
  • Онлайн-программа профессиональной переподготовки от Института биоинформатики и Санкт-Петербургского Академического университета РАН, не требующая специальной подготовки
  • Срок обучения: 1 год. С лета 2017 — ускоренная программа (полгода)
  • Стоимость: 1999 рублей в месяц

Курс по математике для Data Science

Курс содержит много практики, которая не ограничивается решением классических уравнений и абстрактных заданий.

Основы статистики

Бесплатное и ясное введение в математическую статистику для всех

  • Легендарный курс основателя Coursera и одного из лучших специалистов по искусственному интеллекту Эндрю Ын (Andrew Ng)
  • Этот курс можно считать индустриальным стандартом по введению в машинное обучение
  • Добрый человек “перевел” задания на Python (в оригинале нужно все делать на Octave)
  • Курс от NVIDIA и SkillFactrory
  • Комплексный курс по глубокому обучению на Python для начинающих
  • Видеозаписи занятий легендарной Школы анализа данных Яндекса
  • Курсы: машинное обучение, алгоритмы и структуры данных, параллельные вычисления, дискретный анализ и теория вероятности и др.

“10 онлайн-курсов по машинному обучению”

Подборка удаленных образовательных программ, составленная проектом “Теплица социальных технологий”

  • Любопытное введение в статистику на примере … котиков
  • Вы получите знания об основах описательной статистики, дисперсионном и корреляционном анализе
  • Фишка курса — наглядность (опять же картинки с котиками)
  • Учит извлекать данные из разных файлов, баз данных и API
  • Преобразовывать данные для удобного анализа
  • Интерпретировать и визуализировать результаты анализа

Курс по Python для анализа данных

Практический курс по Python для аналитиков с менторской поддержкой.

  • Курс от Высшей школы экономики
  • Онлайн-курс по самому популярному языку программирования для data scientist’ов

«Самая сексуальная профессия»

Как написал несколько лет назад журнал Harvard Business Review: «Data Scientist — самая сексуальная профессия XXI века».

В статье рассказывалось о Джонатане Голдмане, физике из Стэнфорда, который устроившись на работу в социальную сеть LinkedIn, занялся чем-то странным и непонятным. Пока команда разработчиков ломает голову над тем, как модернизировать сайт и справиться с наплывом посетителей, Голдман строит прогностическую модель, которая подсказывает владельцу аккаунта LinkedIn, кто еще из пользователей сайта может оказаться его знакомым.

С тех пор профессия Data Scientist не стала менее сексуальной, скорее наоборот. В 2016 году она возглавила кадровой компании Glassdoor. Не будем подробно останавливаться на том, почему сегодня эта профессия считается одной из самых высокооплачиваемых, привлекательных и перспективных в мире. Отметим лишь, что число вакансий в этом направлении продолжает расти по экспоненте. Согласно прогнозам McKinsey Global Institute, к 2018 году в одних только США понадобится дополнительно порядка 140-190 тысяч специалистов по работе с данными.

Неудивительно, что сегодня так много желающих  освоить эту профессию. Давайте разберемся, кто же такой Data Scientist и какими навыками и знаниями он должен обладать.

Мой рабочий день

Обычно я встаю где-то с 7 до 10 утра, делаю завтрак и кофе в любимой гейзерной кофеварке. Если встаю рано, то использую утро для задач с максимальной концентрацией: например, чтения статьи на Хабре или Archive. До 10:30 я разбираю рабочую и личную почту и обдумываю задачи на день.

В 10:30 у нас ежедневный созвон с командой — после него я подключаюсь к VPN и начинается работа. В зависимости от загрузки я работаю до 5-8 вечера. Например, сейчас я работаю над классификатором временных рядов — это поможет выявить сезонность в банковских данных.

Вечером я преподаю Python по Zoom, а если занятий нет, езжу на тренировки по сноуборду в комплекс Снеж.ком — он всего в пяти минутах от моего дома. Если хватает времени, то сам прохожу разные курсы или читаю что-нибудь актуальное по работе, чтобы не отставать от жизни. С самодисциплиной по вечерам не очень, поэтому, к сожалению, на учебу время есть редко. Перед сном обычно залипаю в интернете или доделываю какие-то задачи. В выходные четкого расписания нет. C утра катаюсь, а днем и вечером могу делать что угодно: работать, учиться, гулять или кодить что-нибудь для себя.

Будущее Data Science

У Data Science большие перспективы, и вот почему:

Экспоненциальный рост объема данных в мире

Люди проводят все больше времени в интернете, бизнес диджитализируется, начинает развиваться интернет вещей (IoT). К 2025 году объем данных в мире увеличится почти в 3 раза, до 181 Зеттабайта (секстилиона байтов). Еще в 2010 году в мире было всего 2 Зб.

Рост рынка Data Science

Гигантские объемы данных ведут к росту количества Data Science-стартапов и вакансий специалистов по анализу данных. По прогнозам, до 2027 года рынок будет в среднем расти на 27% в год. Больше всего решений требуется в маркетинге и рекламе, логистике, финансах и поддержке пользователей.

Развитие технологий искусственного интеллекта

Эксперты утверждают, что в ближайшем будущем на улицах городов массово появятся беспилотные автомобили, а домашняя техника будет подключена к интернету вещей (IoT). Автономные автомобили используют машинное обучение для анализа дорожной ситуации и безопасного передвижения. IoT позволит получать данные миллиардов новых устройств и использовать искусственный интеллект в системах «умного дома».

Все это ведет к повышению спроса на дата-сайентистов. Так, количество вакансий в этой сфере в России за три года выросло на 433%. Спрос на специалистов превышает предложение, а это увеличивает их зарплату: junior data scientist после года обучения в среднем получает от 120 тыс. рублей, а после трех лет опыта — от 250 тыс. рублей.

Курс

Data Scientist

Специалисты Data Science нужны во всех сферах бизнеса — получите востребованную профессию и станьте одним из них. Дополнительная скидка 5% по промокоду BLOG.

Узнать больше

Что делает дата-инженер?

Дата-инженер (Data Engineer) участвует в начальной и финальной стадиях анализа данных, обеспечивает их работу на инфраструктуре компании. Он занимается ETL-процессами, то есть обрабатывает данные: достает (extract) их из сырых источников, трансформирует (transform) и загружает (load).

После предварительной обработки, очистки от повторов, ошибок, ненужных уточнений, он автоматизирует выполнение скриптов и, если нужно, настраивает мониторинги, алерты (сигналы о том, что в моделях что-то пошло не так), задает расписание, по которому сервис или программа будут работать с данными (шедуллит).

Задачи в компаниях могут отличаться: где-то инженер только обрабатывает данные, а где-то выполняет и программистскую работу: внедряет новые модели и переучивает старые.

Помимо сбора и обработки дата-инженер организует хранение данных. Для этого он строит архитектуру хранилищ – базы данных с таблицами, в которых они разбиты по смыслу. Дата-сайентистам это облегчает доступ к обработанным наборам данных (признакам), с помощью хранилища проще и быстрее масштабировать модели.

Дата-сайентист / дата-инженер / платформа управления данными, Источник

Какие языки стоит изучить

Для работы в сфере научной обработки данных следует изучать языки программирования. Распространены среди новичков Python и R. Также аналитики используют языки Java, SQL, Scala.

Python

Язык создан в 1991 году, в русском языке распространено название питон. Имеет бесплатную лицензию.

Преимущества:

  • простота изучения;
  • надежность;
  • широкое распространение гарантирует поддержку разработчиков.

Среди недостатков пользователи отмечают появление сообщений об ошибках из-за динамичной типизации языка. Для узких целей статистического анализа уступает языку R.

R

Язык программирования R появился в 1995 году. Лицензия бесплатна.

Плюсы:

  • многообразие специализированных пакетов с открытым исходным кодом;
  • доступность большого числа статистических функций;
  • яркая визуализация данных.

Ему присуща медлительность обработки информации.

Что мне нравится в моей работе

Я работаю в «Тинькофф» уже три с половиной года. В нашей компании много задач для сайентистов и почти нет ограничений по развитию. Наука о данных — достаточно универсальная область

По сути тебе не важно какими данными ты занимаешься: о торговле продуктами или о поведении пользователей в интернете. Для всех задач есть одинаковая база: математика и программирование

Зная базовые вещи уже можно углубляться в конкретные области, например, компьютерное зрение или обработку естественного языка.

Большинство задач в индустрии довольно стандартные, они ориентированы прежде всего на бизнес-результат. Поэтому в какой-то момент каждому специалисту хочется начать делать что-то свое параллельно основной работе. Я, например, хотел бы привнести что-то новое в open-source (программы и технологии для разработчиков), но пока своих значимых кейсов нет.

Мне нравится создавать технологии, которые автоматизируют ручную работу. Например, известная в машинном обучении библиотека scikit-learn поделила профессию на «до» и «после»: у разработчиков появились инструменты для быстрой работы с алгоритмами ML.

Еще мне хотелось бы углубиться в другие области машинного обучения. Я занимаюсь временными рядами, обычно в этой специализации лучше работают классические модели. И хочу поглубже копнуть в Deep Learning — глубинное обучение, где нейросети способны решать очень сложные задачи. Именно в этой области сейчас происходят наиболее интересные в машинном обучении вещи.

Курс 

Полный курс по Data Science

Освойте востребованную профессию с нуля за 12 месяцев и станьте уверенным junior-специалистом.

  • Индивидуальная поддержка менторов
  • 10 проектов в портфолио
  • Помощь в трудоустройстве 

Получить скидку Промокод “BLOG10” +5% скидки

Как стать Data scientist: лучшее обучение

Следует помнить, что востребованным специалистом не получится стать при самостоятельном изучении всех дисциплин. В любом случае необходимо пройти профессиональные курсы.

Отличный курс для новичков с любым уровнем начальных знаний – «Data scientist» от Skillfaktory. Именно здесь обучение построено таким образом, что на каждом этапе погружения в профессию новичок работает с реальными задачами от партнеров. Каждый полученный кейс входит в портфолио выпускника.

Обучение длится 24 месяца, то есть два семестра по 6 месяцев. За это время новичок достигает уровень Junior с портфолио из 8-и кейсов различных тематик.

Следующие 2 семестра – специализация по выбору. За 12 месяцев студент наполняет свое портфолио еще пятью успешными кейсами. В результате обучения и работы над реальными задачами достигает уровня Middle.

После завершения обучения каждый выпускник обладает знаниями и навыками достигнутого уровня. Может претендовать на соответствующую оплату своего труда.

Особенность обучения на этом курсе в том, что каждый студент в ходе решения задачи может обратиться к куратору. Это помогает оперативно получить ответ на вопрос и поддержку.

За время обучения каждый студент получает 2 года стажа по специальности и профессиональное портфолио уровня Middle. Это значительно экономит время и дает быстрый старт в карьере.

Data Scientist – в чём нужно разбираться

Требования к подготовке и уровню профессиональных навыков зависят от того, в какой компании предстоит работать специалисту

Например, в крупных корпорациях аналитику данных важно разбираться в математике и статистике. Маркетплейсам и медиакомпаниям нужны эксперты в разработке рекомендательных систем, а в крупном ритейле — в разработке машинного зрения

Такие навыки востребованы на HeadHunter. Цифра означает количество вакансий

Преподаватели школы SkillBox изучили вакансии в области Data Science на российском и зарубежном рынке и составили список навыков и областей знаний, которые понадобятся успешному специалисту:

  • Программирование.
  • Анализ.
  • Математика и статистика.
  • Машинное обучение и глубокое обучение.
  • Data Engeneering.
  • Data Science в продакшн.

Кто такой Data scientist и чем он занимается

Эта профессия сравнительно новая, всего десять лет назад ее официально зарегистрировали в реестре. И за это время ее актуальность возрастает, специалисты достаточно востребованы.

Ежегодно количество информации и разноплановых данных увеличивается. Полученные массивы не удается обработать стандартными приемами статистики. Кроме этого данные собираются в различном формате, не однородны. И это очень затрудняет дальнейшую работу с ними, в том числе анализ.

Именно этим занимается Data scientist – эксперт по работе с большими массивами данных. У него есть все необходимые навыки для решения технических задач. Кроме этого, есть изрядная доля любопытства, без которого не получится верно поставить эти задачи.

Кстати, данные могут быть представлены в различном виде: тексты, таблицы, аудио и видео. Проанализировать их и сделать вывод может Data scientist.

Все сведения специалисты получают при помощи инструментов. Например, в промышленности источниками получения данных могут быть различные измерительные приборы. Они передают результаты по изменению температуры, давления, прочности и других параметров.

В интернете все гораздо интересней. Персональные данные могут быть обработаны только с разрешения владельца. Остальные фиксируются при взаимодействии посетителей сайтов: поисковый запрос, количество кликов на ту или иную кнопку, иконку, элемент, время на сайте или на определенной странице и так далее.

Именно от направления деятельности будут зависеть результаты работы Data scientist. После получения всего объема данных, он проводит анализ и устанавливает закономерности. Благодаря им делает прогнозы, и получает решение для бизнес-задач.

Основные задачи специалиста:

  • Оценка работоспособности предприятия и эффективности его деятельности.
  • Автоматизация нудных задач.
  • Поиск стратегии для улучшения процессов и необходимые инструменты для этого.
  • Анализ работы предприятия и поиск зоны роста.
  • Анализ и поиск пути для дальнейшего развития.
  • Повышение дохода и экономия расходов предприятия.

По сути, работа Data scientist над проектом завершается созданием программы, которая на основании полученных данных выведет самый вероятный результат.

Насколько это востребовано?

Из-за того, что данные растут в геометрической прогрессии, компании придумывают новые, более эффективные способы работы с ними. Для этого им нужны не только мощные платформы для хранения, но и сотрудники, которые оптимизируют процессы, поставляют уже подготовленные данные, ускоряя дальнейшую работу дата-сайентистов. Поэтому спрос на специалистов в этой сфере только увеличивается, а зарплаты в этом направлении – одни из самых высоких в IT.

Согласно отчету DICE о технических вакансиях за 2020 год количество вакансий дата-инженера выросло на 50% по сравнению в 2019 годом. Это самый большой показатель среди других профессий.

Источник

Как им стать

Учеба обязательна для этой профессии. Причем учиться надо много, долго и основательно. Для начала надо освоить азы математики, статистики и информатики, а дальше изучить языки программирования, лучше начать с Python.

На блоге iklife.ru собраны лучшие курсы по Python для начинающих и опытных программистов, которые будут полезны при освоении должности Data Scientist.

Также рекомендую вам прочитать следующие книги:

  • Брендан Тирни, Джон Келлехер “Наука о данных”
  • Кирилл Еременко “Работа с данными в любой сфере”
  • Уэс Маккинни “Python и анализ данных”

Куда пойти учиться

Лучшее обучение – это онлайн-обучение. Платформы Skillbox, Нетология, GeekBrains, SkillFactory, ProductStar и Stepik предлагают свои обучающие программы:

  • Профессия‌ ‌Data‌ ‌Scientist‌
  • Data Scientist
  • Data Science с нуля

Ознакомиться с полным перечнем курсов для Data Scientist можно на нашем блоге.

Уточню, что на этом учеба не должна заканчиваться. Data Scientist – это такая профессия, которая предполагает непрерывное обучение. Даже если вы уже работаете, периодически повышать свой уровень надо обязательно. К тому же выбор достаточно широк – это и онлайн-курсы, и тренинги, и конференции.

Где найти работу

Сложно сказать, где именно искать работу по этой профессии. Не из-за того, что мало мест, а, наоборот, потому что нет такой сферы бизнеса, где нельзя было бы применить талант этого специалиста. Ему доступна как работа в офисе, так и удаленно на дому.

Он востребован в таких областях деятельности как:

  • IT-сфера,
  • медицина,
  • банковские структуры,
  • СМИ,
  • торговля,
  • политика,
  • транспортные компании,
  • страховые фирмы,
  • сельское хозяйство,
  • наука,
  • метеослужбы.

Как я уже говорила, Data Scientist нужен во многих сферах, где необходимы прогнозы, анализ рисков и поведения клиентов. Поэтому список можно дополнить.

Перед откликом на вакансию надо подготовить резюме. В нем сосредоточиться в первую очередь нужно на математических и IT-навыках, опыте работе, успешных проектах и достижениях. Описание должно получиться кратким, лаконичным и простым. Специалисту надо прикрепить портфолио к резюме.

Учтите, что вакансии на эту должность не всегда называются именно “Data Scientist”. Работодатели могут написать, что требуется IT-аналитик, специалист по анализу систем, аналитик Big Data.

Часть 1. Почему Cognitive Class?

По нелепой случайности, я глубоко убежден, что наверняка есть много другого качественного и полезного материала по данной теме, просто это была одна из ссылок и я по ней перешел.

Надо заметить, что в русскоязычном Интернет пространстве ни под новым брендом (Cognitive Class) ни под старым (Big Data University) портал особо не «светится». Скорее всего главная причина – он не переведен на русский язык.

Тем не менее, то что все материалы бесплатные, большая часть курсов базируется на open-source ПО, а по окончании выдают какие-то сертификаты и «бейджи»(о них позже), в сочетании с любопытством сделали свое дело. Ну и как плюс можно потренировать английский.

🥇 №1. Профессия Data Scientist от Skillbox

После прохождения этого курса ты освоишь 2 специальности и получишь 1.5 года реального стажа в Data Science.

Кому подойдёт:

  • Новичкам в IT. Чтобы получить базовые навыки программирования, аналитики и математики. 
  • Программистам. Для улучшения своих знаний и навыков в Python и R. 
  • Аналитикам. После обучения ты научишься ставить гипотезы, кодить на Python и R, а также повысишь свою квалификацию. 

Чему научат:

  • Навыкам в аналитике.
  • Базовым знаниям по математике для DS.
  • Работе с языками Python и R.
  • Методам визуализации данных.
  • Взаимодействию с базами данных.
  • Использованию нейронных сетей и построению рекомендательных систем.

Сколько длится: 18 месяцев.

Цена: 232 500 рублей без скидки, 116 250 рублей со скидкой

Data Scientist – технические навыки

Советую начинать именно с них, чтобы вы сразу ориентировались на практику, а не уходили в математическую теорию. Самый популярный язык программирования в DS — Python. По опросу Kaggle, который площадка проводила внутри своего сообщества специалистов по обработке данных и машинному обучению в 2018 году, 83% респондентов используют Python ежедневно. Поэтому в первую очередь изучите его, но немного внимания нужно будет уделить кое-каким другим языкам. Например, R.

Драйверы профессии

  • автоматизация производственных и управ­ленческих процессов
  • рост объёмов данных, доступных для анализа
  • развитие концепции открытых данных

Какие задачи будет решать Data Scientist

  • сбор больших массивов структурированных и неструктурированных данных (количественных, текстовых, графических и др.) и их преобразование в удобный формат
  • анализ данных с помощью методов математической статистики, моделирования и других аналитических методов (машинное обучение, текстовая аналитика и др.) в целях повышения эффективности управленческих решений
  • превращение инсайтов (выявленных нео­чевидных закономерностей) в конкретные решения для бизнеса/науки/общества
  • сотрудничество с ИТ-подразделениями и управленцами
  • визуализация данных

Какие знания и навыки у него будут

  • умение структурировать и интегрировать разнородные источники данных
  • умение применять методы системного анализа при постановке задач
  • продвинутый уровень цифровых навыков
  • навыки программирования и работы с базами данных
  • знание методов дискретной математики, математической статистики, машинного обучения и компьютерной лингвистики
  • способность разрабатывать математические модели выявления зависимостей, распознавания образов, прогнозирования и принятия решений
  • презентационные навыки

Программирование

Наиболее востребованный и распространенный язык в Data Science сегодня — это Python. До него самым популярным языком был R, который продолжают использовать, например, для анализа данных, научного статистического анализа и в социологии.

По данным Towardsdatascience

Среди прочего Python хорош тем, что на его базе можно разработать практически любую библиотеку, заточенную под выполнение самых разнообразных задач. Базовый дистрибутив Python небольшой, удобен для установки и обновления. Любые дополнительные возможности можно «прикрутить» через специальные библиотеки.

У каждой библиотеки есть обширная документация, поэтому в них легко разобраться. Вокруг самых востребованных и популярных формируются сообщества, которые поддерживают библиотеку, разрабатывают для неё новые модули и функции.

Соберем данные

Чтобы не быть голословным, я приведу простой пример. Соберем какие-нибудь данные.

Представьте, что нас интересует, есть ли какая-то взаимосвязь между тем, сколько ваши коллеги по работе выпивают кофе за день, и тем, сколько они спали накануне. Запишем доступную нам информацию: допустим, ваш коллега Григорий сегодня спал 4 часа, так что ему пришлось выпить 3 чашки кофе; Эллина спала 9 часов и не пила кофе вообще; а Полина спала все 10 часов, но выпила 2,5 чашки кофе – и так далее.

Изобразим полученные данные на графике (визуализация – тоже немаловажный элемент любого data science-проекта). Отложим по оси X время в часах, а по оси Y – кофе в миллилитрах. Получим что-то вроде такого:

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Adblock
detector