Магистратура Data Science

2020-12-14 · 4 мин. для прочтения

Магистратура Data Science.

Содержание

1 Программы магистратуры по исследованию данных

  • Исследование данных образует большую научно-прикладную область.
  • В зависимости от выбранного целевого сегмента, можно выделить несколько программ.

1.1 Основные специальности по Data Science

1.1.1 Data Analyst

  • Data Analyst (аналитик данных).
  • Проводит описательный (дескриптивный) анализ данных, интерпретирует их и представляет отчет заинтересованным лицам.
  • Общается в бизнесовой сфере.
  • Основные навыки:
    • Отличное знание предметной области, в пределах которой он анализирует данные.
      • Под предметной областью понимается определенная сфера бизнеса.
    • Знание особенностей ведения бизнеса той компании, где он работает.
    • Хорошие презентационные навыки.
    • Знание средств для визуализации данных и умение делать понятные неспециалистам графики и диаграммы.
    • Базовые знания статистики, умение пользоваться простыми системами для анализа данных.
    • Возможно (но совсем необязательно) знание какого-нибудь языка программирования

1.1.2 Data Mining Specialist

  • Data Mining Specialist (специалист по интеллектуальной обработке данных).
  • Универсальный специалист.
  • Скорее математик и специалист по компьютерным наукам.
  • Проводит полный цикл работы с данными.
  • В процессе обработки данных использует статистические подходы.
  • Основные навыки:
    • Неплохая математическая подготовка.
    • Умение находить и правильно готовить данные.
    • Умение программировать на одном или нескольких языках.
      • Языки эти обычно высокоуровневые, вроде Python, Java, Matlab, R, Julia.
      • Знание методов и алгоритмов машинного обучения.
      • Возможно (но необязательно), умение работать с большими данными (Big Data).

1.1.3 Data Engineer

  • Data Engineer (инженер по данным).
  • Технический специалист.
  • Основные навыки:
    • Умение работать с Big Data.
    • Подготовка и обработка данных (операциональная часть исследования).
    • Хранение и преобразование данных.

1.1.4 Data Scientist

  • Data Scientist (учёный по данным).
  • Универсальный игрок, который может делать как то, что делает аналитик данных, так и то, что делает специалист по интеллектуальной обработке данных.
  • Имеет какое-то особенное умение или особо узкую специализацию прикладной области.
  • Основные навыки:
    • Отличные презентационные навыки.
    • Знание предметной области и умение представлять результаты своей работы неспециалистам.
    • Хорошая математическая подготовка, навыки подготовки данных, машинное обучение.
    • Умение работать с Big Data.
    • Дополнительная специализация в предметной области.

1.2 Задачи специалиста по Data Science

1.2.1 Выяснение требований заказчика- Профессия — Data Analist

  • Общается с бизнесом.
  • Собирает требования.
  • Формирует техническое задание.
  • Участвует в переговорах или получает задачи от руководителя проекта.

1.2.2 Подготовка данных, их разметка

  • Профессия — Data Engineer.
  • Сбор данных:
    • получение;
    • предварительная очистка;
    • структурирование нужной информации.
  • Разметка данных:
    • присвоение меток.
  • Перевод в формат, удобный для машинного обучения.

1.2.3 Принятие метрик оценки эффективности модели

  • Выбор метрик для оценки эффективности модели:
    • метрики для бизнеса;
      • каков экономический эффект от работы данной модели.
    • метрики технические.
      • качество модели.

1.2.4 Разработка и тренировка модели машинного обучения

  • Профессия — Data Scientist.
  • Создание моделей на основе знаний в конкретной прикладной области.

1.2.5 Внедрение модели в производственные процессы и продукты

  • Профессия — Data Engineer.

1.2.6 Сопровождение модели

  • Профессия — Data Developer.

1.3 Направления подготовки

1.3.1 Data Science

  • Подготовка специалистов по исследованию данных широкого профиля.
    • должен ставить задачи с помощью анализа данных;
    • предлагать решения;
    • оценивать эффективность решений в синтетическом эксперименте и в реальных условиях.
  • Дальнейшее развитие:
    • специалист по алгоритмам (математик-статистик).
  1. Предметы

    1. Обязательные

      • Алгоритмы и структуры данных
      • Язык программирования (python, julia, R)
      • Машинное обучение
      • Дискретная математика
      • Линейная алгебра
    1. По выбору

      • Автоматическая обработка текстов
      • Компьютерное зрение
      • Глубинное обучение
      • Обучение с подкреплением
      • Информационный поиск

1.3.2 Разработка алгоритмов машинного обучения

  • Подготовка специалистов по написанию программного обеспечения для обработки данных и машинного обучения (dev — разработка).
  • Упор делается на разработку программного обеспечения.
  • Соответствует направлению специальностей Data Developer.
  1. Предметы

    1. Обязательные

      • Алгоритмы и структуры данных
      • Язык программирования (С++, julia)
      • Интеграционный язык программирование (python, julia)
      • Дискретная математика + Линейная алгебра
      • Машинное обучение
      • Инженерия машинного обучения
    1. По выбору

      • Дискретная математика
      • Линейная алгебра
      • Автоматическая обработка текстов
      • Компьютерное зрение
      • Глубинное обучение
      • Обучение с подкреплением

1.3.3 Инфраструктура больших данных

  • Подготовка специалистов по разработке и поддержке инфраструктуры больших данных (ops — администрирование).
  • Соответствует направлению специальностей Data Engineer.
  1. Предметы

    1. Обязательные

      • Алгоритмы и структуры данных
      • Архитектура компьютера и операционные системы
      • Язык программирования (С++, julia)
      • Интеграционный язык программирование (python, julia)
      • Распределённые системы
    1. По выбору

      • Базы данных
      • Компьютерные сети
      • Криптографические протоколы
      • Конкурентное программирование

1.3.4 Анализ данных в прикладных науках

  • Подготовка специалистов по применению машинного обучения в научных исследованиях.
  • Основная подготовка — конкретная область исследований.
  • Дополнительный математический аппарат — машинное обучение.
  • Соответствует направлению специальностей Data Scientist.
  1. Предметы

    1. Обязательные

      • Алгоритмы и структуры данных
      • Восстановление функциональных закономерностей из эмпирических данных
      • Основы стохастики. Стохастические модели
      • Язык программирования (python, julia, R)
      • Машинное обучение
      • Основы статистики в машинном обучении
      • Глубинное обучение
    1. По выбору

      • Дискретная математика
      • Линейная алгебра
      • Обучение с подкреплением
Дмитрий Сергеевич Кулябов
Authors
Профессор кафедры теории вероятностей и кибербезопасности
Мои научные интересы включают физику, администрирование Unix и сетей.