Магистратура Data Science
Магистратура Data Science.
Содержание
1 Программы магистратуры по исследованию данных
- Исследование данных образует большую научно-прикладную область.
- В зависимости от выбранного целевого сегмента, можно выделить несколько программ.
1.1 Основные специальности по Data Science
1.1.1 Data Analyst
- Data Analyst (аналитик данных).
- Проводит описательный (дескриптивный) анализ данных, интерпретирует их и представляет отчет заинтересованным лицам.
- Общается в бизнесовой сфере.
- Основные навыки:
- Отличное знание предметной области, в пределах которой он анализирует данные.
- Под предметной областью понимается определенная сфера бизнеса.
- Знание особенностей ведения бизнеса той компании, где он работает.
- Хорошие презентационные навыки.
- Знание средств для визуализации данных и умение делать понятные неспециалистам графики и диаграммы.
- Базовые знания статистики, умение пользоваться простыми системами для анализа данных.
- Возможно (но совсем необязательно) знание какого-нибудь языка программирования
- Отличное знание предметной области, в пределах которой он анализирует данные.
1.1.2 Data Mining Specialist
- Data Mining Specialist (специалист по интеллектуальной обработке данных).
- Универсальный специалист.
- Скорее математик и специалист по компьютерным наукам.
- Проводит полный цикл работы с данными.
- В процессе обработки данных использует статистические подходы.
- Основные навыки:
- Неплохая математическая подготовка.
- Умение находить и правильно готовить данные.
- Умение программировать на одном или нескольких языках.
- Языки эти обычно высокоуровневые, вроде Python, Java, Matlab, R, Julia.
- Знание методов и алгоритмов машинного обучения.
- Возможно (но необязательно), умение работать с большими данными (Big Data).
1.1.3 Data Engineer
- Data Engineer (инженер по данным).
- Технический специалист.
- Основные навыки:
- Умение работать с Big Data.
- Подготовка и обработка данных (операциональная часть исследования).
- Хранение и преобразование данных.
1.1.4 Data Scientist
- Data Scientist (учёный по данным).
- Универсальный игрок, который может делать как то, что делает аналитик данных, так и то, что делает специалист по интеллектуальной обработке данных.
- Имеет какое-то особенное умение или особо узкую специализацию прикладной области.
- Основные навыки:
- Отличные презентационные навыки.
- Знание предметной области и умение представлять результаты своей работы неспециалистам.
- Хорошая математическая подготовка, навыки подготовки данных, машинное обучение.
- Умение работать с Big Data.
- Дополнительная специализация в предметной области.
1.2 Задачи специалиста по Data Science
1.2.1 Выяснение требований заказчика- Профессия — Data Analist.
- Общается с бизнесом.
- Собирает требования.
- Формирует техническое задание.
- Участвует в переговорах или получает задачи от руководителя проекта.
1.2.2 Подготовка данных, их разметка
- Профессия — Data Engineer.
- Сбор данных:
- получение;
- предварительная очистка;
- структурирование нужной информации.
- Разметка данных:
- присвоение меток.
- Перевод в формат, удобный для машинного обучения.
1.2.3 Принятие метрик оценки эффективности модели
- Выбор метрик для оценки эффективности модели:
- метрики для бизнеса;
- каков экономический эффект от работы данной модели.
- метрики технические.
- качество модели.
- метрики для бизнеса;
1.2.4 Разработка и тренировка модели машинного обучения
- Профессия — Data Scientist.
- Создание моделей на основе знаний в конкретной прикладной области.
1.2.5 Внедрение модели в производственные процессы и продукты
- Профессия — Data Engineer.
1.2.6 Сопровождение модели
- Профессия — Data Developer.
1.3 Направления подготовки
1.3.1 Data Science
- Подготовка специалистов по исследованию данных широкого профиля.
- должен ставить задачи с помощью анализа данных;
- предлагать решения;
- оценивать эффективность решений в синтетическом эксперименте и в реальных условиях.
- Дальнейшее развитие:
- специалист по алгоритмам (математик-статистик).
Предметы
Обязательные
- Алгоритмы и структуры данных
- Язык программирования (python, julia, R)
- Машинное обучение
- Дискретная математика
- Линейная алгебра
По выбору
- Автоматическая обработка текстов
- Компьютерное зрение
- Глубинное обучение
- Обучение с подкреплением
- Информационный поиск
1.3.2 Разработка алгоритмов машинного обучения
- Подготовка специалистов по написанию программного обеспечения для обработки данных и машинного обучения (dev — разработка).
- Упор делается на разработку программного обеспечения.
- Соответствует направлению специальностей Data Developer.
Предметы
Обязательные
- Алгоритмы и структуры данных
- Язык программирования (С++, julia)
- Интеграционный язык программирование (python, julia)
- Дискретная математика + Линейная алгебра
- Машинное обучение
- Инженерия машинного обучения
По выбору
- Дискретная математика
- Линейная алгебра
- Автоматическая обработка текстов
- Компьютерное зрение
- Глубинное обучение
- Обучение с подкреплением
1.3.3 Инфраструктура больших данных
- Подготовка специалистов по разработке и поддержке инфраструктуры больших данных (ops — администрирование).
- Соответствует направлению специальностей Data Engineer.
Предметы
Обязательные
- Алгоритмы и структуры данных
- Архитектура компьютера и операционные системы
- Язык программирования (С++, julia)
- Интеграционный язык программирование (python, julia)
- Распределённые системы
По выбору
- Базы данных
- Компьютерные сети
- Криптографические протоколы
- Конкурентное программирование
1.3.4 Анализ данных в прикладных науках
- Подготовка специалистов по применению машинного обучения в научных исследованиях.
- Основная подготовка — конкретная область исследований.
- Дополнительный математический аппарат — машинное обучение.
- Соответствует направлению специальностей Data Scientist.
Предметы
Обязательные
- Алгоритмы и структуры данных
- Восстановление функциональных закономерностей из эмпирических данных
- Основы стохастики. Стохастические модели
- Язык программирования (python, julia, R)
- Машинное обучение
- Основы статистики в машинном обучении
- Глубинное обучение
По выбору
- Дискретная математика
- Линейная алгебра
- Обучение с подкреплением