Практический курс «Основы Data Mining»

Ориентирован на менеджеров, маркетологов, аналитиков и других специалистов.

Цель курса – изучение основ и получение практических навыков быстрого анализа больших массивов разнородных данных с использованием аналитических инструментов Data Mining для решения конкретных задач из различных предметных областей.

Предварительный уровень подготовки: общеобразовательный уровень, знание интерфейса Windows 95/98/2000/XP/7/10, знание Excel в объеме базового курса, в том числе работа с формулами и функциями, а также навыки работы в сети Интернете, обладать навыками программирования не требуется.

Желательно, но не обязательно знание таких дисциплин как аналитическая геометрия и математическая статистика.

Доступные режимы обучения: базовый, консультативный (индивидуальная программа).

Продолжительность: базовый – 20 часов, консультативный – в зависимости от программы.

Буквальный перевод Data Mining означает - добыча, раскопка данных. Эта наука зародилась достаточно давно (термину Data Mining в 70-80гг. предшествовал термин распознавание образов, который, кстати говоря, еще и поныне достаточно активно используется), сейчас она становится все более востребованный. Так, по данным социальной сети деловых контактов LinkedIn, в 2015 г. «Statistical Analysis and Data Mining» занимал 2-е место в глобальном списке 25-ти наиболее востребованных навыков (источник данных). С помощью методов Data Mining, овеществленных в виде компьютерных программ можно решать самые разнообразные задачи: оценивать состояние здоровья человека по его голосу, предсказывать зарплату по описанию вакансии, предлагать пользователю музыку на основании его анкеты в интернете.

Вместе с ростом количества данных, которые необходимо обрабатывать, растет и требуемое количество специалистов по их обработке. По расчётам McKinsey Global Institute к 2018 году только в США понадобится дополнительно 190 тысяч специалистов по анализу данным. Кроме того, базовые навыки работы с данными и их аналитической обработкой, в том числе и на основе методов Data Mining понадобятся более 70% менеджерам. Обладание такими навыками существенно влияет на востребованность специалиста, уровень оплаты труда и профессиональный рост. Например, по уровню заработной платы специалисты в Data Mining входят в тройку наиболее высокооплачиваемых специалистов.

Самым перспективным подходом к анализу данных считается применение машинного обучения — набора методов Data Mining, благодаря которым можно находить в массивах данных изначально неизвестные взаимосвязи и закономерности в задачах из различных предметных областей.

В этом курсе вы изучите основные типы задач, решаемых с помощью методов Data Mining, узнаете об особенностях этих методов и ознакомитесь с возможностями их использования.

Обучение будет сопровождаться выполнением практических работ, в которых мы будем использовать данные из реальных задач. После успешного усвоения курса слушатели смогут практически использовать предлагаемый арсенал средств для решения своих задач - исследовательских, маркетинговых, проектных, управленческих и т.д.

Программы курса

Базовый:

  1. Введение.
  2. Анализ данных с помощью методов Data Mining.
    1. Изучение среды и предметной области.
    2. Выбор признаков для анализа данных методами Data Mining.
    3. Качественное описание задач анализа данных.
    4. Две основные задачи – кластеризация и классификация.
  3. Кластеризация.
    1. Общие сведения о кластеризации. Примеры задач.
    2. Понятия признака, признакового пространства, объекта, кластера, таблицы объект-свойство (ТОС).
    3. Визуализация. Примеры использования инструментов визуализации.
    4. Методы кластеризации. Примеры использования инструментов кластеризации.
  4. Классификация.
    1. Примеры задач.
    2. Понятия классификационного признака, класса, обучающей выборки (ОВ), экзаменационной выборки (ЭВ).
    3. Качество ОВ и ЭВ.
    4. Основная задача классификации - построение решающего правила (РФ) и минимизация описания (выявление знаний - законов, закономерностей).
    5. Критерии информативности признаков и групп признаков.
    6. Понятие решающей (распознающей) функции.
    7. Линейные решающие функции.
    8. Структурно-логический подход: решающее дерево.
    9. Оценка надежности полученных результатов.

Мы уверены, что этот курс будет полезен каждому, кто хочет постичь искусство интеллектуального анализа данных, а также хочет улучшить понимание причинно-следственных связей в своей предметной области.

Приступить к обучению