Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

...

Scroll Title
title-positiontop
title-alignmentright
titleПример базового сценария

Шаг

Узлы

1

Подключение набора данных

В любом из сценариев первоначальным узлом всегда должен быть «Набор данных».
Он задает набор данных, с которым далее будет производиться моделирование.

2

Задание метаданных

Узел «Метаданные» позволяет изменить метаданные (например, задать предикторы и целевую переменную).
Целевая переменная определяет решаемую задачу:

  • Классификация (Binary – бинарная классификация, Nominal – многоклассовая классификация)
  • Регрессия (Interval)(для решения задачи кластеризации
  • Кластеризация - нет необходимости указывать целевую переменную
  • Ассоциативные правила (необходимо задать переменные с ролями Идентификатор и Предмет)

Также узел «Метаданные» может использоваться на последующих этапах моделирования (например, при подготовке данных), если необходимо править метаданные (например, убрать атрибут из сценария или изменить тип атрибута).

3

Подготовка данных

Данный этап включает в себя процессы подготовки данных:

  • Заполнение пропущенных значений (узел «Заполнение пропусков»)
  • Фильтрация данных (узел «Фильтр»)
  • Создание новых расчетных атрибутов (узел «Трансформация»)
  • Преобразование категориальных переменных в числовые (узел «One-hot encoding»)
  • Бинаризация интервальных переменных и кодирование категориальных (узел «Биннинг/энкодинг»)
  • Дисперсионный анализ
  • Корректировка неравномерного распределения классов в исходном наборе данных (узел «Sample»)
  • Разделение набора данных на обучающую, валидационную и тестовую выборки (узел «Разделение выборки»)Узел «Профиль», узел «Стандартизация», узел «Веса классов», узел «PCA»
  • Исследование данных для выяснения статистических характеристик переменных (узел «Профилирование»)
  • Преобразование числовых наблюдений с целью приведения их к общей шкале (узел «Стандартизация»)
  • Корректировка дисбаланса классов при помощи задания весов (узел «Веса классов»)
  • Уменьшение размерности - преобразование большого набора переменных в меньший (узлы «PCA» и «Автоэнкодер (PyTorch)»)

4

Построение ML моделей

Узлы моделирования подразделяются в зависимости от решаемой задачи:

  • Классификация

Узел «Дерево решений»

Узел «Случайный лес»

Узел «Логистическая регрессия»

Узел «Линейные модели»

Узел «Нейронная сеть»

Узел «LDA»

Узел «Градиентный бустинг (XGBoost)»

Узел «Градиентный бустинг (LightGBM)»

Узел «Градиентный бустинг (CatBoost)»

Узел «Нейронная сеть (PyTorch)» 

Узел «AutoML»

В результате выполнения данных узлов рассчитываются новые переменные, одна из которых – класс наблюдения, остальные – вероятность принадлежности к одному из классов (для каждого класса рассчитывается своя вероятность).

  • Регрессия

Узел «Дерево решений»

Узел «Случайный лес»

Узел «Байесовская регрессия»

Узел «Линейная регрессия»

Узел «Линейные модели»

Узел «Нейронная сеть»

Узел «Градиентный бустинг (XGBoost)»

Узел «Градиентный бустинг (LightGBM)»

Узел «Градиентный бустинг (CatBoost)»

Узел «GLM»

Узел «Нейронная сеть (PyTorch)» 

Узел «AutoML»

В результате решения задачи регрессии в данных узлах рассчитывается переменная с результирующим значением.

  • Кластеризация

Узел «Кластерный анализ (k-means)»

Узел «Иерархическая кластеризация»

В результате решения задачи кластеризации рассчитывается переменная, в которой указывается кластер, к которому относится данное наблюдение.

  • Ассоциативные правила

Узел «Ассоциативные правила»

  • Обнаружение аномалий

Узел «Детекция аномалий»


Каждый узел из группы «Обучение с учителем» имеет также параметры для кросс-валидации (метод оценки модели) и автоподбору гиперпараметров.

5

Работа с моделями

После процесса построения моделей и перебора гиперпараметров, идет этап интерпретации и сравнения построенных моделей. Для этого предусмотрены следующие узлы:

  • Узел «Сравнение моделей» – сравнение полученных моделей и выбор лучшей
  • Узел «Интерпретация» включает в себя методы для интерпретации предсказаний модели – PD, LIME, ICE, SHAP
  • Узел «Подбор отсечки (Cut off)» позволяет подобрать отсечку для разделения на классы при бинарной классификации

6

Регистрация модели

На конечном этапе модель-победитель можно зарегистрировать в Репозитории MM (узел «Регистрация модели»).