Вы просматриваете старую версию данной страницы. Смотрите текущую версию.

Сравнить с текущим просмотр истории страницы

« Предыдущий Версия 5 Следующий »

В таблице ниже представлен пример базового сценария с разбивкой по шагам.


Пример базового сценария

Шаг

Узлы

1

Подключение набора данных

В любом из сценариев первоначальным узлом всегда должен быть «Набор данных».
Он задает набор данных, с которым далее будет производиться моделирование.

2

Задание метаданных

Узел «Метаданные» позволяет изменить метаданные (например, задать предикторы и целевую переменную).
Целевая переменная определяет решаемую задачу:

  • Классификация (Binary – бинарная классификация, Nominal – многоклассовая классификация)
  • Регрессия (Interval)


    (для решения задачи кластеризации нет необходимости указывать целевую переменную)

    Также узел «Метаданные» может использоваться на последующих этапах моделирования (например, при подготовке данных), если необходимо править метаданные (например, убрать атрибут из сценария или изменить тип атрибута).

3

Подготовка данных

Данный этап включает в себя процессы подготовки данных:

  • Заполнение пропущенных значений (узел «Заполнение пропусков»)
  • Фильтрация данных (узел «Фильтр»)
  • Создание новых расчетных атрибутов (узел «Трансформация»)
  • Преобразование категориальных переменных в числовые (узел «One-hot encoding»)
  • Бинаризация интервальных переменных и кодирование категориальных (узел «Биннинг/энкодинг»)
  • Дисперсионный анализ
  • Корректировка неравномерного распределения классов в исходном наборе данных (узел «Sample»)
  • Разделение набора данных на обучающую, валидационную и тестовую выборки (узел «Разделение выборки»)
    Узел «Профиль», узел «Стандартизация», узел «Веса классов», узел «PCA»

4

Построение ML моделей

Узлы моделирования подразделяются в зависимости от решаемой задачи:

  • Классификация

    Узел «Дерево решений»
    Узел «Случайный лес»
    Узел «Логистическая регрессия»
    Узел «Линейные модели»
    Узел «Нейронная сеть»
    Узел «LDA»
    Узел «Градиентный бустинг (XGBoost)»
    Узел «Градиентный бустинг (LightGBM)»
    Узел «Градиентный бустинг (CatBoost)»

    В результате выполнения данных узлов рассчитываются новые переменные, одна из которых – класс наблюдения, остальные – вероятность принадлежности к одному из классов (для каждого класса рассчитывается своя вероятность).

  • Регрессия

    Узел «Дерево решений»
    Узел «Случайный лес»
    Узел «Байесовская регрессия»
    Узел «Линейная регрессия»
    Узел «Линейные модели»
    Узел «Нейронная сеть»
    Узел «Градиентный бустинг (XGBoost)»
    Узел «Градиентный бустинг (LightGBM)»
    Узел «Градиентный бустинг (CatBoost)»
    Узел «GLM»

    В результате решения задачи регрессии в данных узлах рассчитывается переменная с результирующим значением.

  • Кластеризация

    Узел «Кластерный анализ (k-means)»
    Узел «Иерархическая кластеризация»

    В результате решения задачи кластеризации рассчитывается переменная, в которой указывается кластер, к которому относится данное наблюдение.

    Каждый узел из группы «Обучение с учителем» имеет также параметры для кросс-валидации (метод оценки модели) и автоподбору гиперпараметров.

5

Работа с моделями

После процесса построения моделей и перебора гиперпараметров, идет этап интерпретации и сравнения построенных моделей. Для этого предусмотрены следующие узлы:

  • Узел «Сравнение моделей» – сравнение полученных моделей и выбор лучшей
  • Узел «Интерпретация» включает в себя методы для интерпретации предсказаний модели – PD, LIME, ICE, SHAP
  • Узел «Подбор отсечки (Cut off)» позволяет подобрать отсечку для разделения на классы при бинарной классификации

6

Регистрация модели

На конечном этапе модель-победитель можно зарегистрировать в Репозитории MM (узел «Регистрация модели»).

  • Нет меток