Каждый Узел выполняет отдельную операцию. Для удобства все узлы разделены на группы в зависимости от выполняемых функций:
- Группа «Набор данных» включает в себя узлы для подготовки и преобразования данных перед построением моделей.
- Группы «Обучение с учителем» и «Обучение без учителя» представлены узлами-алгоритмами машинного обучения.
- Узлы группы «Работа с моделями» используются на завершающих этапах моделирования для интерпретации, отсечки, сравнения моделей и регистрации в Репозиторий.
Сведения о конкретном узле можно получить в его Справке, которая находится в нижней части боковой панели с настройками узла (Рисунок 63). Для получения подробной информации об узле необходимо щелкнуть ссылку «Подробнее». В результате откроется новая вкладка в браузере с описанием узла из настоящего руководства пользователя.
Рисунок 63 — Справка узла «Набор данных»
В текущей версии Модуля предусмотрены 30 узлов. Ознакомиться с кратким описанием каждого узла можно в таблице (Таблица 6).
Таблица 6 — Краткое описание узлов
Группа узлов |
Название узла |
Краткое описание |
---|---|---|
Набор данных |
Узел «Набор данных» |
Данный узел позволяет выбрать необходимый для моделирования набор данных из списка зарегистрированных |
|
Узел «Разделение выборки» |
Данный узел разбивает набор данных на обучающую, валидационную и тестовую выборки |
|
Узел «Sample» |
Данный узел корректирует неравномерное распределение классов в исходном наборе данных |
|
Узел «Фильтр» |
Данный узел позволяет по заданным условиям удалить наблюдения из процесса моделирования |
|
Узел «Метаданные» |
Данный узел позволяет изменить метаданные переменных |
|
Узел «One-hot encoding» |
Данный узел преобразует категориальные переменные в числовые данные |
|
Узел «Заполнение пропусков» |
Данный узел обрабатывает пропущенные значения |
|
Узел «Трансформация» |
Данный узел позволяет рассчитать новые переменные |
|
Узел «Биннинг/энкодинг» |
Данный узел включает в себя методы бинаризации интервальных переменных и кодирования категориальных переменных. |
|
Узел «Дисперсионный анализ» |
Данный узел позволяет исследовать значимость различия между средними значениями зависимой количественной переменной по группам фактора (независимой переменной). |
|
Узел «Стандартизация» |
Данный узел приводит признаки в разных единицах измерения и диапазонах значений к единому виду, который позволит сравнивать их между собой или использовать для расчета схожести объектов. |
|
Узел «Веса классов» |
Данный узел корректирует несбалансированность классов (в обучающей выборке доли объектов разных классов существенно различаются) |
Обучение без учителя |
Узел «Кластерный анализ (k-means)» |
Данный узел группирует наблюдения в подмножества (кластеры) таким образом, чтобы наблюдения внутри одного кластера были похожи друг на друга, но различались с наблюдениями из других кластеров. |
|
Узел «Иерархическая кластеризация» |
Данный узел создает иерархии вложенных подмножеств (кластеров). |
Обучение с учителем |
Узел «Дерево решений» |
Данный узел обобщает наблюдения правилами вида «Если…, то…» в иерархическую, последовательную структуру в виде дерева. |
|
Узел «Случайный лес» |
В основе данного узла лежит алгоритм, который представляет собой ансамбль деревьев решений. |
|
Узел «Байесовская регрессия» |
Данный узел представляет собой линейную регрессию с применением распределения вероятностей параметров, а не точечных оценок |
|
Узел «Линейная регрессия» |
В результате данного узла строится модель зависимости между входными и выходными переменными с линейной функцией связи |
|
Узел «Логистическая регрессия» |
В основе данного узла лежит метод построения линейного классификатора, позволяющий оценивать апостериорные вероятности принадлежности объектов классам. |
|
Узел «Линейные модели» |
Данный узел объединяет в себе линейные классификаторы и регрессоры |
|
Узел «Нейронная сеть» |
В основе данного узла лежит упрощенная модель биологической нейронной сети. |
|
Узел «LDA» (Линейный дискриминантный анализ) |
Данный узел применяется для нахождения линейных комбинаций признаков, наилучшим образом разделяющих два или более класса объектов или событий. |
|
Узел «Градиентный бустинг (XGBOOST)» |
В основе данного узла лежит алгоритм градиентного бустинга на деревьях поиска решений. |
|
Узел «Градиентный бустинг (XGBOOST)» |
В основе узла лежит реализация алгоритма градиентного бустинга на деревьях поиска решений, который включает в себя две ключевые идеи: Градиентная односторонняя выборка (GOSS) и Объединение взаимоисключающих признаков (EFB). |
|
Узел «Градиентный бустинг (XGBOOST)» |
В основе узла лежит реализация алгоритма градиентного бустинга, которая оптимизирована под работу с категориальными признаками и хорошо работает с параметрами по умолчанию. |
|
Узел «GLM» |
Данный узел обобщает линейную регрессию и допускает наличие у зависимой переменной распределения, отличающегося от нормального. GLM связывает зависимую переменную с факторами посредством задаваемой функции связи. |
Работа с моделями |
Узел «Сравнение моделей» |
Данный узел оценивает построенные модели и выбирает лучшую. |
|
Узел «Регистрация модели» |
Данный узел сохраняет построенную модель в выбранном проекте репозитория Model Manager. |
|
Узел «Интерпретация» |
Данный узел, включает в себя методы, которые позволяют объяснить принципы и закономерности, которые использует модель в ходе прогнозирования. |
|
Узел «Подбор отсечки (Cut off)» |
Данный узел позволяет определить оптимальный порог отсечения для высокого соотношения истинных и ложных срабатываний модели |