Каждый Узел выполняет отдельную операцию. Для удобства все узлы разделены на группы в зависимости от выполняемых функций:
- Группа «Набор данных» включает в себя узлы для подготовки и преобразования данных перед построением моделей.
- Группы «Обучение с учителем» и «Обучение без учителя» представлены узлами-алгоритмами машинного обучения.
- Узлы группы «Работа с моделями» используются на завершающих этапах моделирования для интерпретации, отсечки, сравнения моделей и регистрации в Репозиторий.
Сведения о конкретном узле можно получить в его Справке, которая находится в нижней части боковой панели с настройками узла. Для получения подробной информации об узле необходимо щелкнуть ссылку «Подробнее». В результате откроется новая вкладка в браузере с описанием узла из настоящего руководства пользователя.
В текущей версии Модуля предусмотрены 30 узлов. Ознакомиться с кратким описанием каждого узла можно в таблице ниже.
Краткое описание узлов
Группа узлов | Название узла | Краткое описание |
---|---|---|
Набор данных | Узел «Набор данных» | Данный узел позволяет выбрать необходимый для моделирования набор данных из списка зарегистрированных |
Узел «Разделение выборки» | Данный узел разбивает набор данных на обучающую, валидационную и тестовую выборки | |
Узел «Sample» | Данный узел корректирует неравномерное распределение классов в исходном наборе данных | |
Узел «Фильтр» | Данный узел позволяет по заданным условиям удалить наблюдения из процесса моделирования | |
Узел «Метаданные» | Данный узел позволяет изменить метаданные переменных | |
Узел «One-hot encoding» | Данный узел преобразует категориальные переменные в числовые данные | |
Узел «Заполнение пропусков» | Данный узел обрабатывает пропущенные значения | |
Узел «Трансформация» | Данный узел позволяет рассчитать новые переменные | |
Узел «Биннинг/энкодинг» | Данный узел включает в себя методы бинаризации интервальных переменных и кодирования категориальных переменных. | |
Узел «Дисперсионный анализ» | Данный узел позволяет исследовать значимость различия между средними значениями зависимой количественной переменной по группам фактора (независимой переменной). | |
Узел «Стандартизация» | Данный узел приводит признаки в разных единицах измерения и диапазонах значений к единому виду, который позволит сравнивать их между собой или использовать для расчета схожести объектов. | |
Узел «Веса классов» | Данный узел корректирует несбалансированность классов (в обучающей выборке доли объектов разных классов существенно различаются) | |
Обучение без учителя | Узел «Кластерный анализ (k-means)» | Данный узел группирует наблюдения в подмножества (кластеры) таким образом, чтобы наблюдения внутри одного кластера были похожи друг на друга, но различались с наблюдениями из других кластеров. |
Узел «Иерархическая кластеризация» | Данный узел создает иерархии вложенных подмножеств (кластеров). | |
Обучение с учителем | Узел «Дерево решений» | Данный узел обобщает наблюдения правилами вида «Если…, то…» в иерархическую, последовательную структуру в виде дерева. |
Узел «Случайный лес» | В основе данного узла лежит алгоритм, который представляет собой ансамбль деревьев решений. | |
Узел «Байесовская регрессия» | Данный узел представляет собой линейную регрессию с применением распределения вероятностей параметров, а не точечных оценок | |
Узел «Линейная регрессия» | В результате данного узла строится модель зависимости между входными и выходными переменными с линейной функцией связи | |
Узел «Логистическая регрессия» | В основе данного узла лежит метод построения линейного классификатора, позволяющий оценивать апостериорные вероятности принадлежности объектов классам. | |
Узел «Линейные модели» | Данный узел объединяет в себе линейные классификаторы и регрессоры | |
Узел «Нейронная сеть» | В основе данного узла лежит упрощенная модель биологической нейронной сети. | |
Узел «LDA» (Линейный дискриминантный анализ) | Данный узел применяется для нахождения линейных комбинаций признаков, наилучшим образом разделяющих два или более класса объектов или событий. | |
Узел «Градиентный бустинг (XGBOOST)» | В основе данного узла лежит алгоритм градиентного бустинга на деревьях поиска решений. | |
Узел «Градиентный бустинг (XGBOOST)» | В основе узла лежит реализация алгоритма градиентного бустинга на деревьях поиска решений, который включает в себя две ключевые идеи: Градиентная односторонняя выборка (GOSS) и Объединение взаимоисключающих признаков (EFB). | |
Узел «Градиентный бустинг (XGBOOST)» | В основе узла лежит реализация алгоритма градиентного бустинга, которая оптимизирована под работу с категориальными признаками и хорошо работает с параметрами по умолчанию. | |
Узел «GLM» | Данный узел обобщает линейную регрессию и допускает наличие у зависимой переменной распределения, отличающегося от нормального. GLM связывает зависимую переменную с факторами посредством задаваемой функции связи. | |
Работа с моделями | Узел «Сравнение моделей» | Данный узел оценивает построенные модели и выбирает лучшую. |
Узел «Регистрация модели» | Данный узел сохраняет построенную модель в выбранном проекте репозитория Model Manager. | |
Узел «Интерпретация» | Данный узел, включает в себя методы, которые позволяют объяснить принципы и закономерности, которые использует модель в ходе прогнозирования. | |
Узел «Подбор отсечки (Cut off)» | Данный узел позволяет определить оптимальный порог отсечения для высокого соотношения истинных и ложных срабатываний модели |