В основе узла «Случайный лес» лежит алгоритм машинного обучения, который представляет собой ансамбль деревьев решений.
Алгоритм работы: Ансамблирование — это тип обучения, при котором объединяются различные типы алгоритмов или тот же алгоритм несколько раз, что позволяет сформировать более мощную прогнозную модель. Так, в алгоритме Случайного леса каждое дерево предсказывает класс (в случае задачи классификации) или значение (в случае задачи регрессии) на основании своего разбиения, и выбирается то предсказание, которое получило наибольшее количество голосов (в случае задачи классификации) или среднее значение всех предсказанных значений (в случае задачи регрессии).
Список параметров узла представлен в таблице ниже.
Параметр | Возможные значения и ограничения | Описание |
---|---|---|
Название | Ручной ввод | Название узла, которое будет отображаться в интерфейсе |
Описание | Ручной ввод | Описание узла |
Количество деревьев | Ручной ввод | Данный параметр определяет количество деревьев в случайном лесу |
Критерий разбиения для классификации | Раскрывающийся список со следующими значениями:
| Данный параметр задает критерий разбиения на узлы для классификации. Предусмотрены следующие критерии:
|
Критерий разбиения для регрессии | Раскрывающийся список со следующими значениями:
| Данный параметр задает критерий разбиения для регрессионной задачи. Предусмотрены следующие критерии:
|
Максимальная глубина | Ручной ввод | Данный параметр задает максимальную глубину дерева, после достижения которой алгоритм останавливает работу. |
Минимальное количество наблюдений для разбиения | Ручной ввод | Данный параметр задает минимальное количество наблюдений, которое должно быть в разбиении |
Минимальное количество наблюдений в листе | Ручной ввод | Данный параметр задает минимальное количество наблюдений, которое может быть в листе |
Максимальное количество признаков | Раскрывающийся список со следующими значениями:
| Данный параметр определяет максимальное количество признаков, которое будет учитываться при поиске лучшего разделения. Предусмотрены следующие варианты:
|
Seed | Ручной ввод числового значения | Начальное числовое значение для генератора случайных чисел |
Максимальное количество листов | Ручной ввод | Данный параметр определяет максимальное количество листов в дереве |
Минимальное снижение неоднородности | Ручной ввод | Данный параметр определяет минимальное снижение неоднородности |
Использовать бутстреп | Чекбокс | Данный чекбокс указывает на необходимость использования метода повторной выборки наблюдений |
Размер бутстреп-выборок | Ручной ввод | Данный параметр задает размер бутстреп-выборок |
Минимальная доля веса наблюдений в листе | Ручной ввод | Данный параметр определяет минимальный весовой коэффициент выборки в листовом узле. По умолчанию наблюдения имеют одинаковый вес |
Количество параллельных сессий | Ручной ввод | Данный параметр задает количество параллельных сессий |
ccp_alpha | Ручной ввод | Данный параметр регулирует количество отсекаемых узлов. Чем больше значение ccp_alpha, тем большее количество узлов удаляется из дерева |
Результаты выполнения узла:
Узел «Случайный лес» имеет разные результаты в зависимости от решаемой задачи.
Результаты бинарной классификации представлены следующими объектами:
- График ROC (аналогично узлу «Дерево решений»).
- График Lift (аналогично узлу «Дерево решений»).
- График Cumulative Lift (аналогично узлу «Дерево решений»).
- График Gain (аналогично узлу «Дерево решений»).
- График Cumulative Gain (аналогично узлу «Дерево решений»).
- Таблица с метриками качества модели (аналогично узлу «Дерево решений»).
- Таблица с метриками качества модели для задачи классификации (аналогично узлу «Дерево решений»).
- Таблица со списком переменных, сортированных по важности (аналогично узлу «Дерево решений»).
Результаты многоклассовой классификации представлены следующими объектами:
- Таблица с метриками качества модели (аналогично узлу «Дерево решений»).
- Таблица с метриками качества модели для задачи классификации (аналогично узлу «Дерево решений»).
- Таблица со списком переменных, сортированных по важности (аналогично узлу «Дерево решений»).
Результаты регрессии представлены следующими объектами:
- Тепловые карты обучающей, тестовой и валидационной выборок (аналогично узлу «Дерево решений»).
- Таблица с метриками качества модели (аналогично узлу «Дерево решений»).
- Таблица со списком переменных, сортированных по важности (аналогично узлу «Дерево решений»).