Узел «Случайный лес»

В основе узла «Случайный лес» лежит алгоритм машинного обучения, который представляет собой ансамбль деревьев решений.
Алгоритм работы: Ансамблирование — это тип обучения, при котором объединяются различные типы алгоритмов или тот же алгоритм несколько раз, что позволяет сформировать более мощную прогнозную модель. Так, в алгоритме Случайного леса каждое дерево предсказывает класс (в случае задачи классификации) или значение (в случае задачи регрессии) на основании своего разбиения, и выбирается то предсказание, которое получило наибольшее количество голосов (в случае задачи классификации) или среднее значение всех предсказанных значений (в случае задачи регрессии).
Про переобучение деревьев и зачем это нужно в данном алгоритме
Преимущества алгоритма:

Недостатки алгоритма:

Список параметров узла представлен в таблице (Таблица 29).
Таблица 29 — Параметры узла «Случайный лес»

Параметр	Возможные значения и ограничения	Описание
Название	Ручной ввод Ограничений на значение нет	Название узла, которое будет отображаться в интерфейсе
Описание	Ручной ввод Ограничений на значение нет	Описание узла
Количество деревьев	Ручной ввод Неотрицательное число	Данный параметр определяет количество деревьев в случайном лесу
Критерий разбиения для классификации	Раскрывающийся список со следующими значениями: Gini entropy	Данный параметр задает критерий разбиения на узлы для классификации. Предусмотрены следующие критерии: gini (коэффициент Джини) entropy (критерий прироста информации, энтропия)
Критерий разбиения для регрессии	Раскрывающийся список со следующими значениями: squared error friedman mse absolute error poisson	Данный параметр задает критерий разбиения для регрессионной задачи. Предусмотрены следующие критерии: squared error (среднеквадратичная ошибка) friedman mse (среднеквадратичная ошибка с оценкой улучшения Фридмана) absolute error (средняя абсолютная ошибка) poisson (отклонение Пуассона)
Максимальная глубина	Ручной ввод Неотрицательное число По умолчанию — 5	Данный параметр задает максимальную глубину дерева, после достижения которой алгоритм останавливает работу.
Минимальное количество наблюдений для разбиения	Ручной ввод Неотрицательное число По умолчанию — 2	Данный параметр задает минимальное количество наблюдений, которое должно быть в разбиении
Минимальное количество наблюдений в листе	Ручной ввод Неотрицательное число По умолчанию — 5	Данный параметр задает минимальное количество наблюдений, которое может быть в листе
Максимальное количество признаков	Раскрывающийся список со следующими значениями: all sqrt log2 number frac	Данный параметр определяет максимальное количество признаков, которое будет учитываться при поиске лучшего разделения. Предусмотрены следующие варианты: all – учитывать все доступные признаки sqrt – учитывать sqrt(число всех доступных признаков) log2 – учитывать log2(число всех доступных признаков) number – учитывать указанное число признаков frac – учитывать int(указанное число * число всех доступных признаков) При выборе number или frac появится дополнительный параметр Число (вводится int) и Frac (вводится float) соответственно.
Seed	Ручной ввод числового значения По умолчанию — 12345	Начальное числовое значение для генератора случайных чисел
Максимальное количество листов	Ручной ввод Неотрицательное число По умолчанию — 0	Данный параметр определяет максимальное количество листов в дереве
Минимальное снижение неоднородности	Ручной ввод Неотрицательное число По умолчанию — 0	Данный параметр определяет минимальное снижение неоднородности Узел будет разделен, если это разделение вызовет уменьшение неоднородности большее или равное указанному значению
Использовать бутстреп	Чекбокс	Данный чекбокс указывает на необходимость использования метода повторной выборки наблюдений
Размер бутстреп-выборок	Ручной ввод Неотрицательное число По умолчанию — 1	Данный параметр задает размер бутстреп-выборок
Минимальная доля веса наблюдений в листе	Ручной ввод Неотрицательное число По умолчанию — 0	Данный параметр определяет минимальный весовой коэффициент выборки в листовом узле. По умолчанию наблюдения имеют одинаковый вес
Количество параллельных сессий	Ручной ввод Неотрицательное число По умолчанию — 0	Данный параметр задает количество параллельных сессий
ccp_alpha	Ручной ввод По умолчанию — 0	Данный параметр регулирует количество отсекаемых узлов. Чем больше значение ccp_alpha, тем большее количество узлов удаляется из дерева

Результаты выполнения узла:
Узел «Случайный лес» имеет разные результаты в зависимости от решаемой задачи.
Результаты бинарной классификации представлены следующими объектами:

График ROC (аналогично узлу «Дерево решений» Рисунок 127).
График Lift (аналогично узлу «Дерево решений» Рисунок 128).
График Cumulative Lift (аналогично узлу «Дерево решений» Рисунок 129).
График Gain (аналогично узлу «Дерево решений» Рисунок 130).
График Cumulative Gain (аналогично узлу «Дерево решений» Рисунок 131).
Таблица с метриками качества модели (аналогично узлу «Дерево решений» Рисунок 133).
Таблица с метриками качества модели для задачи классификации (аналогично узлу «Дерево решений» Рисунок 134).
Таблица со списком переменных, сортированных по важности (аналогично узлу «Дерево решений» Рисунок 135).

Результаты многоклассовой классификации представлены следующими объектами:

Таблица с метриками качества модели (аналогично узлу «Дерево решений» Рисунок 136).
Таблица с метриками качества модели для задачи классификации (аналогично узлу «Дерево решений» Рисунок 137).
Таблица со списком переменных, сортированных по важности (аналогично узлу «Дерево решений» Рисунок 138).

Результаты регрессии представлены следующими объектами:

Тепловые карты обучающей, тестовой и валидационной выборок (аналогично узлу «Дерево решений» Рисунок 139).
Таблица с метриками качества модели (аналогично узлу «Дерево решений» Рисунок 141).
Таблица со списком переменных, сортированных по важности (аналогично узлу «Дерево решений» Рисунок 138).

Быстрые ссылки

Дерево страниц