В основе узла «Случайный лес» лежит алгоритм машинного обучения, который представляет собой ансамбль деревьев решений.
Алгоритм работы: Ансамблирование — это тип обучения, при котором объединяются различные типы алгоритмов или тот же алгоритм несколько раз, что позволяет сформировать более мощную прогнозную модель. Так, в алгоритме Случайного леса каждое дерево предсказывает класс (в случае задачи классификации) или значение (в случае задачи регрессии) на основании своего разбиения, и выбирается то предсказание, которое получило наибольшее количество голосов (в случае задачи классификации) или среднее значение всех предсказанных значений (в случае задачи регрессии).
Про переобучение деревьев и зачем это нужно в данном алгоритме
Преимущества алгоритма:
Недостатки алгоритма:
Список параметров узла представлен в таблице (Таблица 29).
Таблица 29 — Параметры узла «Случайный лес»
Параметр |
Возможные значения и ограничения |
Описание |
---|---|---|
Название |
Ручной ввод |
Название узла, которое будет отображаться в интерфейсе |
Описание |
Ручной ввод |
Описание узла |
Количество деревьев |
Ручной ввод |
Данный параметр определяет количество деревьев в случайном лесу |
Критерий разбиения для классификации |
Раскрывающийся список со следующими значениями:
|
Данный параметр задает критерий разбиения на узлы для классификации. Предусмотрены следующие критерии:
|
Критерий разбиения для регрессии |
Раскрывающийся список со следующими значениями:
|
Данный параметр задает критерий разбиения для регрессионной задачи. Предусмотрены следующие критерии:
|
Максимальная глубина |
Ручной ввод |
Данный параметр задает максимальную глубину дерева, после достижения которой алгоритм останавливает работу. |
Минимальное количество наблюдений для разбиения |
Ручной ввод |
Данный параметр задает минимальное количество наблюдений, которое должно быть в разбиении |
Минимальное количество наблюдений в листе |
Ручной ввод |
Данный параметр задает минимальное количество наблюдений, которое может быть в листе |
Максимальное количество признаков |
Раскрывающийся список со следующими значениями:
|
Данный параметр определяет максимальное количество признаков, которое будет учитываться при поиске лучшего разделения. Предусмотрены следующие варианты:
|
Seed |
Ручной ввод числового значения |
Начальное числовое значение для генератора случайных чисел |
Максимальное количество листов |
Ручной ввод |
Данный параметр определяет максимальное количество листов в дереве |
Минимальное снижение неоднородности |
Ручной ввод |
Данный параметр определяет минимальное снижение неоднородности |
Использовать бутстреп |
Чекбокс |
Данный чекбокс указывает на необходимость использования метода повторной выборки наблюдений |
Размер бутстреп-выборок |
Ручной ввод |
Данный параметр задает размер бутстреп-выборок |
Минимальная доля веса наблюдений в листе |
Ручной ввод |
Данный параметр определяет минимальный весовой коэффициент выборки в листовом узле. По умолчанию наблюдения имеют одинаковый вес |
Количество параллельных сессий |
Ручной ввод |
Данный параметр задает количество параллельных сессий |
ccp_alpha |
Ручной ввод |
Данный параметр регулирует количество отсекаемых узлов. Чем больше значение ccp_alpha, тем большее количество узлов удаляется из дерева |
Результаты выполнения узла:
Узел «Случайный лес» имеет разные результаты в зависимости от решаемой задачи.
Результаты бинарной классификации представлены следующими объектами:
- График ROC (аналогично узлу «Дерево решений» Рисунок 127).
- График Lift (аналогично узлу «Дерево решений» Рисунок 128).
- График Cumulative Lift (аналогично узлу «Дерево решений» Рисунок 129).
- График Gain (аналогично узлу «Дерево решений» Рисунок 130).
- График Cumulative Gain (аналогично узлу «Дерево решений» Рисунок 131).
- Таблица с метриками качества модели (аналогично узлу «Дерево решений» Рисунок 133).
- Таблица с метриками качества модели для задачи классификации (аналогично узлу «Дерево решений» Рисунок 134).
- Таблица со списком переменных, сортированных по важности (аналогично узлу «Дерево решений» Рисунок 135).
Результаты многоклассовой классификации представлены следующими объектами:
- Таблица с метриками качества модели (аналогично узлу «Дерево решений» Рисунок 136).
- Таблица с метриками качества модели для задачи классификации (аналогично узлу «Дерево решений» Рисунок 137).
- Таблица со списком переменных, сортированных по важности (аналогично узлу «Дерево решений» Рисунок 138).
Результаты регрессии представлены следующими объектами:
- Тепловые карты обучающей, тестовой и валидационной выборок (аналогично узлу «Дерево решений» Рисунок 139).
- Таблица с метриками качества модели (аналогично узлу «Дерево решений» Рисунок 141).
- Таблица со списком переменных, сортированных по важности (аналогично узлу «Дерево решений» Рисунок 138).