В основе узла «Случайный лес» лежит алгоритм машинного обучения, который представляет собой ансамбль деревьев решений.
Алгоритм работы: Ансамблирование — это тип обучения, при котором объединяются различные типы алгоритмов или тот же алгоритм несколько раз, что позволяет сформировать более мощную прогнозную модель. Так, в алгоритме Случайного леса каждое дерево предсказывает класс (в случае задачи классификации) или значение (в случае задачи регрессии) на основании своего разбиения, и выбирается то предсказание, которое получило наибольшее количество голосов (в случае задачи классификации) или среднее значение всех предсказанных значений (в случае задачи регрессии). Про переобучение деревьев и зачем это нужно в данном алгоритме
Преимущества алгоритма:
Недостатки алгоритма:
Список параметров узла представлен в таблице (Таблица 29).
Якорь |
---|
_Ref91704399 | _Ref91704399 | Таблица 29 — ниже.
Scroll Title |
---|
title-position | top |
---|
title-alignment | right |
---|
title | Параметры узла «Случайный лес» |
---|
|
Параметр | Возможные значения и ограничения | Описание |
---|
Название | Ручной ввод Ограничений на значение нет | Название узла, которое будет отображаться в интерфейсе | Описание | Ручной ввод Ограничений на значение нет | Описание узла | Количество деревьев | Ручной ввод Неотрицательное число | Данный параметр определяет количество деревьев в случайном лесу | Критерий разбиения для классификации | Раскрывающийся список со следующими значениями: | Данный параметр задает критерий разбиения на узлы для классификации. Предусмотрены следующие критерии: - gini (коэффициент Джини)
- entropy (критерий прироста информации, энтропия)
| Критерий разбиения для регрессии | Раскрывающийся список со следующими значениями: - squared error
- friedman mse
- absolute error
- poisson
| Данный параметр задает критерий разбиения для регрессионной задачи. Предусмотрены следующие критерии: - squared error (среднеквадратичная ошибка)
- friedman mse (среднеквадратичная ошибка с оценкой улучшения Фридмана)
- absolute error (средняя абсолютная ошибка)
- poisson (отклонение Пуассона)
| Максимальная глубина | Ручной ввод Неотрицательное число По умолчанию — 5 | Данный параметр задает максимальную глубину дерева, после достижения которой алгоритм останавливает работу. | Минимальное количество наблюдений для разбиения | Ручной ввод Неотрицательное число По умолчанию — 2 | Данный параметр задает минимальное количество наблюдений, которое должно быть в разбиении | Минимальное количество наблюдений в листе | Ручной ввод Неотрицательное число По умолчанию — 5 | Данный параметр задает минимальное количество наблюдений, которое может быть в листе | Максимальное количество признаков | Раскрывающийся список со следующими значениями: | Данный параметр определяет максимальное количество признаков, которое будет учитываться при поиске лучшего разделения. Предусмотрены следующие варианты: - all – учитывать все доступные признаки
- sqrt – учитывать sqrt(число всех доступных признаков)
- log2 – учитывать log2(число всех доступных признаков)
- number – учитывать указанное число признаков
- frac – учитывать int(указанное число * число всех доступных признаков)
При выборе number или frac появится дополнительный параметр Число (вводится int) и Frac (вводится float) соответственно.
| Seed | Ручной ввод числового значения По умолчанию — 12345 | Начальное числовое значение для генератора случайных чисел | Максимальное количество листов | Ручной ввод Неотрицательное число По умолчанию — 0 | Данный параметр определяет максимальное количество листов в дереве | Минимальное снижение неоднородности | Ручной ввод Неотрицательное число По умолчанию — 0 | Данный параметр определяет минимальное снижение неоднородности Узел будет разделен, если это разделение вызовет уменьшение неоднородности большее или равное указанному значению | Использовать бутстреп | Чекбокс | Данный чекбокс указывает на необходимость использования метода повторной выборки наблюдений | Размер бутстреп-выборок | Ручной ввод Неотрицательное число По умолчанию — 1 | Данный параметр задает размер бутстреп-выборок | Минимальная доля веса наблюдений в листе | Ручной ввод Неотрицательное число По умолчанию — 0 | Данный параметр определяет минимальный весовой коэффициент выборки в листовом узле. По умолчанию наблюдения имеют одинаковый вес | Количество параллельных сессий | Ручной ввод Неотрицательное число По умолчанию — 0 | Данный параметр задает количество параллельных сессий | ccp_alpha | Ручной ввод По умолчанию — 0 | Данный параметр регулирует количество отсекаемых узлов. Чем больше значение ccp_alpha, тем большее количество узлов удаляется из дерева |
|
Результаты выполнения узла:
Узел «Случайный лес» имеет разные результаты в зависимости от решаемой задачи.
Результаты бинарной классификации представлены следующими объектами:
- График ROC (аналогично узлу «Дерево решений» Рисунок 127).
- График Lift (аналогично узлу «Дерево решений» Рисунок 128).
- График Cumulative Lift (аналогично узлу «Дерево решений» Рисунок 129).
- График Gain (аналогично узлу «Дерево решений» Рисунок 130).
- График Cumulative Gain (аналогично узлу «Дерево решений» Рисунок 131).
- Таблица с метриками качества модели (аналогично узлу «Дерево решений» Рисунок 133).
- Таблица с метриками качества модели для задачи классификации (аналогично узлу «Дерево решений» Рисунок 134).
- Таблица со списком переменных, сортированных по важности (аналогично узлу «Дерево решений» Рисунок 135).
Результаты многоклассовой классификации представлены следующими объектами:
- Таблица с метриками качества модели (аналогично узлу «Дерево решений» Рисунок 136).
- Таблица с метриками качества модели для задачи классификации (аналогично узлу «Дерево решений» Рисунок 137).
- Таблица со списком переменных, сортированных по важности (аналогично узлу «Дерево решений» Рисунок 138).
Результаты регрессии представлены следующими объектами:
- Тепловые карты обучающей, тестовой и валидационной выборок (аналогично узлу «Дерево решений» Рисунок 139).
- Таблица с метриками качества модели (аналогично узлу «Дерево решений» Рисунок 141).
- Таблица со списком переменных, сортированных по важности (аналогично узлу «Дерево решений» Рисунок 138).