Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

...

Алгоритм работы: Ансамблирование — это тип обучения, при котором объединяются различные типы алгоритмов или тот же алгоритм несколько раз, что позволяет сформировать более мощную прогнозную модель. Так, в алгоритме Случайного леса каждое дерево предсказывает класс (в случае задачи классификации) или значение (в случае задачи регрессии) на основании своего разбиения, и выбирается то предсказание, которое получило наибольшее количество голосов (в случае задачи классификации) или среднее значение всех предсказанных значений (в случае задачи регрессии).

Список параметров узла представлен в таблице ниже.


Scroll Title
title-positiontop
title-alignmentright
titleПараметры узла «Случайный лес»

Параметр

Возможные значения и ограничения

Описание

Название

Ручной ввод
Ограничений на значение нет

Название узла, которое будет отображаться в интерфейсе

Описание

Ручной ввод
Ограничений на значение нет

Описание узла

Количество деревьев

Ручной ввод
Неотрицательное число

Данный параметр определяет количество деревьев в случайном лесу

Критерий разбиения для классификации

Раскрывающийся список со следующими значениями:

  • Gini
  • entropy

Данный параметр задает критерий разбиения на узлы для классификации. Предусмотрены следующие критерии:

  • gini (коэффициент Джини)
  • entropy (критерий прироста информации, энтропия)

Критерий разбиения для регрессии

Раскрывающийся список со следующими значениями:

  • squared error
  • friedman mse
  • absolute error
  • poisson

Данный параметр задает критерий разбиения для регрессионной задачи. Предусмотрены следующие критерии:

  • squared error (среднеквадратичная ошибка)
  • friedman mse (среднеквадратичная ошибка с оценкой улучшения Фридмана)
  • absolute error (средняя абсолютная ошибка)
  • poisson (отклонение Пуассона)

Максимальная глубина

Ручной ввод
Неотрицательное число
По умолчанию — 5

Данный параметр задает максимальную глубину дерева, после достижения которой алгоритм останавливает работу.

Минимальное количество наблюдений для разбиения

Ручной ввод
Неотрицательное число
По умолчанию — 2

Данный параметр задает минимальное количество наблюдений, которое должно быть в разбиении

Минимальное количество наблюдений в листе

Ручной ввод
Неотрицательное число
По умолчанию — 5

Данный параметр задает минимальное количество наблюдений, которое может быть в листе

Максимальное количество признаков

Раскрывающийся список со следующими значениями:

  • all
  • sqrt
  • log2
  • number
  • frac

Данный параметр определяет максимальное количество признаков, которое будет учитываться при поиске лучшего разделения. Предусмотрены следующие варианты:

  • all – учитывать все доступные признаки
  • sqrt – учитывать sqrt(число всех доступных признаков)
  • log2 – учитывать log2(число всех доступных признаков)
  • number – учитывать указанное число признаков
  • frac – учитывать int(указанное число * число всех доступных признаков)
    При выборе number или frac появится дополнительный параметр Число (вводится int) и Frac (вводится float) соответственно.

Seed

Ручной ввод числового значения
По умолчанию — 12345

Начальное числовое значение для генератора случайных чисел

Максимальное количество листов

Ручной ввод
Неотрицательное число
По умолчанию — 0

Данный параметр определяет максимальное количество листов в дереве

Минимальное снижение неоднородности

Ручной ввод
Неотрицательное число
По умолчанию — 0

Данный параметр определяет минимальное снижение неоднородности
Узел будет разделен, если это разделение вызовет уменьшение неоднородности большее или равное указанному значению

Использовать бутстреп

Чекбокс

Данный чекбокс указывает на необходимость использования метода повторной выборки наблюдений

Размер бутстреп-выборок

Ручной ввод
Неотрицательное число
По умолчанию — 1

Данный параметр задает размер бутстреп-выборок

Минимальная доля веса наблюдений в листе

Ручной ввод
Неотрицательное число
По умолчанию — 0

Данный параметр определяет минимальный весовой коэффициент выборки в листовом узле. По умолчанию наблюдения имеют одинаковый вес

Количество параллельных сессий

Ручной ввод
Неотрицательное число
По умолчанию — 0

Данный параметр задает количество параллельных сессий

ccp_alpha

Ручной ввод
По умолчанию — 0

Данный параметр регулирует количество отсекаемых узлов. Чем больше значение ccp_alpha, тем большее количество узлов удаляется из дерева


Результаты выполнения узла:
Узел «Случайный лес» имеет разные результаты в зависимости от решаемой задачи.
Результаты бинарной классификации представлены следующими объектами:

...

  • Таблица с метриками качества модели (аналогично узлу «Дерево решений» Рисунок 136).
  • Таблица с метриками качества модели для задачи классификации (аналогично узлу «Дерево решений»).
  • Таблица со списком переменных, сортированных по важности (аналогично узлу «Дерево решений»).

...