Вы просматриваете старую версию данной страницы. Смотрите текущую версию.

Сравнить с текущим просмотр истории страницы

Версия 1 Следующий »

В основе узла «Дерево решений» лежит алгоритм, обобщающий наблюдения правилами вида «Если…, то…» в иерархическую, последовательную структуру в виде дерева. Правила генерируются в процессе обучения.
Данная иерархическая структура состоит из двух типов элементов — узлов и листьев.
Алгоритм работы: Процесс построения деревьев решений представляет собой последовательное, рекурсивное разбиение множества наблюдений на подмножества с применением решающих правил в узлах. Разбиение продолжается до момента, пока не будет достигнуто условие остановки алгоритма. Последний узел, который не осуществляет проверку и разбиение, становится листом.
В основе алгоритма построения дерева решений лежит принцип жадной максимизации прироста информации – на каждом шаге выбирается тот признак, при разделении по которому прирост информации оказывается наибольшим. Дальше процедура повторяется рекурсивно, пока энтропия не окажется равной нулю или какой-то малой величине (если дерево не подгоняется идеально под обучающую выборку во избежание переобучения).
Отдельно про решение задачи классификации и регрессии
Особенности работы с категориальными переменными
Особенности работы с числовыми переменными
Борьба с переобучением:

  • Ограничить максимальную глубину дерева (параметр)
  • Ограничить минимальное число объектов листе (параметр)
  • Ограничить максимальное количества листьев в дереве
  • Останов в случае, если все объекты в листе относятся к одному классу
  • Требование, что функционал качества при дроблении улучшался как минимум на s процентов.

(Подбор критериев трудозатратен, поэтому стоит использовать кросс-валидацию)
Прунинг
Преимущества алгоритма:

  • Обработка пропущенных значений

Недостатки алгоритма:

  • Дерево решений не способно к экстраполяции




Список параметров узла представлен в таблице (Таблица 28).
Таблица 28 — Параметры узла «Дерево решений»

Параметр

Возможные значения и ограничения

Описание

Название

Ручной ввод
Ограничений на значение нет

Название узла, которое будет отображаться в интерфейсе

Описание

Ручной ввод
Ограничений на значение нет

Описание узла

Критерий разбиения для классификации

Раскрывающийся список со следующими значениями:

  • gini (по умолчанию)
  • entropy

Данный параметр задает критерий разбиения на узлы для классификации. Предусмотрены следующие критерии:

  • gini (неопределенность Джини) –направлен на максимизацию количества пар объектов, одного класса, оказавшихся в одном поддереве.
  • entropy (критерий прироста информации, энтропия) – направлен на максимизацию прироста информации

Критерий разбиения для регрессии

Раскрывающийся список со следующими значениями:

  • squared error (по умолчанию)
  • friedman mse
  • absolute error
  • poisson

Данный параметр задает критерий разбиения для регрессионной задачи. Предусмотрены следующие критерии:

  • squared error (среднеквадратичная ошибка)
  • friedman mse (среднеквадратичная ошибка с оценкой улучшения Фридмана)
  • absolute error (средняя абсолютная ошибка)
  • poisson (отклонение Пуассона)

Стратегия разбиения

Раскрывающийся список со следующими значениями:

  • best (по умолчанию)
  • random

Данный параметр задает стратегию разделения на каждом узле. Предусмотрены следующие стратегии:

  • best – выбор наилучшей функции сегментации и точки сегментации
  • random – случайное разделение

Максимальная глубина

Ручной ввод
Неотрицательное число
По умолчанию — 5

Данный параметр задает максимальную глубину дерева, после достижения которой алгоритм останавливает работу

Минимальное количество наблюдений для разбиения

Ручной ввод
Неотрицательное число
По умолчанию — 2

Данный параметр задает минимальное количество наблюдений, которое должно быть в разбиении

Минимальное количество наблюдений в листе

Ручной ввод
Неотрицательное число
По умолчанию — 5

Данный параметр задает минимальное количество наблюдений, которое может быть в листе

Минимальная доля веса наблюдений в листе

Ручной ввод
Неотрицательное число
По умолчанию — 0

Данный параметр определяет минимальный весовой коэффициент выборки в листовом узле. По умолчанию наблюдения имеют одинаковый вес

Максимальное количество признаков

Раскрывающийся список со следующими значениями:

  • all (по умолчанию)
  • sqrt
  • log2
  • number
  • frac

Данный параметр определяет максимальное количество признаков, которое будет учитываться при поиске лучшего разделения. Предусмотрены следующие варианты:

  • all – учитывать все доступные признаки
  • sqrt – учитывать sqrt(число всех доступных признаков)
  • log2 – учитывать log2(число всех доступных признаков)
  • number – учитывать указанное число признаков
  • frac – учитывать int(указанное число * число всех доступных признаков)
    При выборе number или frac появится дополнительный параметр Число (вводится int) и Frac (вводится float) соответственно.

Seed

Ручной ввод
По умолчанию — 12345

Начальное числовое значение для генератора случайных чисел

Максимальное количество листов

Ручной ввод
Неотрицательное число

Данный параметр определяет максимальное количество листов в дереве

Минимальное снижение неоднородности

Ручной ввод
Неотрицательное число
По умолчанию — 0

Данный параметр определяет минимальное снижение неоднородности
Узел будет разделен, если это разделение вызовет уменьшение неоднородности большее или равное указанному значению

ccp_alpha
(отсечение с минимизацией стоимости-сложности)
Метод отсечения дерева
Усечение дерева

Ручной ввод
По умолчанию — 0

Данный параметр регулирует количество отсекаемых узлов. Чем больше значение ccp_alpha, тем большее количество узлов удаляется из дерева

Результаты выполнения узла:
Узел «Дерево решений» имеет разные результаты в зависимости от решаемой задачи.
Результаты бинарной классификации представлены следующими объектами:

  • График ROC (Рисунок 127).


Рисунок 127 — Пример графика ROC

  • График Lift (Рисунок 128).


Рисунок 128 — Пример графика Lift

  • График Cumulative Lift (Рисунок 129)


Рисунок 129 — Пример графика Cumulative Lift

  • График Gain (Рисунок 130).


Рисунок 130 — Пример графика Gain

  • График Cumulative Gain (Рисунок 131).


Рисунок 131 — Пример графика Cumulative Gain

  • Диаграмма дерева решений (Рисунок 132).


Рисунок 132 — Пример графика дерева решений

  • Таблица с метриками качества модели (Рисунок 133).


Рисунок 133 — Пример таблицы с метриками качества модели

  • Таблица с метриками качества модели для задачи классификации (Рисунок 134).


Рисунок 134 — Пример таблицы с метриками качества модели для задачи классификации

  • Таблица со списком переменных, сортированных по важности (Рисунок 135).


Рисунок 135 — Пример таблицы со списком переменных, отсортированных по важности
Результаты многоклассовой классификации представлены следующими объектами:

  • Диаграмма дерева решений (аналогично Рисунок 132).
  • Таблица с метриками качества модели (Рисунок 136).


Рисунок 136 — Пример таблицы с метриками качества модели

  • Таблица с метриками качества модели для задачи классификации (Рисунок 137).


Рисунок 137 — Пример таблицы с метриками качества модели для задачи классификации

  • Таблица со списком переменных, сортированных по важности (Рисунок 138).


Рисунок 138 — Пример таблицы со списком переменных, сортированных по важности
Результаты регрессии представлены следующими объектами:

  • Тепловые карты обучающей, тестовой и валидационной выборок (Рисунок 139).


Рисунок 139 — Пример тепловой карты на данных обучающей выборки
"Тепловыекартыотражающие корреляцию или ассоциацию типа хи-квадрат первоначальных значений с целевыми признаками по сегментам.

  • Диаграмма дерева решений (Рисунок 140)


Рисунок 140 — Пример диаграммы дерева решений для задачи регрессии

  • Таблица с метриками качества модели (Рисунок 141).


Рисунок 141 — Пример таблицы с метриками качества модели

  • Таблица со списком переменных, сортированных по важности (Рисунок 138).
  • Нет меток