Узел «Дерево решений»

В основе узла «Дерево решений» лежит алгоритм, обобщающий наблюдения правилами вида «Если…, то…» в иерархическую, последовательную структуру в виде дерева. Правила генерируются в процессе обучения.
Данная иерархическая структура состоит из двух типов элементов — узлов и листьев.
Алгоритм работы: Процесс построения деревьев решений представляет собой последовательное, рекурсивное разбиение множества наблюдений на подмножества с применением решающих правил в узлах. Разбиение продолжается до момента, пока не будет достигнуто условие остановки алгоритма. Последний узел, который не осуществляет проверку и разбиение, становится листом.
В основе алгоритма построения дерева решений лежит принцип жадной максимизации прироста информации – на каждом шаге выбирается тот признак, при разделении по которому прирост информации оказывается наибольшим. Дальше процедура повторяется рекурсивно, пока энтропия не окажется равной нулю или какой-то малой величине (если дерево не подгоняется идеально под обучающую выборку во избежание переобучения).
Отдельно про решение задачи классификации и регрессии
Особенности работы с категориальными переменными
Особенности работы с числовыми переменными
Борьба с переобучением:

Ограничить максимальную глубину дерева (параметр)
Ограничить минимальное число объектов листе (параметр)
Ограничить максимальное количества листьев в дереве
Останов в случае, если все объекты в листе относятся к одному классу
Требование, что функционал качества при дроблении улучшался как минимум на s процентов.

(Подбор критериев трудозатратен, поэтому стоит использовать кросс-валидацию)
Прунинг
Преимущества алгоритма:

Обработка пропущенных значений

Недостатки алгоритма:

Дерево решений не способно к экстраполяции

Список параметров узла представлен в таблице (Таблица 28).
Таблица 28 — Параметры узла «Дерево решений»

Параметр	Возможные значения и ограничения	Описание
Название	Ручной ввод Ограничений на значение нет	Название узла, которое будет отображаться в интерфейсе
Описание	Ручной ввод Ограничений на значение нет	Описание узла
Критерий разбиения для классификации	Раскрывающийся список со следующими значениями: gini (по умолчанию) entropy	Данный параметр задает критерий разбиения на узлы для классификации. Предусмотрены следующие критерии: gini (неопределенность Джини) –направлен на максимизацию количества пар объектов, одного класса, оказавшихся в одном поддереве. entropy (критерий прироста информации, энтропия) – направлен на максимизацию прироста информации
Критерий разбиения для регрессии	Раскрывающийся список со следующими значениями: squared error (по умолчанию) friedman mse absolute error poisson	Данный параметр задает критерий разбиения для регрессионной задачи. Предусмотрены следующие критерии: squared error (среднеквадратичная ошибка) friedman mse (среднеквадратичная ошибка с оценкой улучшения Фридмана) absolute error (средняя абсолютная ошибка) poisson (отклонение Пуассона)
Стратегия разбиения	Раскрывающийся список со следующими значениями: best (по умолчанию) random	Данный параметр задает стратегию разделения на каждом узле. Предусмотрены следующие стратегии: best – выбор наилучшей функции сегментации и точки сегментации random – случайное разделение
Максимальная глубина	Ручной ввод Неотрицательное число По умолчанию — 5	Данный параметр задает максимальную глубину дерева, после достижения которой алгоритм останавливает работу
Минимальное количество наблюдений для разбиения	Ручной ввод Неотрицательное число По умолчанию — 2	Данный параметр задает минимальное количество наблюдений, которое должно быть в разбиении
Минимальное количество наблюдений в листе	Ручной ввод Неотрицательное число По умолчанию — 5	Данный параметр задает минимальное количество наблюдений, которое может быть в листе
Минимальная доля веса наблюдений в листе	Ручной ввод Неотрицательное число По умолчанию — 0	Данный параметр определяет минимальный весовой коэффициент выборки в листовом узле. По умолчанию наблюдения имеют одинаковый вес
Максимальное количество признаков	Раскрывающийся список со следующими значениями: all (по умолчанию) sqrt log2 number frac	Данный параметр определяет максимальное количество признаков, которое будет учитываться при поиске лучшего разделения. Предусмотрены следующие варианты: all – учитывать все доступные признаки sqrt – учитывать sqrt(число всех доступных признаков) log2 – учитывать log2(число всех доступных признаков) number – учитывать указанное число признаков frac – учитывать int(указанное число * число всех доступных признаков) При выборе number или frac появится дополнительный параметр Число (вводится int) и Frac (вводится float) соответственно.
Seed	Ручной ввод По умолчанию — 12345	Начальное числовое значение для генератора случайных чисел
Максимальное количество листов	Ручной ввод Неотрицательное число	Данный параметр определяет максимальное количество листов в дереве
Минимальное снижение неоднородности	Ручной ввод Неотрицательное число По умолчанию — 0	Данный параметр определяет минимальное снижение неоднородности Узел будет разделен, если это разделение вызовет уменьшение неоднородности большее или равное указанному значению
ccp_alpha (отсечение с минимизацией стоимости-сложности) Метод отсечения дерева Усечение дерева	Ручной ввод По умолчанию — 0	Данный параметр регулирует количество отсекаемых узлов. Чем больше значение ccp_alpha, тем большее количество узлов удаляется из дерева

Результаты выполнения узла:
Узел «Дерево решений» имеет разные результаты в зависимости от решаемой задачи.
Результаты бинарной классификации представлены следующими объектами:

График ROC (Рисунок 127).

Рисунок 127 — Пример графика ROC

График Lift (Рисунок 128).

Рисунок 128 — Пример графика Lift

График Cumulative Lift (Рисунок 129)

Рисунок 129 — Пример графика Cumulative Lift

График Gain (Рисунок 130).

Рисунок 130 — Пример графика Gain

График Cumulative Gain (Рисунок 131).

Рисунок 131 — Пример графика Cumulative Gain

Диаграмма дерева решений (Рисунок 132).

Рисунок 132 — Пример графика дерева решений

Таблица с метриками качества модели (Рисунок 133).

Рисунок 133 — Пример таблицы с метриками качества модели

Таблица с метриками качества модели для задачи классификации (Рисунок 134).

Рисунок 134 — Пример таблицы с метриками качества модели для задачи классификации

Таблица со списком переменных, сортированных по важности (Рисунок 135).

Рисунок 135 — Пример таблицы со списком переменных, отсортированных по важности
Результаты многоклассовой классификации представлены следующими объектами:

Диаграмма дерева решений (аналогично Рисунок 132).
Таблица с метриками качества модели (Рисунок 136).

Рисунок 136 — Пример таблицы с метриками качества модели

Таблица с метриками качества модели для задачи классификации (Рисунок 137).

Рисунок 137 — Пример таблицы с метриками качества модели для задачи классификации

Таблица со списком переменных, сортированных по важности (Рисунок 138).

Рисунок 138 — Пример таблицы со списком переменных, сортированных по важности
Результаты регрессии представлены следующими объектами:

Тепловые карты обучающей, тестовой и валидационной выборок (Рисунок 139).

Рисунок 139 — Пример тепловой карты на данных обучающей выборки
"Тепловые" карты, отражающие корреляцию или ассоциацию типа хи-квадрат первоначальных значений с целевыми признаками по сегментам.

Диаграмма дерева решений (Рисунок 140)

Рисунок 140 — Пример диаграммы дерева решений для задачи регрессии

Таблица с метриками качества модели (Рисунок 141).

Рисунок 141 — Пример таблицы с метриками качества модели

Таблица со списком переменных, сортированных по важности (Рисунок 138).

Быстрые ссылки

Дерево страниц