В основе узла «Дерево решений» лежит алгоритм, обобщающий наблюдения правилами вида «Если…, то…» в иерархическую, последовательную структуру в виде дерева. Правила генерируются в процессе обучения.
Данная иерархическая структура состоит из двух типов элементов — узлов и листьев.
Алгоритм работы: Процесс построения деревьев решений представляет собой последовательное, рекурсивное разбиение множества наблюдений на подмножества с применением решающих правил в узлах. Разбиение продолжается до момента, пока не будет достигнуто условие остановки алгоритма. Последний узел, который не осуществляет проверку и разбиение, становится листом.
В основе алгоритма построения дерева решений лежит принцип жадной максимизации прироста информации – на каждом шаге выбирается тот признак, при разделении по которому прирост информации оказывается наибольшим. Дальше процедура повторяется рекурсивно, пока энтропия не окажется равной нулю или какой-то малой величине (если дерево не подгоняется идеально под обучающую выборку во избежание переобучения).
Отдельно про решение задачи классификации и регрессии
Особенности работы с категориальными переменными
Особенности работы с числовыми переменными
.
Борьба с переобучением:
- Ограничить максимальную глубину дерева (параметр Максимальная глубина)
- Ограничить минимальное число объектов листе (параметр Минимальное количество наблюдений в листе)
- Ограничить максимальное количества листьев в дереве
- Останов в случае, если все объекты в листе относятся к одному классу
- Требование, что функционал качества при дроблении улучшался как минимум на s процентов.
(Подбор критериев трудозатратен, поэтому стоит использовать кросс-валидацию)
Прунинг
Преимущества алгоритма:
- Обработка пропущенных значений
Недостатки алгоритма:
- Дерево решений не способно к экстраполяции
- (параметр Максимальное количество листов)
Список параметров узла представлен в таблице (Таблица 28).
Якорь |
---|
_Ref91601744 | _Ref91601744 | Таблица 28 — ниже. Scroll Title |
---|
title-position | top |
---|
title-alignment | right |
---|
title | Параметры узла «Дерево решений» |
---|
|
Параметр | Возможные значения и ограничения | Описание |
---|
Название | Ручной ввод Ограничений на значение нет | Название узла, которое будет отображаться в интерфейсе | Описание | Ручной ввод Ограничений на значение нет | Описание узла | Критерий разбиения для классификации | Раскрывающийся список со следующими значениями: - gini (по умолчанию)
- entropy
| Данный параметр задает критерий разбиения на узлы для классификации. Предусмотрены следующие критерии: - gini (неопределенность Джини) –направлен на максимизацию количества пар объектов, одного класса, оказавшихся в одном поддереве.
- entropy (критерий прироста информации, энтропия) – направлен на максимизацию прироста информации
| Критерий разбиения для регрессии | Раскрывающийся список со следующими значениями: - squared error (по умолчанию)
- friedman mse
- absolute error
- poisson
| Данный параметр задает критерий разбиения для регрессионной задачи. Предусмотрены следующие критерии: - squared error (среднеквадратичная ошибка)
- friedman mse (среднеквадратичная ошибка с оценкой улучшения Фридмана)
- absolute error (средняя абсолютная ошибка)
- poisson (отклонение Пуассона)
| Стратегия разбиения | Раскрывающийся список со следующими значениями: - best (по умолчанию)
- random
| Данный параметр задает стратегию разделения на каждом узле. Предусмотрены следующие стратегии: - best – выбор наилучшей функции сегментации и точки сегментации
- random – случайное разделение
| Максимальная глубина | Ручной ввод Неотрицательное число По умолчанию — 5 | Данный параметр задает максимальную глубину дерева, после достижения которой алгоритм останавливает работу | Минимальное количество наблюдений для разбиения | Ручной ввод Неотрицательное число По умолчанию — 2 | Данный параметр задает минимальное количество наблюдений, которое должно быть в разбиении | Минимальное количество наблюдений в листе | Ручной ввод Неотрицательное число По умолчанию — 5 | Данный параметр задает минимальное количество наблюдений, которое может быть в листе | Минимальная доля веса наблюдений в листе | Ручной ввод Неотрицательное число По умолчанию — 0 | Данный параметр определяет минимальный весовой коэффициент выборки в листовом узле. По умолчанию наблюдения имеют одинаковый вес | Максимальное количество признаков | Раскрывающийся список со следующими значениями: - all (по умолчанию)
- sqrt
- log2
- number
- frac
| Данный параметр определяет максимальное количество признаков, которое будет учитываться при поиске лучшего разделения. Предусмотрены следующие варианты: - all – учитывать все доступные признаки
- sqrt – учитывать sqrt(число всех доступных признаков)
- log2 – учитывать log2(число всех доступных признаков)
- number – учитывать указанное число признаков
- frac – учитывать int(указанное число * число всех доступных признаков)
При выборе number или frac появится дополнительный параметр Число (вводится int) и Frac (вводится float) соответственно.
| Seed | Ручной ввод По умолчанию — 12345 | Начальное числовое значение для генератора случайных чисел | Максимальное количество листов | Ручной ввод Неотрицательное число | Данный параметр определяет максимальное количество листов в дереве | Минимальное снижение неоднородности | Ручной ввод Неотрицательное число По умолчанию — 0 | Данный параметр определяет минимальное снижение неоднородности Узел будет разделен, если это разделение вызовет уменьшение неоднородности большее или равное указанному значению | ccp_alpha (отсечение с минимизацией стоимости-сложности) Метод отсечения дерева |
|
...
Ручной ввод По умолчанию — 0 | Данный параметр регулирует количество отсекаемых узлов. Чем больше значение ccp_alpha, тем большее количество узлов удаляется из дерева |
|
Результаты выполнения узла:
Узел «Дерево решений» имеет разные результаты в зависимости от решаемой задачи.
Результаты бинарной классификации представлены следующими объектами:
- График ROC (Рисунок 127) .
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример графика ROC |
---|
|
Image Added |
- График Lift (Рисунок 128).
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример графика Lift |
---|
|
Image Added |
- График Cumulative Lift (Рисунок 129)
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример графика Cumulative Lift |
---|
|
Image Added |
- График Gain (Рисунок 130).
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример графика Gain |
---|
|
Image Added |
- График Cumulative Gain (Рисунок 131).
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример графика Cumulative Gain |
---|
|
Image Added |
- Диаграмма дерева решений (Рисунок 132).
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример графика дерева решений |
---|
|
Image Added |
- Таблица с метриками качества модели (Рисунок 133).
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример таблицы с метриками качества модели |
---|
|
Image Added |
- Таблица с метриками качества модели для задачи классификации (Рисунок 134).
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример таблицы с метриками качества модели для задачи классификации |
---|
|
Image Added |
- Таблица со списком переменных, сортированных по важности (Рисунок 135).
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример таблицы со списком переменных, отсортированных по важности |
---|
|
Image Added |
Результаты многоклассовой классификации представлены следующими объектами:
- Диаграмма дерева решений (аналогично Рисунок 132).
- Таблица с метриками качества модели (Рисунок 136).
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример таблицы с метриками качества модели |
---|
|
Image Added |
- Таблица с метриками качества модели для задачи классификации (Рисунок 137).
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример таблицы с метриками качества модели для задачи классификации |
---|
|
Image Added |
- Таблица со списком переменных, сортированных по важности (Рисунок 138).
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример таблицы со списком переменных, сортированных по важности |
---|
|
Image Added |
Результаты регрессии представлены следующими объектами:
- Тепловые карты обучающей, тестовой и валидационной выборок (Рисунок 139).
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример тепловой карты на данных обучающей выборки |
---|
|
Image Added |
"Тепловые" карты, отражающие корреляцию или ассоциацию типа хи-квадрат первоначальных значений с целевыми признаками по сегментам.
- Диаграмма дерева решений (Рисунок 140)
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример диаграммы дерева решений для задачи регрессии |
---|
|
Image Added |
- Таблица с метриками качества модели (Рисунок 141).
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример таблицы с метриками качества модели |
---|
|
Image Added |
- Таблица со списком переменных, сортированных по важности (Рисунок 138рисунок выше).