В основе узла «Дерево решений» лежит алгоритм, обобщающий наблюдения правилами вида «Если…, то…» в иерархическую, последовательную структуру в виде дерева. Правила генерируются в процессе обучения.
Данная иерархическая структура состоит из двух типов элементов — узлов и листьев.
Алгоритм работы: Процесс построения деревьев решений представляет собой последовательное, рекурсивное разбиение множества наблюдений на подмножества с применением решающих правил в узлах. Разбиение продолжается до момента, пока не будет достигнуто условие остановки алгоритма. Последний узел, который не осуществляет проверку и разбиение, становится листом.
В основе алгоритма построения дерева решений лежит принцип жадной максимизации прироста информации – на каждом шаге выбирается тот признак, при разделении по которому прирост информации оказывается наибольшим. Дальше процедура повторяется рекурсивно, пока энтропия не окажется равной нулю или какой-то малой величине (если дерево не подгоняется идеально под обучающую выборку во избежание переобучения).
Отдельно про решение задачи классификации и регрессии
Особенности работы с категориальными переменными
Особенности работы с числовыми переменными
Борьба с переобучением:
- Ограничить максимальную глубину дерева (параметр)
- Ограничить минимальное число объектов листе (параметр)
- Ограничить максимальное количества листьев в дереве
- Останов в случае, если все объекты в листе относятся к одному классу
- Требование, что функционал качества при дроблении улучшался как минимум на s процентов.
(Подбор критериев трудозатратен, поэтому стоит использовать кросс-валидацию)
Прунинг
Преимущества алгоритма:
- Обработка пропущенных значений
Недостатки алгоритма:
- Дерево решений не способно к экстраполяции
Список параметров узла представлен в таблице (Таблица 28).
Таблица 28 — Параметры узла «Дерево решений»
Параметр |
Возможные значения и ограничения |
Описание |
---|---|---|
Название |
Ручной ввод |
Название узла, которое будет отображаться в интерфейсе |
Описание |
Ручной ввод |
Описание узла |
Критерий разбиения для классификации |
Раскрывающийся список со следующими значениями:
|
Данный параметр задает критерий разбиения на узлы для классификации. Предусмотрены следующие критерии:
|
Критерий разбиения для регрессии |
Раскрывающийся список со следующими значениями:
|
Данный параметр задает критерий разбиения для регрессионной задачи. Предусмотрены следующие критерии:
|
Стратегия разбиения |
Раскрывающийся список со следующими значениями:
|
Данный параметр задает стратегию разделения на каждом узле. Предусмотрены следующие стратегии:
|
Максимальная глубина |
Ручной ввод |
Данный параметр задает максимальную глубину дерева, после достижения которой алгоритм останавливает работу |
Минимальное количество наблюдений для разбиения |
Ручной ввод |
Данный параметр задает минимальное количество наблюдений, которое должно быть в разбиении |
Минимальное количество наблюдений в листе |
Ручной ввод |
Данный параметр задает минимальное количество наблюдений, которое может быть в листе |
Минимальная доля веса наблюдений в листе |
Ручной ввод |
Данный параметр определяет минимальный весовой коэффициент выборки в листовом узле. По умолчанию наблюдения имеют одинаковый вес |
Максимальное количество признаков |
Раскрывающийся список со следующими значениями:
|
Данный параметр определяет максимальное количество признаков, которое будет учитываться при поиске лучшего разделения. Предусмотрены следующие варианты:
|
Seed |
Ручной ввод |
Начальное числовое значение для генератора случайных чисел |
Максимальное количество листов |
Ручной ввод |
Данный параметр определяет максимальное количество листов в дереве |
Минимальное снижение неоднородности |
Ручной ввод |
Данный параметр определяет минимальное снижение неоднородности |
ccp_alpha |
Ручной ввод |
Данный параметр регулирует количество отсекаемых узлов. Чем больше значение ccp_alpha, тем большее количество узлов удаляется из дерева |
Результаты выполнения узла:
Узел «Дерево решений» имеет разные результаты в зависимости от решаемой задачи.
Результаты бинарной классификации представлены следующими объектами:
- График ROC (Рисунок 127).
Рисунок 127 — Пример графика ROC
- График Lift (Рисунок 128).
Рисунок 128 — Пример графика Lift
- График Cumulative Lift (Рисунок 129)
Рисунок 129 — Пример графика Cumulative Lift
- График Gain (Рисунок 130).
Рисунок 130 — Пример графика Gain
- График Cumulative Gain (Рисунок 131).
Рисунок 131 — Пример графика Cumulative Gain
- Диаграмма дерева решений (Рисунок 132).
Рисунок 132 — Пример графика дерева решений
- Таблица с метриками качества модели (Рисунок 133).
Рисунок 133 — Пример таблицы с метриками качества модели
- Таблица с метриками качества модели для задачи классификации (Рисунок 134).
Рисунок 134 — Пример таблицы с метриками качества модели для задачи классификации
- Таблица со списком переменных, сортированных по важности (Рисунок 135).
Рисунок 135 — Пример таблицы со списком переменных, отсортированных по важности
Результаты многоклассовой классификации представлены следующими объектами:
- Диаграмма дерева решений (аналогично Рисунок 132).
- Таблица с метриками качества модели (Рисунок 136).
Рисунок 136 — Пример таблицы с метриками качества модели
- Таблица с метриками качества модели для задачи классификации (Рисунок 137).
Рисунок 137 — Пример таблицы с метриками качества модели для задачи классификации
- Таблица со списком переменных, сортированных по важности (Рисунок 138).
Рисунок 138 — Пример таблицы со списком переменных, сортированных по важности
Результаты регрессии представлены следующими объектами:
- Тепловые карты обучающей, тестовой и валидационной выборок (Рисунок 139).
Рисунок 139 — Пример тепловой карты на данных обучающей выборки
"Тепловые" карты, отражающие корреляцию или ассоциацию типа хи-квадрат первоначальных значений с целевыми признаками по сегментам.
- Диаграмма дерева решений (Рисунок 140)
Рисунок 140 — Пример диаграммы дерева решений для задачи регрессии
- Таблица с метриками качества модели (Рисунок 141).
Рисунок 141 — Пример таблицы с метриками качества модели
- Таблица со списком переменных, сортированных по важности (Рисунок 138).