В основе узла «Дерево решений» лежит алгоритм, обобщающий наблюдения правилами вида «Если…, то…» в иерархическую, последовательную структуру в виде дерева. Правила генерируются в процессе обучения.
Алгоритм работы: Процесс построения деревьев решений представляет собой последовательное, рекурсивное разбиение множества наблюдений на подмножества с применением решающих правил в узлах. Разбиение продолжается до момента, пока не будет достигнуто условие остановки алгоритма. Последний узел, который не осуществляет проверку и разбиение, становится листом.
В основе алгоритма построения дерева решений лежит принцип жадной максимизации прироста информации – на каждом шаге выбирается тот признак, при разделении по которому прирост информации оказывается наибольшим. Дальше процедура повторяется рекурсивно, пока энтропия не окажется равной нулю или какой-то малой величине.
Борьба с переобучением:
- Ограничить максимальную глубину дерева (параметр Максимальная глубина)
- Ограничить минимальное число объектов листе (параметр Минимальное количество наблюдений в листе)
- Ограничить максимальное количества листьев в дереве (параметр Максимальное количество листов)
- Требование, что функционал качества при дроблении улучшался как минимум на n процентов (параметр Минимальное снижение неоднородности)
Список параметров узла представлен в таблице ниже.
Параметр | Возможные значения и ограничения | Описание |
---|---|---|
Название | Ручной ввод | Название узла, которое будет отображаться в интерфейсе |
Описание | Ручной ввод | Описание узла |
Критерий разбиения для классификации | Раскрывающийся список со следующими значениями:
| Данный параметр задает критерий разбиения на узлы для классификации. Предусмотрены следующие критерии:
|
Критерий разбиения для регрессии | Раскрывающийся список со следующими значениями:
| Данный параметр задает критерий разбиения для регрессионной задачи. Предусмотрены следующие критерии:
|
Стратегия разбиения | Раскрывающийся список со следующими значениями:
| Данный параметр задает стратегию разделения на каждом узле. Предусмотрены следующие стратегии:
|
Максимальная глубина | Ручной ввод | Данный параметр задает максимальную глубину дерева, после достижения которой алгоритм останавливает работу |
Минимальное количество наблюдений для разбиения | Ручной ввод | Данный параметр задает минимальное количество наблюдений, которое должно быть в разбиении |
Минимальное количество наблюдений в листе | Ручной ввод | Данный параметр задает минимальное количество наблюдений, которое может быть в листе |
Минимальная доля веса наблюдений в листе | Ручной ввод | Данный параметр определяет минимальный весовой коэффициент выборки в листовом узле. По умолчанию наблюдения имеют одинаковый вес |
Максимальное количество признаков | Раскрывающийся список со следующими значениями:
| Данный параметр определяет максимальное количество признаков, которое будет учитываться при поиске лучшего разделения. Предусмотрены следующие варианты:
|
Seed | Ручной ввод | Начальное числовое значение для генератора случайных чисел |
Максимальное количество листов | Ручной ввод | Данный параметр определяет максимальное количество листов в дереве |
Минимальное снижение неоднородности | Ручной ввод | Данный параметр определяет минимальное снижение неоднородности |
ccp_alpha | Ручной ввод | Данный параметр регулирует количество отсекаемых узлов. Чем больше значение ccp_alpha, тем большее количество узлов удаляется из дерева |
Результаты выполнения узла:
Узел «Дерево решений» имеет разные результаты в зависимости от решаемой задачи.
Результаты бинарной классификации представлены следующими объектами:
- График ROC .
Пример графика ROC
- График Lift.
Пример графика Lift
- График Cumulative Lift.
Пример графика Cumulative Lift
- График Gain.
Пример графика Gain
- График Cumulative Gain.
Пример графика Cumulative Gain
- Диаграмма дерева решений.
Пример графика дерева решений
- Таблица с метриками качества модели.
Пример таблицы с метриками качества модели
- Таблица с метриками качества модели для задачи классификации.
Пример таблицы с метриками качества модели для задачи классификации
- Таблица со списком переменных, сортированных по важности.
Пример таблицы со списком переменных, отсортированных по важности
Результаты многоклассовой классификации представлены следующими объектами:
- Диаграмма дерева решений.
- Таблица с метриками качества модели.
Пример таблицы с метриками качества модели
- Таблица с метриками качества модели для задачи классификации.
Пример таблицы с метриками качества модели для задачи классификации
- Таблица со списком переменных, сортированных по важности.
Пример таблицы со списком переменных, сортированных по важности
Результаты регрессии представлены следующими объектами:
- Тепловые карты обучающей, тестовой и валидационной выборок.
Пример тепловой карты на данных обучающей выборки
"Тепловые" карты, отражающие корреляцию или ассоциацию типа хи-квадрат первоначальных значений с целевыми признаками по сегментам.
- Диаграмма дерева решений.
Пример диаграммы дерева решений для задачи регрессии
- Таблица с метриками качества модели.
Пример таблицы с метриками качества модели
- Таблица со списком переменных, сортированных по важности.