Вы просматриваете старую версию данной страницы. Смотрите текущую версию.

Сравнить с текущим просмотр истории страницы

« Предыдущий Версия 4 Текущий »

В основе узла «Дерево решений» лежит алгоритм, обобщающий наблюдения правилами вида «Если…, то…» в иерархическую, последовательную структуру в виде дерева. Правила генерируются в процессе обучения.

Алгоритм работы: Процесс построения деревьев решений представляет собой последовательное, рекурсивное разбиение множества наблюдений на подмножества с применением решающих правил в узлах. Разбиение продолжается до момента, пока не будет достигнуто условие остановки алгоритма. Последний узел, который не осуществляет проверку и разбиение, становится листом.

В основе алгоритма построения дерева решений лежит принцип жадной максимизации прироста информации – на каждом шаге выбирается тот признак, при разделении по которому прирост информации оказывается наибольшим. Дальше процедура повторяется рекурсивно, пока энтропия не окажется равной нулю или какой-то малой величине.
 
Борьба с переобучением:

  • Ограничить максимальную глубину дерева (параметр Максимальная глубина)
  • Ограничить минимальное число объектов листе (параметр Минимальное количество наблюдений в листе)
  • Ограничить максимальное количества листьев в дереве (параметр Максимальное количество листов)
  • Требование, что функционал качества при дроблении улучшался как минимум на n процентов (параметр Минимальное снижение неоднородности)


Список параметров узла представлен в таблице ниже.

Параметры узла «Дерево решений»

Параметр

Возможные значения и ограничения

Описание

Название

Ручной ввод
Ограничений на значение нет

Название узла, которое будет отображаться в интерфейсе

Описание

Ручной ввод
Ограничений на значение нет

Описание узла

Критерий разбиения для классификации

Раскрывающийся список со следующими значениями:

  • gini (по умолчанию)
  • entropy

Данный параметр задает критерий разбиения на узлы для классификации. Предусмотрены следующие критерии:

  • gini (неопределенность Джини) –направлен на максимизацию количества пар объектов, одного класса, оказавшихся в одном поддереве.
  • entropy (критерий прироста информации, энтропия) – направлен на максимизацию прироста информации

Критерий разбиения для регрессии

Раскрывающийся список со следующими значениями:

  • squared error (по умолчанию)
  • friedman mse
  • absolute error
  • poisson

Данный параметр задает критерий разбиения для регрессионной задачи. Предусмотрены следующие критерии:

  • squared error (среднеквадратичная ошибка)
  • friedman mse (среднеквадратичная ошибка с оценкой улучшения Фридмана)
  • absolute error (средняя абсолютная ошибка)
  • poisson (отклонение Пуассона)

Стратегия разбиения

Раскрывающийся список со следующими значениями:

  • best (по умолчанию)
  • random

Данный параметр задает стратегию разделения на каждом узле. Предусмотрены следующие стратегии:

  • best – выбор наилучшей функции сегментации и точки сегментации
  • random – случайное разделение

Максимальная глубина

Ручной ввод
Неотрицательное число
По умолчанию — 5

Данный параметр задает максимальную глубину дерева, после достижения которой алгоритм останавливает работу

Минимальное количество наблюдений для разбиения

Ручной ввод
Неотрицательное число
По умолчанию — 2

Данный параметр задает минимальное количество наблюдений, которое должно быть в разбиении

Минимальное количество наблюдений в листе

Ручной ввод
Неотрицательное число
По умолчанию — 5

Данный параметр задает минимальное количество наблюдений, которое может быть в листе

Минимальная доля веса наблюдений в листе

Ручной ввод
Неотрицательное число
По умолчанию — 0

Данный параметр определяет минимальный весовой коэффициент выборки в листовом узле. По умолчанию наблюдения имеют одинаковый вес

Максимальное количество признаков

Раскрывающийся список со следующими значениями:

  • all (по умолчанию)
  • sqrt
  • log2
  • number
  • frac

Данный параметр определяет максимальное количество признаков, которое будет учитываться при поиске лучшего разделения. Предусмотрены следующие варианты:

  • all – учитывать все доступные признаки
  • sqrt – учитывать sqrt(число всех доступных признаков)
  • log2 – учитывать log2(число всех доступных признаков)
  • number – учитывать указанное число признаков
  • frac – учитывать int(указанное число * число всех доступных признаков)
    При выборе number или frac появится дополнительный параметр Число (вводится int) и Frac (вводится float) соответственно.

Seed

Ручной ввод
По умолчанию — 12345

Начальное числовое значение для генератора случайных чисел

Максимальное количество листов

Ручной ввод
Неотрицательное число

Данный параметр определяет максимальное количество листов в дереве

Минимальное снижение неоднородности

Ручной ввод
Неотрицательное число
По умолчанию — 0

Данный параметр определяет минимальное снижение неоднородности
Узел будет разделен, если это разделение вызовет уменьшение неоднородности большее или равное указанному значению

ccp_alpha
(отсечение с минимизацией стоимости-сложности)
Метод отсечения дерева

Ручной ввод
По умолчанию — 0

Данный параметр регулирует количество отсекаемых узлов. Чем больше значение ccp_alpha, тем большее количество узлов удаляется из дерева


Результаты выполнения узла:


Узел «Дерево решений» имеет разные результаты в зависимости от решаемой задачи.
Результаты бинарной классификации представлены следующими объектами:

  • График ROC .

Пример графика ROC


  • График Lift.

Пример графика Lift


  • График Cumulative Lift.

Пример графика Cumulative Lift


  • График Gain.

Пример графика Gain


  • График Cumulative Gain.

Пример графика Cumulative Gain


  • Диаграмма дерева решений.

Пример графика дерева решений


  • Таблица с метриками качества модели.

Пример таблицы с метриками качества модели


  • Таблица с метриками качества модели для задачи классификации.

Пример таблицы с метриками качества модели для задачи классификации



  • Таблица со списком переменных, сортированных по важности.

Пример таблицы со списком переменных, отсортированных по важности


Результаты многоклассовой классификации представлены следующими объектами:

  • Диаграмма дерева решений.
  • Таблица с метриками качества модели.

Пример таблицы с метриками качества модели



  • Таблица с метриками качества модели для задачи классификации.

Пример таблицы с метриками качества модели для задачи классификации


  • Таблица со списком переменных, сортированных по важности.

Пример таблицы со списком переменных, сортированных по важности


Результаты регрессии представлены следующими объектами:

  • Тепловые карты обучающей, тестовой и валидационной выборок.

Пример тепловой карты на данных обучающей выборки


"Тепловыекартыотражающие корреляцию или ассоциацию типа хи-квадрат первоначальных значений с целевыми признаками по сегментам.

  • Диаграмма дерева решений.

Пример диаграммы дерева решений для задачи регрессии


  • Таблица с метриками качества модели.

Пример таблицы с метриками качества модели


  • Таблица со списком переменных, сортированных по важности (рисунок выше).
  • Нет меток