Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

...

  • Ограничить максимальную глубину дерева (параметр Максимальная глубина)
  • Ограничить минимальное число объектов листе (параметр Минимальное количество наблюдений в листе)
  • Ограничить максимальное количества листьев в дереве (параметр Максимальное количество листов)
  • Требование, что функционал качества при дроблении улучшался как минимум на n процентов (параметр Минимальное снижение неоднородности)


Список параметров узла представлен в таблице ниже.

Scroll Title
title-positiontop
title-alignmentright
titleПараметры узла «Дерево решений»

Параметр

Возможные значения и ограничения

Описание

Название

Ручной ввод
Ограничений на значение нет

Название узла, которое будет отображаться в интерфейсе

Описание

Ручной ввод
Ограничений на значение нет

Описание узла

Критерий разбиения для классификации

Раскрывающийся список со следующими значениями:

  • gini (по умолчанию)
  • entropy

Данный параметр задает критерий разбиения на узлы для классификации. Предусмотрены следующие критерии:

  • gini (неопределенность Джини) –направлен на максимизацию количества пар объектов, одного класса, оказавшихся в одном поддереве.
  • entropy (критерий прироста информации, энтропия) – направлен на максимизацию прироста информации

Критерий разбиения для регрессии

Раскрывающийся список со следующими значениями:

  • squared error (по умолчанию)
  • friedman mse
  • absolute error
  • poisson

Данный параметр задает критерий разбиения для регрессионной задачи. Предусмотрены следующие критерии:

  • squared error (среднеквадратичная ошибка)
  • friedman mse (среднеквадратичная ошибка с оценкой улучшения Фридмана)
  • absolute error (средняя абсолютная ошибка)
  • poisson (отклонение Пуассона)

Стратегия разбиения

Раскрывающийся список со следующими значениями:

  • best (по умолчанию)
  • random

Данный параметр задает стратегию разделения на каждом узле. Предусмотрены следующие стратегии:

  • best – выбор наилучшей функции сегментации и точки сегментации
  • random – случайное разделение

Максимальная глубина

Ручной ввод
Неотрицательное число
По умолчанию — 5

Данный параметр задает максимальную глубину дерева, после достижения которой алгоритм останавливает работу

Минимальное количество наблюдений для разбиения

Ручной ввод
Неотрицательное число
По умолчанию — 2

Данный параметр задает минимальное количество наблюдений, которое должно быть в разбиении

Минимальное количество наблюдений в листе

Ручной ввод
Неотрицательное число
По умолчанию — 5

Данный параметр задает минимальное количество наблюдений, которое может быть в листе

Минимальная доля веса наблюдений в листе

Ручной ввод
Неотрицательное число
По умолчанию — 0

Данный параметр определяет минимальный весовой коэффициент выборки в листовом узле. По умолчанию наблюдения имеют одинаковый вес

Максимальное количество признаков

Раскрывающийся список со следующими значениями:

  • all (по умолчанию)
  • sqrt
  • log2
  • number
  • frac

Данный параметр определяет максимальное количество признаков, которое будет учитываться при поиске лучшего разделения. Предусмотрены следующие варианты:

  • all – учитывать все доступные признаки
  • sqrt – учитывать sqrt(число всех доступных признаков)
  • log2 – учитывать log2(число всех доступных признаков)
  • number – учитывать указанное число признаков
  • frac – учитывать int(указанное число * число всех доступных признаков)
    При выборе number или frac появится дополнительный параметр Число (вводится int) и Frac (вводится float) соответственно.

Seed

Ручной ввод
По умолчанию — 12345

Начальное числовое значение для генератора случайных чисел

Максимальное количество листов

Ручной ввод
Неотрицательное число

Данный параметр определяет максимальное количество листов в дереве

Минимальное снижение неоднородности

Ручной ввод
Неотрицательное число
По умолчанию — 0

Данный параметр определяет минимальное снижение неоднородности
Узел будет разделен, если это разделение вызовет уменьшение неоднородности большее или равное указанному значению

ccp_alpha
(отсечение с минимизацией стоимости-сложности)
Метод отсечения дерева

Ручной ввод
По умолчанию — 0

Данный параметр регулирует количество отсекаемых узлов. Чем больше значение ccp_alpha, тем большее количество узлов удаляется из дерева


Результаты выполнения узла:


Узел «Дерево решений» имеет разные результаты в зависимости от решаемой задачи.
Результаты бинарной классификации представлены следующими объектами:

  • График ROC .

...

Scroll Title
title-alignmentcenter
titleПример графика ROC

Image Added


  • График Lift.

...

Scroll Title
title-alignmentcenter
titleПример графика Lift

Image Added


  • График Cumulative Lift.

...

Scroll Title
title-alignmentcenter
titleПример графика Cumulative Lift

Image Added


  • График Gain.

...

Scroll Title
title-alignmentcenter
title Пример графика Gain

Image Added


  • График Cumulative Gain (Рисунок 131).

...

Scroll Title
title-alignmentcenter
titleПример графика Cumulative Gain

Image Added


  • Диаграмма дерева решений (Рисунок 132).

...

Scroll Title
title-alignmentcenter
titleПример графика дерева решений

Image Added


  • Таблица с метриками качества модели (Рисунок 133).

...

Scroll Title
title-alignmentcenter
title Пример таблицы с метриками качества модели

Image Added


  • Таблица с метриками качества модели для задачи классификации (Рисунок 134).

...

Scroll Title
title-alignmentcenter
titleПример таблицы с метриками качества модели для задачи классификации

Image Added



  • Таблица со списком переменных, сортированных по важности (Рисунок 135).

...

Scroll Title
title-alignmentcenter
title Пример таблицы со списком переменных, отсортированных по важности

Image Added


Результаты многоклассовой классификации представлены следующими объектами:

  • Диаграмма дерева решений (аналогично Рисунок 132).
  • Таблица с метриками качества модели (Рисунок 136).

...

Scroll Title
title-alignmentcenter
title Пример таблицы с метриками качества модели

Image Added



  • Таблица с метриками качества модели для задачи классификации (Рисунок 137).

...

Scroll Title
title-alignmentcenter
title Пример таблицы с метриками качества модели для задачи классификации

Image Added


  • Таблица со списком переменных, сортированных по важности (Рисунок 138).

...

Scroll Title
title-alignmentcenter
titleПример таблицы со списком переменных, сортированных по важности

Image Added


Результаты регрессии представлены следующими объектами:

  • Тепловые карты обучающей, тестовой и валидационной выборок (Рисунок 139).

...

Scroll Title
title-alignmentcenter
title Пример тепловой карты на данных обучающей выборки

Image Added


"Тепловыекартыотражающие корреляцию или ассоциацию типа хи-квадрат первоначальных значений с целевыми признаками по сегментам.

  • Диаграмма дерева решений (Рисунок 140)

...

  • .
Scroll Title
title-alignmentcenter
title Пример диаграммы дерева решений для задачи регрессии

Image Added


  • Таблица с метриками качества модели (Рисунок 141).

...

Scroll Title
title-alignmentcenter
titleПример таблицы с метриками качества модели

Image Added


  • Таблица со списком переменных, сортированных по важности (Рисунок 138рисунок выше).