Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

...

Разбиение начинается со всех наблюдений, которые представлены корневым узлом дерева. Алгоритм разбивает этот родительский узел на дочерние узлы (и листья) таким образом, чтобы значения (уровни) целевой переменной в пределах каждого дочернего региона были максимально похожи (критерий разбиения задается в параметрах Критерий разбиения для регрессии и Критерий разбиения для классификации).

Соответственно, параметр Количество бинов равен Максимальной глубине дерева в исходном алгоритме дерева решений, а параметр Минимальное количество наблюденийМинимальному количество наблюдений в листе дерева (подробнее про работу алгоритма в справке узла «Дерево решений»).

Если хотя бы для одной переменной используется бинаризация на основе дерева, то должна быть задана целевая переменная (задается в узле «Метаданные»).

Предусмотрены отдельные бины для пропущенных значений и значений вне диапазона (параметры Обработка пропущенных значений и Обработка значений вне диапазона).

Большинство алгоритмов машинного обучения не могут обрабатывать категориальные переменные. Энкодинг – процесс преобразования текстовых атрибутов в числовые значения.

Закодировать категориальные переменные в числовые можно четырьмя методами:

  • Количество (Count Encoding) – для каждой категории ставится количество наблюдений с этой категорией.
  • Частота (Freq Encoding) – для каждой категории ставится частота наблюдений с этой категорией.
  • Целевая (Target Encoding) – для каждой категории ставится средневзвешенное среднего целевой на подвыборке соответствующей заданной категории и среднего целевой на всей обучающей выборке (train). Параметр веса рассчитывается через количество наблюдений в подвыборке, соответствующей заданной категории, и параметры Сдвига и Масштаба.
Информация
Для корректной работы необходимо указать целевую переменную (задается в узле «Метаданные»).
  • WOE (Weight of Evidence) – для каждой категории ставится WOE, рассчитанный для подвыборки, соответствующей выбранной категории. Математически WOE определяется как логарифм отношения доли «хороших» наблюдений к доле «плохих» наблюдений.

Для корректной работы необходимо указать целевую переменную (задается в узле «Метаданные»).

Предусмотрены Обработка пропущенных значений и Обработка неизвестных значений, которые зависят от выбранного метода энкодинга (подробнее в описании соответствующих параметров).

Если целевая переменная категориальная и в ней больше 2-х категорий, то кодировщики, основанные на целевой переменной (Target Encoding и WOE), исключают одну из категорий целевой переменной и для каждой из оставшихся рассматривают соответствующую задачу бинарной классификации (1 – выбранная категория, 0 – все остальные) и строятся по ней. Таким образом, если у целевой переменной K категорий, K > 2, то каждый кодировщик, основанный на целевой переменной, генерирует K - 1 столбцов в результатах.

...