...
Разбиение начинается со всех наблюдений, которые представлены корневым узлом дерева. Алгоритм разбивает этот родительский узел на дочерние узлы (и листья) таким образом, чтобы значения (уровни) целевой переменной в пределах каждого дочернего региона были максимально похожи (критерий разбиения задается в параметрах Критерий разбиения для регрессии и Критерий разбиения для классификации).
Соответственно, параметр Количество бинов равен Максимальной глубине дерева в исходном алгоритме дерева решений, а параметр Минимальное количество наблюдений – Минимальному количество наблюдений в листе дерева (подробнее про работу алгоритма в справке узла «Дерево решений»).
Если хотя бы для одной переменной используется бинаризация на основе дерева, то должна быть задана целевая переменная (задается в узле «Метаданные»).
Предусмотрены отдельные бины для пропущенных значений и значений вне диапазона (параметры Обработка пропущенных значений и Обработка значений вне диапазона).
Большинство алгоритмов машинного обучения не могут обрабатывать категориальные переменные. Энкодинг – процесс преобразования текстовых атрибутов в числовые значения.
Закодировать категориальные переменные в числовые можно четырьмя методами:
- Количество (Count Encoding) – для каждой категории ставится количество наблюдений с этой категорией.
- Частота (Freq Encoding) – для каждой категории ставится частота наблюдений с этой категорией.
- Целевая (Target Encoding) – для каждой категории ставится средневзвешенное среднего целевой на подвыборке соответствующей заданной категории и среднего целевой на всей обучающей выборке (train). Параметр веса рассчитывается через количество наблюдений в подвыборке, соответствующей заданной категории, и параметры Сдвига и Масштаба.
Информация |
---|
Для корректной работы необходимо указать целевую переменную (задается в узле «Метаданные»). |
- WOE (Weight of Evidence) – для каждой категории ставится WOE, рассчитанный для подвыборки, соответствующей выбранной категории. Математически WOE определяется как логарифм отношения доли «хороших» наблюдений к доле «плохих» наблюдений.
Для корректной работы необходимо указать целевую переменную (задается в узле «Метаданные»).
Предусмотрены Обработка пропущенных значений и Обработка неизвестных значений, которые зависят от выбранного метода энкодинга (подробнее в описании соответствующих параметров).
Если целевая переменная категориальная и в ней больше 2-х категорий, то кодировщики, основанные на целевой переменной (Target Encoding и WOE), исключают одну из категорий целевой переменной и для каждой из оставшихся рассматривают соответствующую задачу бинарной классификации (1 – выбранная категория, 0 – все остальные) и строятся по ней. Таким образом, если у целевой переменной K категорий, K > 2, то каждый кодировщик, основанный на целевой переменной, генерирует K - 1 столбцов в результатах.
...