Узел «Биннинг_энкодинг»

Узел «Биннинг/энкодинг» включает в себя методы биннинга интервальных переменных и кодирования категориальных переменных.
Биннинг – процесс разделения диапазона непрерывной переменной на k интервалов. Может использоваться для сокращения размерности данных, что часто повышает точность модели.

Рисунок 93 — Пример биннинга по значениям переменной Y
Предусмотрены следующие методы бинаризации переменной:

Одинаковая ширина. Данная стратегия разделяет диапазон значений переменной на указанное количество равных интервалов.
Квантильный. Данная стратегия разделяет диапазон значений переменной таким образом, чтобы в каждый из них попало примерно одинаковое количество значений.
Дерево. Данная стратегия разделяет диапазон значений переменной с помощью дерева решений, что предполагает связь с целевой переменной.

Разбиение начинается со всех наблюдений, которые представлены корневым узлом дерева. Алгоритм разбивает этот родительский узел на дочерние узлы (и листья) таким образом, чтобы значения (уровни) целевой переменной в пределах каждого дочернего региона были максимально похожи (критерий разбиения задается в параметрах Критерий разбиения для регрессии и Критерий разбиения для классификации).
Соответственно, параметр Количество бинов равен Максимальной глубине дерева в исходном алгоритме дерева решений, а параметр Минимальное количество наблюдений – Минимальному количество наблюдений в листе дерева (подробнее про работу алгоритма в справке узла «Дерево решений»).
Если хотя бы для одной переменной используется бинаризация на основе дерева, то должна быть задана целевая переменная (задается в узле «Метаданные»).
Предусмотрены отдельные бины для пропущенных значений и значений вне диапазона (параметры Обработка пропущенных значений и Обработка значений вне диапазона).
Большинство алгоритмов машинного обучения не могут обрабатывать категориальные переменные. Энкодинг – процесс преобразования текстовых атрибутов в числовые значения.
Закодировать категориальные переменные в числовые можно четырьмя методами:

Количество (Count Encoding) – для каждой категории ставится количество наблюдений с этой категорией.
Частота (Freq Encoding) – для каждой категории ставится частота наблюдений с этой категорией.
Целевая ( Target Encoding) – для каждой категории ставится средневзвешенное среднего целевой на подвыборке соответствующей заданной категории и среднего целевой на всей обучающей выборке (train). Параметр веса рассчитывается через количество наблюдений в подвыборке, соответствующей заданной категории, и параметры Сдвига и Масштаба.

Для корректной работы необходимо указать целевую переменную (задается в узле «Метаданные»).

WOE (Weight of Evidence) – для каждой категории ставится WOE, рассчитанный для подвыборки, соответствующей выбранной категории. Математически WOE определяется как логарифм отношения доли «хороших» наблюдений к доле «плохих» наблюдений.

Для корректной работы необходимо указать целевую переменную (задается в узле «Метаданные»).
Предусмотрены Обработка пропущенных значений и Обработка неизвестных значений, которые зависят от выбранного метода энкодинга (подробнее в описании соответствующих параметров).
Если целевая переменная категориальная и в ней больше 2-х категорий, то кодировщики, основанные на целевой переменной (Target Encoding и WOE), исключают одну из категорий целевой переменной и для каждой из оставшихся рассматривают соответствующую задачу бинарной классификации (1 – выбранная категория, 0 – все остальные) и строятся по ней. Таким образом, если у целевой переменной K категорий, K > 2, то каждый кодировщик, основанный на целевой переменной, генерирует K - 1 столбцов в результатах.
Список параметров узла представлен в таблице (Таблица 18).
Таблица 18 — Параметры узла «Биннинг»

Параметр	Возможные значения и ограничения	Описание
Название	Ручной ввод Ограничений на значение нет	Название узла, которое будет отображаться в интерфейсе
Описание	Ручной ввод Ограничений на значение нет	Описание узла
Префикс выходных переменных	Ручной ввод По умолчанию — BIN_	Данный параметр задает префикс для выходных переменных узла Используется для биннинга интервальных переменных
Обработка значений вне диапазона	Раскрывающийся список со следующими значениями: Включить в крайние бины (по умолчанию) Отдельные бины Игнорировать	Данный параметр указывает что делать со значениями вне диапазона. Используется для биннинга интервальных переменных
Бин для пропущенных значений	Чекбокс	Выбор данного чекбокса указывает, что необходимо посчитать отдельный бин для пропущенных значений Используется для биннинга интервальных переменных
Переменные	Кнопка	Используется для биннинга интервальных переменных При выборе кнопки «Переменные» открывается окно Переменные, в котором необходимо выбрать переменные для биннинга и указать необходимые параметры. Параметр Метод задает метод, который будет использоваться для бинаризации переменной. Предусмотрены следующие методы: Одинаковая ширина (по умолчанию) Квантильный Дерево Параметр Количество бинов имеет значение по умолчанию, равное 10. Для метода Дерево значение должно быть больше или равно 2. Для остальных методов – больше или равно 1.
Минимальное количество наблюдений в бине	Ручной ввод целочисленного значения больше ли равно 1 По умолчанию — 1	Является дополнительным параметром для биннинга на основе дерева и задает минимальное количество наблюдений в бине
Критерий разбиения для регрессии	Раскрывающийся список со следующими значениями: squared error (по умолчанию) friedman mse absolute error poisson	Является дополнительным параметром для биннинга на основе дерева и задает критерий разбиения для регрессии. Предусмотрены следующие критерии: squared error (среднеквадратичная ошибка) friedman mse (среднеквадратичная ошибка с оценкой улучшения Фридмана) absolute error (средняя абсолютная ошибка) poisson (отклонение Пуассона)
Критерий разбиения для классификации	Раскрывающийся список со следующими значениями: gini (по умолчанию) entropy	Является дополнительным параметром для биннинга на основе дерева и задает критерий разбиения для классификации. Предусмотрены следующие критерии: gini (коэффициент Джини) entropy (критерий прироста информации, энтропия)
Префикс выходных переменных	Ручной ввод По умолчанию — ENC_	Данный параметр используется для кодирования категориальных переменных и задает префикс для выходных переменных узла
Обработка пропущенных значений	Раскрывающийся список со следующими значениями: Значение Пропуск	Данный параметр используется для кодирования категориальных переменных и задает метод обработки пропущенных значений. Предусмотрены следующие методы: Пропуск – будет поставлено NaN. Значение – зависит от выбранного метода энкодинга. Для Count и Freq Encoding – пропуск как отдельная категория, Target Encoding – среднее значение целевой переменной на обучающей выборке (train), WOE Encoding – значение 0.
Обработка неизвестных значений	Раскрывающийся список со следующими значениями: Значение Пропуск	Данный параметр используется для кодирования категориальных переменных и задает метод обработки неизвестных значений. Предусмотрены следующие методы: Пропуск – будет поставлено NaN. Значение – зависит от выбранного метода энкодинга. Для Count, Freq и WOE Encoding – значение 0, Target Encoding – среднее значение целевой переменной на обучающей выборке (train).
Минимальная частота значений	Ручной ввод Число больше или равно 0 и меньше или равно 1 По умолчанию — 0	Данный параметр используется для кодирования категориальных переменных и задаёт минимальный % значений с категорией для того, чтобы не считать её редкой. Все редкие категории собираются в одну категорию и при скоринге для всех редких категорий будет проставлено одно и то же значение. Пропущенные значение не входят в редкие категории.
Количество итераций кросс-валидации	Ручной ввод Число больше или равно 0 По умолчанию — 0	Данный параметр используется для кодирования категориальных переменных и задает количество итераций кросс-валидации. Кросс-валидация используется для борьбы с переобучением при использовании кодировщиков, основанных на целевой переменной (методы Target Encoding и WOE).
Переменные	Кнопка	Используется для кодирования категориальных переменных При выборе кнопки «Переменные» открывается окно Переменные, в котором необходимо выбрать переменные для энкодинга и указать необходимые параметры. Параметр Метод задает метод, который будет использоваться для энкодинга. Предусмотрены следующие методы: Количество (Count Encoding) Частота (Freq Encoding) Целевая (Target Encoding) WOE (Weight of Evidence)
Сдвиг	Ручной ввод По умолчанию — 1	Параметр для Target Encoding Данный параметр используется для кодирования категориальных переменных и задает сдвиг
Масштаб	Ручной ввод Число больше 0 По умолчанию — 0,001	Параметр для Target Encoding Данный параметр используется для кодирования категориальных переменных и задает масштаб
Рандомизация	Чекбокс	Параметр для WOE Encoding Выбор чекбокса указывает на необходимость рандомизации
Стандартное отклонение	Ручной ввод Число больше или равно 0 По умолчанию — 0,05	Параметр для WOE Encoding Данный параметр используется для кодирования категориальных переменных и задает стандартное отклонение
Регуляризация	Ручной ввод Число больше или равно 0 По умолчанию — 1	Параметр для WOE encoding Данный параметр используется для кодирования категориальных переменных и задает значение регуляризации

Результаты выполнения узла:

Таблица с примером данных (Рисунок 94). Отображаются первые 100 наблюдений.

Рисунок 94 — Таблица с примером данных
В результате выполнения узла в наборе данных будут рассчитаны новые переменные с указанными в параметрах префиксами и ролью Предиктор. Переменная, полученная в ходе биннинга, будет иметь тип Nominal, в ходе кодирования – Interval.

Таблица со статистиками биннинга (Рисунок 95)

Рисунок 95 — Пример таблицы со статистиками бинаризации

Таблица со статистиками кодирования (Рисунок 96)

Рисунок 96 — Пример таблицы со статистиками кодирования

Быстрые ссылки

Дерево страниц