Узел «Биннинг/энкодинг» включает в себя методы биннинга интервальных переменных и кодирования категориальных переменных.
Биннинг – процесс разделения диапазона непрерывной переменной на k интервалов. Может использоваться для сокращения размерности данных, что часто повышает точность модели. Image Removed
Рисунок 93 —
Scroll Title |
---|
title-alignment | center |
---|
title | Пример биннинга по значениям переменной Y |
---|
|
Image Added |
Предусмотрены следующие методы бинаризации переменной:
...
Разбиение начинается со всех наблюдений, которые представлены корневым узлом дерева. Алгоритм разбивает этот родительский узел на дочерние узлы (и листья) таким образом, чтобы значения (уровни) целевой переменной в пределах каждого дочернего региона были максимально похожи (критерий разбиения задается в параметрах Критерий разбиения для регрессии и Критерий разбиения для классификации).
Соответственно, параметр Количество бинов равен Максимальной глубине дерева в исходном алгоритме дерева решений, а параметр Минимальное количество наблюдений – Минимальному количество наблюдений в листе дерева (подробнее про работу алгоритма в справке узла «Дерево решений»).
Если хотя бы для одной переменной используется бинаризация на основе дерева, то должна быть задана целевая переменная (задается в узле «Метаданные»).
Предусмотрены отдельные бины для пропущенных значений и значений вне диапазона (параметры Обработка пропущенных значений и Обработка значений вне диапазона).
Большинство алгоритмов машинного обучения не могут обрабатывать категориальные переменные. Энкодинг – процесс преобразования текстовых атрибутов в числовые значения.
Закодировать категориальные переменные в числовые можно четырьмя методами:
- Количество (Count Encoding) – для каждой категории ставится количество наблюдений с этой категорией.
- Частота (Freq Encoding) – для каждой категории ставится частота наблюдений с этой категорией.
- Целевая (
Якорь |
---|
OLE_LINK1 | OLE_LINK1 | Target Encoding) – для каждой категории ставится средневзвешенное среднего целевой на подвыборке соответствующей заданной категории и среднего целевой на всей обучающей выборке (train). Параметр веса рассчитывается через количество наблюдений в подвыборке, соответствующей заданной категории, и параметры Сдвига и Масштаба.
Информация |
---|
Для корректной работы необходимо указать целевую переменную (задается в узле «Метаданные»). |
- WOE (Weight of Evidence) – для каждой категории ставится WOE, рассчитанный для подвыборки, соответствующей выбранной категории. Математически WOE определяется как логарифм отношения доли «хороших» наблюдений к доле «плохих» наблюдений.
Для корректной работы необходимо указать целевую переменную (задается в узле «Метаданные»).
Предусмотрены Обработка пропущенных значений и Обработка неизвестных значений, которые зависят от выбранного метода энкодинга (подробнее в описании соответствующих параметров).
Если целевая переменная категориальная и в ней больше 2-х категорий, то кодировщики, основанные на целевой переменной (Target Encoding и WOE), исключают одну из категорий целевой переменной и для каждой из оставшихся рассматривают соответствующую задачу бинарной классификации (1 – выбранная категория, 0 – все остальные) и строятся по ней. Таким образом, если у целевой переменной K категорий, K > 2, то каждый кодировщик, основанный на целевой переменной, генерирует K - 1 столбцов в результатах.
Список параметров узла представлен в таблице (Таблица 18).
Якорь |
---|
_Ref91675987 | _Ref91675987 | Таблица 18 — .
Scroll Title |
---|
title-position | top |
---|
title-alignment | right |
---|
title | Параметры узла «Биннинг» |
---|
|
Параметр | Возможные значения и ограничения | Описание |
---|
Название | Ручной ввод Ограничений на значение нет | Название узла, которое будет отображаться в интерфейсе | Описание | Ручной ввод Ограничений на значение нет | Описание узла | Префикс выходных переменных | Ручной ввод По умолчанию — BIN_ | Данный параметр задает префикс для выходных переменных узла Используется для биннинга интервальных переменных | Обработка значений вне диапазона | Раскрывающийся список со следующими значениями: - Включить в крайние бины (по умолчанию)
- Отдельные бины
- Игнорировать
| Данный параметр указывает что делать со значениями вне диапазона. Используется для биннинга интервальных переменных | Бин для пропущенных значений | Чекбокс | Выбор данного чекбокса указывает, что необходимо посчитать отдельный бин для пропущенных значений Используется для биннинга интервальных переменных | Переменные | Кнопка | Используется для биннинга интервальных переменных При выборе кнопки «Переменные» открывается окно Переменные, в котором необходимо выбрать переменные для биннинга и указать необходимые параметры. Параметр Метод задает метод, который будет использоваться для бинаризации переменной. Предусмотрены следующие методы: - Одинаковая ширина (по умолчанию)
- Квантильный
- Дерево
Параметр Количество бинов имеет значение по умолчанию, равное 10. Для метода Дерево значение должно быть больше или равно 2. Для остальных методов – больше или равно 1.
| Минимальное количество наблюдений в бине | Ручной ввод целочисленного значения больше ли равно 1 По умолчанию — 1 | Является дополнительным параметром для биннинга на основе дерева и задает минимальное количество наблюдений в бине | Критерий разбиения для регрессии | Раскрывающийся список со следующими значениями: - squared error (по умолчанию)
- friedman mse
- absolute error
- poisson
| Является дополнительным параметром для биннинга на основе дерева и задает критерий разбиения для регрессии. Предусмотрены следующие критерии: - squared error (среднеквадратичная ошибка)
- friedman mse (среднеквадратичная ошибка с оценкой улучшения Фридмана)
- absolute error (средняя абсолютная ошибка)
- poisson (отклонение Пуассона)
| Критерий разбиения для классификации | Раскрывающийся список со следующими значениями: - gini (по умолчанию)
- entropy
| Является дополнительным параметром для биннинга на основе дерева и задает критерий разбиения для классификации. Предусмотрены следующие критерии: - gini (коэффициент Джини)
- entropy (критерий прироста информации, энтропия)
| Префикс выходных переменных | Ручной ввод По умолчанию — ENC_ | Данный параметр используется для кодирования категориальных переменных и задает префикс для выходных переменных узла | Обработка пропущенных значений | Раскрывающийся список со следующими значениями: | Данный параметр используется для кодирования категориальных переменных и задает метод обработки пропущенных значений. Предусмотрены следующие методы: - Пропуск – будет поставлено NaN.
- Значение – зависит от выбранного метода энкодинга. Для Count и Freq Encoding – пропуск как отдельная категория, Target Encoding – среднее значение целевой переменной на обучающей выборке (train), WOE Encoding – значение 0.
| Обработка неизвестных значений | Раскрывающийся список со следующими значениями: | Данный параметр используется для кодирования категориальных переменных и задает метод обработки неизвестных значений. Предусмотрены следующие методы: - Пропуск – будет поставлено NaN.
- Значение – зависит от выбранного метода энкодинга. Для Count, Freq и WOE Encoding – значение 0, Target Encoding – среднее значение целевой переменной на обучающей выборке (train).
| Минимальная частота значений | Ручной ввод Число больше или равно 0 и меньше или равно 1 По умолчанию — 0 | Данный параметр используется для кодирования категориальных переменных и задаёт минимальный % значений с категорией для того, чтобы не считать её редкой. Все редкие категории собираются в одну категорию и при скоринге для всех редких категорий будет проставлено одно и то же значение. Пропущенные |
|
...
значения не входят в редкие категории. | Количество итераций кросс-валидации | Ручной ввод Число больше или равно 0 По умолчанию — 0 | Данный параметр используется для кодирования категориальных переменных и задает количество итераций кросс-валидации. Кросс-валидация используется для борьбы с переобучением при использовании кодировщиков, основанных на целевой переменной (методы Target Encoding и WOE). | Переменные | Кнопка | Используется для кодирования категориальных переменных При выборе кнопки «Переменные» открывается окно Переменные, в котором необходимо выбрать переменные для энкодинга и указать необходимые параметры. Параметр Метод задает метод, который будет использоваться для энкодинга. Предусмотрены следующие методы: - Количество (Count Encoding)
- Частота (Freq Encoding)
- Целевая (Target Encoding)
- WOE (Weight of Evidence)
| Сдвиг | Ручной ввод По умолчанию — 1 | Параметр для Target Encoding Данный параметр используется для кодирования категориальных переменных и задает сдвиг | Масштаб | Ручной ввод Число больше 0 По умолчанию — 0,001 | Параметр для Target Encoding Данный параметр используется для кодирования категориальных переменных и задает масштаб | Рандомизация | Чекбокс | Параметр для WOE Encoding Выбор чекбокса указывает на необходимость рандомизации | Стандартное отклонение | Ручной ввод Число больше или равно 0 По умолчанию — 0,05 | Параметр для WOE Encoding Данный параметр используется для кодирования категориальных переменных и задает стандартное отклонение | Регуляризация | Ручной ввод Число больше или равно 0 По умолчанию — 1 | Параметр для WOE encoding Данный параметр используется для кодирования категориальных переменных и задает значение регуляризации |
|
Результаты выполнения узла:
- Таблица с примером данных (Рисунок 94). Отображаются первые 100 наблюдений.
...
...
Scroll Title |
---|
title-alignment | center |
---|
title | Таблица с примером данных |
---|
|
Image Added |
В результате выполнения узла в наборе данных будут рассчитаны новые переменные с указанными в параметрах префиксами и ролью Предиктор. Переменная, полученная в ходе биннинга, будет иметь тип Nominal, в ходе кодирования – Interval.
...
- Таблица со статистиками биннинга (Рисунок 95)
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример таблицы со статистиками бинаризации |
---|
|
Image Added |
- Таблица со статистиками кодирования (Рисунок 96)
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример таблицы со статистиками кодирования |
---|
|
Image Added |