Узел «One-hot encoding» преобразует категориальные данные в числовую форму.
Многие алгоритмы не могут напрямую работать с категориальными переменными. Для этого предусмотрен метод One-hot encoding, который преобразует категориальные данные в числовую форму. Для этого создаются дополнительные столбцы-индикаторы наличия/отсутствия категории с помощью значений 1 или 0 соответственно (Рисунок 82). Таким образом, если категориальная переменная имеет k возможных имеет k возможных значений, то на выходе получится k столбцов получится k столбцов для ее представления. Алгоритмы машинного обучения могут принимать эти столбцы в качестве входных данных. Image Removed
Якорь |
---|
_Ref91751171 | _Ref91751171 | Рисунок 82 —
Scroll Title |
---|
title-alignment | center |
---|
title | Принцип работы узла «One-hot encoding» |
---|
|
Image Added |
В кодировании One-Hot есть некоторая избыточность. Например, переменная «Пол» может принимать два значения - мужчина или женщина. При кодировании достаточно использовать в качестве предиктора лишь одну из этих двух фиктивных переменных. Для этого Пользователю нужно выбрать чекбокс Исключить первую категорию или вручную указать исключаемую переменную в окне Выбор категории.
Список параметров узла представлен в таблице (Таблица 14).
Якорь |
---|
_Ref91594513 | _Ref91594513 | Таблица 14 — ниже.
Scroll Title |
---|
title-position | top |
---|
title-alignment | right |
---|
title | Параметры узла «One-hot encoding» |
---|
|
Параметр | Возможные значения и ограничения | Описание |
---|
Название | Ручной ввод Ограничений на значение нет | Название узла, которое будет отображаться в интерфейсе | Описание | Ручной ввод Ограничений на значение нет | Описание узла | Исключить первую категорию | Чекбокс | Выбор данного чекбокса указывает методу на необходимость исключить первую категорию | Исключить оригинальную переменную | Чекбокс | Выбор данного чекбокса указывает методу на необходимость исключить оригинальную переменную (из которой были вычислены фиктивные переменные) | Выбор категории | Кнопка | При выборе кнопки откроется окно Выбор категории. |
|
Окно Выбор категории
В окне Выбор категории Пользователь имеет возможность выбрать категориальную переменную для кодирования (Рисунок 83). Для этого необходимо:
- Рядом с интересующей переменной выбрать иконку Image Removed Image Added .
- В столбце Выбрать выбрать чекбокс и при необходимости указать исключаемые из кодирования значения (перечислить через запятую).
- Сохранить изменения, выбрав иконку Image Removed Image Added .
...
Scroll Title |
---|
title-alignment | center |
---|
title | Окно Выбор категории |
---|
|
Image Added |
Результаты выполнения узла:
- Таблица с примером данных (Рисунок 84). Отображаются первые 100 наблюдений.
...
Scroll Title |
---|
title-alignment | center |
---|
title | Таблица с примером посчитанных трех фиктивных переменных |
---|
|
Image Added |
- Таблица с результатами кодирования (Рисунок 85).
...
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример таблицы с результатами кодирования |
---|
|
Image Added |
В результате выполнения в выходных параметрах узла появятся столбцы-индикаторы с ролью первоначального столбца.