Узел «One-hot encoding» преобразует категориальные данные в числовую форму.
Многие алгоритмы не могут напрямую работать с категориальными переменными. Для этого предусмотрен метод One-hot encoding, который преобразует категориальные данные в числовую форму. Для этого создаются дополнительные столбцы-индикаторы наличия/отсутствия категории с помощью значений 1 или 0 соответственно. Таким образом, если категориальная переменная имеет k возможных значений, то на выходе получится k столбцов для ее представления. Алгоритмы машинного обучения могут принимать эти столбцы в качестве входных данных.
В кодировании One-Hot есть некоторая избыточность. Например, переменная «Пол» может принимать два значения - мужчина или женщина. При кодировании достаточно использовать в качестве предиктора лишь одну из этих двух фиктивных переменных. Для этого Пользователю нужно выбрать чекбокс Исключить первую категорию или вручную указать исключаемую переменную в окне Выбор категории.
Список параметров узла представлен в таблице ниже.
Параметр | Возможные значения и ограничения | Описание |
---|---|---|
Название | Ручной ввод | Название узла, которое будет отображаться в интерфейсе |
Описание | Ручной ввод | Описание узла |
Исключить первую категорию | Чекбокс | Выбор данного чекбокса указывает методу на необходимость исключить первую категорию |
Исключить оригинальную переменную | Чекбокс | Выбор данного чекбокса указывает методу на необходимость исключить оригинальную переменную (из которой были вычислены фиктивные переменные) |
Выбор категории | Кнопка | При выборе кнопки откроется окно Выбор категории. |
Окно Выбор категории
В окне Выбор категории Пользователь имеет возможность выбрать категориальную переменную для кодирования (Рисунок 83). Для этого необходимо:
- Рядом с интересующей переменной выбрать иконку .
- В столбце Выбрать выбрать чекбокс и при необходимости указать исключаемые из кодирования значения (перечислить через запятую).
- Сохранить изменения, выбрав иконку .
Результаты выполнения узла:
- Таблица с примером данных. Отображаются первые 100 наблюдений.
- Таблица с результатами кодирования.
В результате выполнения в выходных параметрах узла появятся столбцы-индикаторы с ролью первоначального столбца.