Узел «One-hot encoding» преобразует категориальные данные в числовую форму.
Многие алгоритмы не могут напрямую работать с категориальными переменными. Для этого предусмотрен метод One-hot encoding, который преобразует категориальные данные в числовую форму. Для этого создаются дополнительные столбцы-индикаторы наличия/отсутствия категории с помощью значений 1 или 0 соответственно (Рисунок 82). Таким образом, если категориальная переменная имеет k возможных значений, то на выходе получится k столбцов для ее представления. Алгоритмы машинного обучения могут принимать эти столбцы в качестве входных данных.
Рисунок 82 — Принцип работы узла «One-hot encoding»
В кодировании One-Hot есть некоторая избыточность. Например, переменная «Пол» может принимать два значения - мужчина или женщина. При кодировании достаточно использовать в качестве предиктора лишь одну из этих двух фиктивных переменных. Для этого Пользователю нужно выбрать чекбокс Исключить первую категорию или вручную указать исключаемую переменную в окне Выбор категории.
Список параметров узла представлен в таблице (Таблица 14).
Таблица 14 — Параметры узла «One-hot encoding»
Параметр |
Возможные значения и ограничения |
Описание |
---|---|---|
Название |
Ручной ввод |
Название узла, которое будет отображаться в интерфейсе |
Описание |
Ручной ввод |
Описание узла |
Исключить первую категорию |
Чекбокс |
Выбор данного чекбокса указывает методу на необходимость исключить первую категорию |
Исключить оригинальную переменную |
Чекбокс |
Выбор данного чекбокса указывает методу на необходимость исключить оригинальную переменную (из которой были вычислены фиктивные переменные) |
Выбор категории |
Кнопка |
При выборе кнопки откроется окно Выбор категории. |
Окно Выбор категории
В окне Выбор категории Пользователь имеет возможность выбрать категориальную переменную для кодирования (Рисунок 83). Для этого необходимо:
- Рядом с интересующей переменной выбрать иконку .
- В столбце Выбрать выбрать чекбокс и при необходимости указать исключаемые из кодирования значения (перечислить через запятую).
- Сохранить изменения, выбрав иконку .
Рисунок 83 — Окно Выбор категории
Результаты выполнения узла:
- Таблица с примером данных (Рисунок 84). Отображаются первые 100 наблюдений.
Рисунок 84 — Таблица с примером посчитанных трех фиктивных переменных
- Таблица с результатами кодирования (Рисунок 85).
Рисунок 85 — Пример таблицы с результатами кодирования
В результате выполнения в выходных параметрах узла появятся столбцы-индикаторы с ролью первоначального столбца.