Узел «One-hot encoding» преобразует категориальные данные в числовую форму.
Многие алгоритмы не могут напрямую работать с категориальными переменными. Для этого предусмотрен метод One-hot encoding, который преобразует категориальные данные в числовую форму. Для этого создаются дополнительные столбцы-индикаторы наличия/отсутствия категории с помощью значений 1 или 0 соответственно. Таким образом, если категориальная переменная имеет k возможных значений, то на выходе получится k столбцов для ее представления. Алгоритмы машинного обучения могут принимать эти столбцы в качестве входных данных.
...
В кодировании One-Hot есть некоторая избыточность. Например, переменная «Пол» может принимать два значения - мужчина или женщина. При кодировании достаточно использовать в качестве предиктора лишь одну из этих двух фиктивных переменных. Для этого
Пользователю нужно выбрать чекбокс Исключить первую категорию или вручную указать исключаемую переменную в окне Выбор категории.
...
Scroll Title | |||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| |||||||||||||||||||
|
Окно Выбор категории
В окне Выбор категории Пользователь имеет возможность выбрать категориальную переменную для кодирования (Рисунок 83). Для этого необходимо:
...