Вы просматриваете старую версию данной страницы. Смотрите текущую версию.

Сравнить с текущим просмотр истории страницы

« Предыдущий Версия 4 Следующий »

Узел «One-hot encoding» преобразует категориальные данные в числовую форму.

Многие алгоритмы не могут напрямую работать с категориальными переменными. Для этого предусмотрен метод One-hot encoding, который преобразует категориальные данные в числовую форму. Для этого создаются дополнительные столбцы-индикаторы наличия/отсутствия категории с помощью значений 1 или 0 соответственно. Таким образом, если категориальная переменная имеет k возможных значений, то на выходе получится k столбцов для ее представления. Алгоритмы машинного обучения могут принимать эти столбцы в качестве входных данных.


Принцип работы узла «One-hot encoding»



В кодировании One-Hot есть некоторая избыточность. Например, переменная «Пол» может принимать два значения - мужчина или женщина. При кодировании достаточно использовать в качестве предиктора лишь одну из этих двух фиктивных переменных. Для этого

Пользователю нужно выбрать чекбокс Исключить первую категорию или вручную указать исключаемую переменную в окне Выбор категории.


Список параметров узла представлен в таблице ниже.


Параметры узла «One-hot encoding»

Параметр

Возможные значения и ограничения

Описание

Название

Ручной ввод
Ограничений на значение нет

Название узла, которое будет отображаться в интерфейсе

Описание

Ручной ввод
Ограничений на значение нет

Описание узла

Исключить первую категорию

Чекбокс

Выбор данного чекбокса указывает методу на необходимость исключить первую категорию

Исключить оригинальную переменную

Чекбокс

Выбор данного чекбокса указывает методу на необходимость исключить оригинальную переменную (из которой были вычислены фиктивные переменные)

Выбор категории

Кнопка

При выборе кнопки откроется окно Выбор категории.



Окно Выбор категории

В окне Выбор категории Пользователь имеет возможность выбрать категориальную переменную для кодирования (Рисунок 83). Для этого необходимо:

  • Рядом с интересующей переменной выбрать иконку .
  • В столбце Выбрать выбрать чекбокс и при необходимости указать исключаемые из кодирования значения (перечислить через запятую).
  • Сохранить изменения, выбрав иконку .


Окно Выбор категории


Результаты выполнения узла:

  • Таблица с примером данных. Отображаются первые 100 наблюдений.


Таблица с примером посчитанных трех фиктивных переменных


  • Таблица с результатами кодирования.


Пример таблицы с результатами кодирования


В результате выполнения в выходных параметрах узла появятся столбцы-индикаторы с ролью первоначального столбца.

  • Нет меток