Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

Узел «One-hot encoding» преобразует категориальные данные в числовую форму.

Многие алгоритмы не могут напрямую работать с категориальными переменными. Для этого предусмотрен метод One-hot encoding, который преобразует категориальные данные в числовую форму. Для этого создаются дополнительные столбцы-индикаторы наличия/отсутствия категории с помощью значений 1 или 0 соответственно (Рисунок 82). Таким образом, если категориальная переменная имеет k возможных имеет k возможных значений, то на выходе получится k столбцов получится k столбцов для ее представления. Алгоритмы машинного обучения могут принимать эти столбцы в качестве входных данных. Image Removed
Якорь_Ref91751171_Ref91751171Рисунок 82 —

Scroll Title
title-alignmentcenter
titleПринцип работы узла «One-hot encoding»

Image Added

В кодировании One-Hot есть некоторая избыточность. Например, переменная «Пол» может принимать два значения - мужчина или женщина. При кодировании достаточно использовать в качестве предиктора лишь одну из этих двух фиктивных переменных. Для этого

Пользователю нужно выбрать чекбокс Исключить первую категорию или вручную указать исключаемую переменную в окне Выбор категории.

Список параметров узла представлен в таблице (Таблица 14).
Якорь_Ref91594513_Ref91594513Таблица 14 — ниже.

Scroll Title
title-positiontop
title-alignmentright
titleПараметры узла «One-hot encoding»

Параметр

Возможные значения и ограничения

Описание

Название

Ручной ввод
Ограничений на значение нет

Название узла, которое будет отображаться в интерфейсе

Описание

Ручной ввод
Ограничений на значение нет

Описание узла

Исключить первую категорию

Чекбокс

Выбор данного чекбокса указывает методу на необходимость исключить первую категорию

Исключить оригинальную переменную

Чекбокс

Выбор данного чекбокса указывает методу на необходимость исключить оригинальную переменную

...

, на основе которой были вычислены фиктивные, из дальнейшего процесса моделирования. В окне Выходные переменные Роль данного атрибута изменится на Исключен (Excluded) (про Роли переменной подробнее Узел «Метаданные»).

Выбор категории

Кнопка

При выборе кнопки откроется окно Выбор категории.

Окно Выбор категории

В окне Выбор категории Пользователь имеет возможность выбрать категориальную переменную для кодирования (Рисунок 83). Для этого необходимо:

  • Рядом с интересующей переменной выбрать иконку Image Removed Image Added .
  • В столбце Выбрать выбрать чекбокс и при необходимости указать исключаемые из кодирования значения (перечислить через запятую).
  • Сохранить изменения, выбрав иконку Image Removed Image Added .

...

Scroll Title
title-alignmentcenter
titleОкно Выбор категории

Image Added


Результаты выполнения узла:

  • Таблица с примером данных (Рисунок 84). Отображаются первые 100 наблюдений.

...

Scroll Title
title-alignmentcenter
titleТаблица с примером посчитанных трех фиктивных переменных

Image Added


  • Таблица с результатами кодирования (Рисунок 85).

...

Scroll Title
title-alignmentcenter
titleПример таблицы с результатами кодирования

Image Added

В результате выполнения в выходных параметрах узла появятся столбцы-индикаторы с ролью первоначального столбца.