Вы просматриваете старую версию данной страницы. Смотрите текущую версию.

Сравнить с текущим просмотр истории страницы

Версия 1 Следующий »

Узел «Заполнение пропусков» обрабатывает пропущенные значения.
В зависимости от задачи Пользователь может использовать тот или иной метод заполнения отсутствующих элементов. Заменить пропуски можно на:

  • Моду – наиболее часто встречающееся значение (подходит для категориальных переменных).
  • Константу – выбранное Пользователем конкретное значение.
  • Среднее – находится суммированием всех чисел в выборке и делением полученной суммы на количество чисел.
  • Медиану – если взять все элементы множества и отсортировать, то это число делит множество пополам. Одна половина множества равна или больше этого числа, а другая меньше или равна этому числу.
  • Минимум.
  • Максимум.

Список параметров узла представлен в таблице (Таблица 15).
Таблица 15 — Параметры узла «Заполнение пропусков»

Параметр

Возможные значения и ограничения

Описание

Название

Ручной ввод
Ограничений на значение нет

Название узла, которое будет отображаться в интерфейсе

Описание

Ручной ввод
Ограничений на значение нет

Описание узла

Создать общий индикатор пропущенных значений

Чекбокс

Выбор данного чекбокса указывает на необходимость расчета общего для всех переменных набора данных индикатора пропущенных значений (столбца, в котором будет указано наличие или отсутствие пропущенных значений в наблюдении).
После успешного выполнения узла созданный индикатор можно найти по ссылке «Выходные параметры». Ему будет назначена роль Предиктора с типом Binary.

Создать индивидуальные индикаторы пропущенных значений

Чекбокс

Выбор данного чекбокса указывает на необходимость расчета индивидуальных индикаторов пропущенных значений для выбранной далее переменной (для каждой из выбранных переменных будет посчитан свой столбец).
После успешного выполнения узла созданный индикатор можно найти по ссылке «Выходные параметры». Ему будет назначена роль Предиктора с типом Binary.

Максимальная доля пропусков

Ручной ввод

Данный параметр указывает максимальную долю пропусков

Выбор переменных для заполнения пропусков

Кнопка

При выборе кнопки откроется окно Выбор переменных для заполнения пропусков.

Окно Выбор переменных для заполнения пропусков
В окне Выбор переменных для заполнения пропусков Пользователь может задать метод замены пропущенных данных (Рисунок 86). Для этого необходимо:

  • Рядом с интересующей переменной выбрать иконку .
  • В столбце Выбрать нажать на чекбокс и при необходимости изменить Стратегию заполнения.
    • При выборе Стратегии заполнения константой нужно указать значение в соответствующем столбце Константа.
  • Сохранить изменения, выбрав иконку .


Рисунок 86 — Окно Выбор переменных для заполнения пропусков
Результаты выполнения узла:

  • Таблица с примером данных (Рисунок 87). Отображаются первые 100 наблюдений.


Рисунок 87 — Окно Выбор переменных для заполнения пропусков
В результате выполнения узла в наборе данных будут рассчитаны новые переменные с заполненными пропущенными значениями (с префиксом IMP_).

  • Таблица с количеством пропусков по каждой переменной набора данных (Рисунок 88).


Рисунок 88 — Пример таблицы с количеством пропущенных значений по каждой переменной

  • Таблица замененных значений (Рисунок 89).


Рисунок 89 — Пример таблицы с заменными значениями

  • Нет меток