Узел «Заполнение пропусков» обрабатывает пропущенные значения.
В зависимости от задачи Пользователь может использовать тот или иной метод заполнения отсутствующих элементов. Заменить пропуски можно на:
- Моду – наиболее часто встречающееся значение (подходит для категориальных переменных).
- Константу – выбранное Пользователем конкретное значение.
- Среднее – находится суммированием всех чисел в выборке и делением полученной суммы на количество чисел.
- Медиану – если взять все элементы множества и отсортировать, то это число делит множество пополам. Одна половина множества равна или больше этого числа, а другая меньше или равна этому числу.
- Минимум.
- Максимум.
Список параметров узла представлен в таблице (Таблица 15).
Таблица 15 — Параметры узла «Заполнение пропусков»
Параметр |
Возможные значения и ограничения |
Описание |
---|---|---|
Название |
Ручной ввод |
Название узла, которое будет отображаться в интерфейсе |
Описание |
Ручной ввод |
Описание узла |
Создать общий индикатор пропущенных значений |
Чекбокс |
Выбор данного чекбокса указывает на необходимость расчета общего для всех переменных набора данных индикатора пропущенных значений (столбца, в котором будет указано наличие или отсутствие пропущенных значений в наблюдении). |
Создать индивидуальные индикаторы пропущенных значений |
Чекбокс |
Выбор данного чекбокса указывает на необходимость расчета индивидуальных индикаторов пропущенных значений для выбранной далее переменной (для каждой из выбранных переменных будет посчитан свой столбец). |
Максимальная доля пропусков |
Ручной ввод |
Данный параметр указывает максимальную долю пропусков |
Выбор переменных для заполнения пропусков |
Кнопка |
При выборе кнопки откроется окно Выбор переменных для заполнения пропусков. |
Окно Выбор переменных для заполнения пропусков
В окне Выбор переменных для заполнения пропусков Пользователь может задать метод замены пропущенных данных (Рисунок 86). Для этого необходимо:
- Рядом с интересующей переменной выбрать иконку .
- В столбце Выбрать нажать на чекбокс и при необходимости изменить Стратегию заполнения.
- При выборе Стратегии заполнения константой нужно указать значение в соответствующем столбце Константа.
- Сохранить изменения, выбрав иконку .
Рисунок 86 — Окно Выбор переменных для заполнения пропусков
Результаты выполнения узла:
- Таблица с примером данных (Рисунок 87). Отображаются первые 100 наблюдений.
Рисунок 87 — Окно Выбор переменных для заполнения пропусков
В результате выполнения узла в наборе данных будут рассчитаны новые переменные с заполненными пропущенными значениями (с префиксом IMP_).
- Таблица с количеством пропусков по каждой переменной набора данных (Рисунок 88).
Рисунок 88 — Пример таблицы с количеством пропущенных значений по каждой переменной
- Таблица замененных значений (Рисунок 89).
Рисунок 89 — Пример таблицы с заменными значениями