Узел «Заполнение пропусков» обрабатывает пропущенные значения.
В зависимости от задачи Пользователь может использовать тот или иной метод заполнения отсутствующих элементов. Заменить пропуски можно на:
- Моду – наиболее часто встречающееся значение (подходит для категориальных переменных).
- Константу – выбранное Пользователем конкретное значение.
- Среднее – находится суммированием всех чисел в выборке и делением полученной суммы на количество чисел.
- Медиану – если взять все элементы множества и отсортировать, то это число делит множество пополам. Одна половина множества равна или больше этого числа, а другая меньше или равна этому числу.
- Минимум.
- Максимум.
Список параметров узла представлен в таблице ниже.
Параметр | Возможные значения и ограничения | Описание |
---|---|---|
Название | Ручной ввод | Название узла, которое будет отображаться в интерфейсе |
Описание | Ручной ввод | Описание узла |
Создать общий индикатор пропущенных значений | Чекбокс | Выбор данного чекбокса указывает на необходимость расчета общего для всех переменных набора данных индикатора пропущенных значений (столбца, в котором будет указано наличие или отсутствие пропущенных значений в наблюдении). |
Создать индивидуальные индикаторы пропущенных значений | Чекбокс | Выбор данного чекбокса указывает на необходимость расчета индивидуальных индикаторов пропущенных значений для выбранной далее переменной (для каждой из выбранных переменных будет посчитан свой столбец). |
Максимальная доля пропусков | Ручной ввод | Данный параметр указывает максимальную долю пропусков |
Выбор переменных для заполнения пропусков | Кнопка | При выборе кнопки откроется окно Выбор переменных для заполнения пропусков. |
Окно Выбор переменных для заполнения пропусков
В окне Выбор переменных для заполнения пропусков Пользователь может задать метод замены пропущенных данных (Рисунок 86). Для этого необходимо:
- Рядом с интересующей переменной выбрать иконку .
- В столбце Выбрать нажать на чекбокс и при необходимости изменить Стратегию заполнения.
- При выборе Стратегии заполнения константой нужно указать значение в соответствующем столбце Константа.
- Сохранить изменения, выбрав иконку .
Результаты выполнения узла:
- Таблица с примером данных. Отображаются первые 100 наблюдений.
В результате выполнения узла в наборе данных будут рассчитаны новые переменные с заполненными пропущенными значениями (с префиксом IMP_).
- Таблица с количеством пропусков по каждой переменной набора данных.
- Таблица замененных значений.