Узел «Sample»

Узел «Sample» позволяет сформировать репрезентативную выборку из исходного набора данных, а также скорректировать неравномерное распределение классов.
Предусмотрены два метода построения выборки:

Простая случайная выборка — все наблюдения имеют одинаковую вероятность быть отобранными.
Выборка со стратификацией — случайный отбор наблюдений производится в пределах каждого класса (т.е. с помощью стратификации можно избежать "непредставительной" выборки (когда в выборку попадают наблюдения только одной страты/класса) что не гарантируется простой случайной выборкой)

В задаче классификации данные называются несбалансированными, когда в обучающей выборке доли объектов разных классов существенно различаются.
Для корректировки неравномерного распределения классов предусмотрена субдискретизация (undersampling), которая заменяет больший класс подвыборкой по мощности равной малому классу (Рисунок 71).

Рисунок 71 — Принцип работы метода Undersampling
При выборе чекбокса Использовать undersampling параметр Доля наблюдений в выборке игнорируется.
Если выбраны Выборка со стратификацией и чекбокс Использовать undersampling, то стратификация делается отдельно для выборки с целевым классом и отдельно для выборки с прочими классами. При этом может получиться в целом нестратифицированная выборка, т.к. распределения переменных в выборке по целевому классу может отличаться от распределений во всей выборке.
Целевой класс задается в узле «Метаданные».
Если выбрать чекбокс Использовать Undersampling и Долю целевого класса в выборке задать меньше доли целевого класса во входных данных, то возникнет ошибка. Это связано с тем, что возможна ситуация, когда в выборке должно быть больше наблюдений с прочими классами, чем их есть во всем исходном наборе.
Список параметров узла представлен в таблице (Таблица 10).
Таблица 10 — Параметры узла «Sample»

Параметр	Возможные значения и ограничения	Описание
Название	Ручной ввод Ограничений на значения нет	Название узла, которое будет отображаться в интерфейсе
Описание	Ручной ввод Ограничений на значения нет	Описание узла
Метод построения выборки	Раскрывающийся список со следующими значениями: Простая случайная выборка Выборка со стратификацией	Метод разбиения исходного набора данных. Предусмотрены: Простая случайная выборка — все наблюдения имеют одинаковую вероятность быть отобранными Выборка со стратификацией — случайный отбор наблюдений производится в пределах каждого класса
Доля наблюдений в выборке	Ручной ввод числового значения Значение не должно быть больше 1 и меньше или равно 0 По умолчанию — 0,5	Данный параметр задает долю наблюдений, которые попадут в выборку из входных данных
Seed	Ручной ввод числового значения По умолчанию — 42	Начальное числовое значение для генератора случайных чисел. Используется для воспроизведения результатов при повторном запуске
Переменные для стратификации	Поле выбора со списком переменных	В случае выбора Выборки со стратификацией нужно указать переменную, по которой будет проводиться стратификация
Использовать Undersampling	Чекбокс	Выбор данного чекбокса указывает на стратегию сэмплирования — субдискретизация, которая удаляет наблюдения из большего класса.
Доля целевого класса относительно входных данных	Ручной ввод числового значения Значение не должно быть больше 1 и меньше или равно 0 По умолчанию — 1	Данный параметр задает долю целевого класса относительно входных данных
Доля целевого класса в выборке	Ручной ввод числового значения Значение не должно быть больше 1 и меньше или равно 0 По умолчанию — 0,2	Данный параметр задает долю целевого класса в выборке

Результаты выполнения узла:

Таблица с примером данных (Рисунок 72). Отображаются первые 100 наблюдений.

Рисунок 72 — Таблица с примером данных

Таблица с результатами сэмлирования (Рисунок 73, Рисунок 74)

Рисунок 73 — Пример таблицы с результатами сэмплирования

Рисунок 74 — Пример таблицы с результатами сэмплирования (с undersampling)

Таблица с результатами стратификации (отображается при выборе метода построения выборки Выборка со стратификацией) (Рисунок 75)

Рисунок 75 — Пример таблицы с результатами стратификации

Таблица с результатами стратификации для целевого класса (отображается при выборе чекбокса Использовать Undersampling и Выборке со стратификацией) (Рисунок 76)

Рисунок 76 — Пример таблицы с результатами стратификации для целевого класса

Таблица с результатами стратификации для прочих классов (отображается при выборе чекбокса Использовать Undersampling и Выборке со стратификацией) (Рисунок 77)

Рисунок 77 — Пример таблицы с результатами стратификации для прочих классов

Быстрые ссылки

Дерево страниц