Узел «Sample» позволяет сформировать репрезентативную выборку из исходного набора данных, а также скорректировать неравномерное распределение классов.
Предусмотрены два метода построения выборки:
- Простая случайная выборка — все наблюдения имеют одинаковую вероятность быть отобранными.
- Выборка со стратификацией — случайный отбор наблюдений производится в пределах каждого класса (т.е. с помощью стратификации можно избежать "непредставительной" выборки (когда в выборку попадают наблюдения только одной страты/класса) что не гарантируется простой случайной выборкой)
В задаче классификации данные называются несбалансированными, когда в обучающей выборке доли объектов разных классов существенно различаются.
Для корректировки неравномерного распределения классов предусмотрена субдискретизация (undersampling), которая заменяет больший класс подвыборкой по мощности равной малому классу (Рисунок 71).
Рисунок 71 — Принцип работы метода Undersampling
При выборе чекбокса Использовать undersampling параметр Доля наблюдений в выборке игнорируется.
Если выбраны Выборка со стратификацией и чекбокс Использовать undersampling, то стратификация делается отдельно для выборки с целевым классом и отдельно для выборки с прочими классами. При этом может получиться в целом нестратифицированная выборка, т.к. распределения переменных в выборке по целевому классу может отличаться от распределений во всей выборке.
Целевой класс задается в узле «Метаданные».
Если выбрать чекбокс Использовать Undersampling и Долю целевого класса в выборке задать меньше доли целевого класса во входных данных, то возникнет ошибка. Это связано с тем, что возможна ситуация, когда в выборке должно быть больше наблюдений с прочими классами, чем их есть во всем исходном наборе.
Список параметров узла представлен в таблице (Таблица 10).
Таблица 10 — Параметры узла «Sample»
Параметр |
Возможные значения и ограничения |
Описание |
---|---|---|
Название |
Ручной ввод |
Название узла, которое будет отображаться в интерфейсе |
Описание |
Ручной ввод |
Описание узла |
Метод построения выборки |
Раскрывающийся список со следующими значениями:
|
Метод разбиения исходного набора данных. Предусмотрены:
|
Доля наблюдений в выборке |
Ручной ввод числового значения |
Данный параметр задает долю наблюдений, которые попадут в выборку из входных данных |
Seed |
Ручной ввод числового значения |
Начальное числовое значение для генератора случайных чисел. |
Переменные для стратификации |
Поле выбора со списком переменных |
В случае выбора Выборки со стратификацией нужно указать переменную, по которой будет проводиться стратификация |
Использовать Undersampling |
Чекбокс |
Выбор данного чекбокса указывает на стратегию сэмплирования — субдискретизация, которая удаляет наблюдения из большего класса. |
Доля целевого класса относительно входных данных |
Ручной ввод числового значения |
Данный параметр задает долю целевого класса относительно входных данных |
Доля целевого класса в выборке |
Ручной ввод числового значения |
Данный параметр задает долю целевого класса в выборке |
Результаты выполнения узла:
- Таблица с примером данных (Рисунок 72). Отображаются первые 100 наблюдений.
Рисунок 72 — Таблица с примером данных
- Таблица с результатами сэмлирования (Рисунок 73, Рисунок 74)
Рисунок 73 — Пример таблицы с результатами сэмплирования
Рисунок 74 — Пример таблицы с результатами сэмплирования (с undersampling)
- Таблица с результатами стратификации (отображается при выборе метода построения выборки Выборка со стратификацией) (Рисунок 75)
Рисунок 75 — Пример таблицы с результатами стратификации
- Таблица с результатами стратификации для целевого класса (отображается при выборе чекбокса Использовать Undersampling и Выборке со стратификацией) (Рисунок 76)
Рисунок 76 — Пример таблицы с результатами стратификации для целевого класса
- Таблица с результатами стратификации для прочих классов (отображается при выборе чекбокса Использовать Undersampling и Выборке со стратификацией) (Рисунок 77)
Рисунок 77 — Пример таблицы с результатами стратификации для прочих классов