Узел «Sample» позволяет сформировать репрезентативную выборку из исходного набора данных, а также скорректировать неравномерное распределение классов.
Предусмотрены два метода построения выборки:
- Простая случайная выборка — все наблюдения имеют одинаковую вероятность быть отобранными.
- Выборка со стратификацией — случайный отбор наблюдений производится в пределах каждого класса (т.е. с помощью стратификации можно избежать "непредставительной" выборки (когда в выборку попадают наблюдения только одной страты/класса) что не гарантируется простой случайной выборкой)
В задаче классификации данные называются несбалансированными, когда в обучающей выборке доли объектов разных классов существенно различаются.
Для корректировки неравномерного распределения классов предусмотрена субдискретизация (undersampling), которая заменяет больший класс подвыборкой по мощности равной малому классу.
При выборе чекбокса Использовать undersampling параметр Доля наблюдений в выборке игнорируется.
Если выбраны Выборка со стратификацией и чекбокс Использовать undersampling, то стратификация делается отдельно для выборки с целевым классом и отдельно для выборки с прочими классами. При этом может получиться в целом нестратифицированная выборка, т.к. распределения переменных в выборке по целевому классу может отличаться от распределений во всей выборке.
Целевой класс задается в узле «Метаданные».
Если выбрать чекбокс Использовать Undersampling и Долю целевого класса в выборке задать меньше доли целевого класса во входных данных, то возникнет ошибка. Это связано с тем, что возможна ситуация, когда в выборке должно быть больше наблюдений с прочими классами, чем их есть во всем исходном наборе.
Список параметров узла представлен в таблице ниже.
Параметр | Возможные значения и ограничения | Описание |
---|---|---|
Название | Ручной ввод | Название узла, которое будет отображаться в интерфейсе |
Описание | Ручной ввод | Описание узла |
Метод построения выборки | Раскрывающийся список со следующими значениями:
| Метод разбиения исходного набора данных. Предусмотрены:
|
Доля наблюдений в выборке | Ручной ввод числового значения | Данный параметр задает долю наблюдений, которые попадут в выборку из входных данных |
Seed | Ручной ввод числового значения | Начальное числовое значение для генератора случайных чисел. |
Переменные для стратификации | Поле выбора со списком переменных | В случае выбора Выборки со стратификацией нужно указать переменную, по которой будет проводиться стратификация |
Использовать Undersampling | Чекбокс | Выбор данного чекбокса указывает на стратегию сэмплирования — субдискретизация, которая удаляет наблюдения из большего класса. |
Доля целевого класса относительно входных данных | Ручной ввод числового значения | Данный параметр задает долю целевого класса относительно входных данных |
Доля целевого класса в выборке | Ручной ввод числового значения | Данный параметр задает долю целевого класса в выборке |
Результаты выполнения узла:
Таблица с примером данных. Отображаются первые 100 наблюдений.
- Таблица с результатами сэмплирования.
- Таблица с результатами стратификации (отображается при выборе метода построения выборки Выборка со стратификацией).
- Таблица с результатами стратификации для целевого класса (отображается при выборе чекбокса Использовать Undersampling и Выборке со стратификацией).
- Таблица с результатами стратификации для прочих классов (отображается при выборе чекбокса Использовать Undersampling и Выборке со стратификацией).