...
В задаче классификации данные называются несбалансированными, когда в обучающей выборке доли объектов разных классов существенно различаются.
Для корректировки неравномерного распределения классов предусмотрена субдискретизация (undersampling), которая заменяет больший класс подвыборкой по мощности равной малому классу.
...
Scroll Title |
---|
title-alignment | center |
---|
title | Принцип работы метода Undersampling |
---|
|
Image Modified |
При выборе чекбокса Использовать undersampling параметр Доля наблюдений в выборке игнорируется.
Если выбраны Выборка со стратификацией и чекбокс Использовать undersampling, то стратификация делается отдельно для выборки с целевым классом и отдельно для выборки с прочими классами. При этом может получиться в целом нестратифицированная выборка, т.к. распределения переменных в выборке по целевому классу может отличаться от распределений во всей выборке.
Целевой класс задается в узле «Метаданные».
Если выбрать чекбокс Использовать Undersampling и Долю целевого класса в выборке задать меньше доли целевого класса во входных данных, то возникнет ошибка. Это связано с тем, что возможна ситуация, когда в выборке должно быть больше наблюдений с прочими классами, чем их есть во всем исходном наборе.
...
Scroll Title |
---|
title-position | top |
---|
title-alignment | right |
---|
title | Параметры узла «Sample» |
---|
|
Параметр | Возможные значения и ограничения | Описание |
---|
Название | Ручной ввод Ограничений на значения нет | Название узла, которое будет отображаться в интерфейсе | Описание | Ручной ввод Ограничений на значения нет | Описание узла | Метод построения выборки | Раскрывающийся список со следующими значениями: - Простая случайная выборка
- Выборка со стратификацией
| Метод разбиения исходного набора данных. Предусмотрены: - Простая случайная выборка — все наблюдения имеют одинаковую вероятность быть отобранными
- Выборка со стратификацией — случайный отбор наблюдений производится в пределах каждого класса
| Доля наблюдений в выборке | Ручной ввод числового значения Значение не должно быть больше 1 и меньше или равно 0 По умолчанию — 0,5 | Данный параметр задает долю наблюдений, которые попадут в выборку из входных данных | Seed | Ручной ввод числового значения По умолчанию — 42 | Начальное числовое значение для генератора случайных чисел. Используется для воспроизведения результатов при повторном запуске | Переменные для стратификации | Поле выбора со списком переменных | В случае выбора Выборки со стратификацией нужно указать переменную, по которой будет проводиться стратификация | Использовать Undersampling | Чекбокс | Выбор данного чекбокса указывает на стратегию сэмплирования — субдискретизация, которая удаляет наблюдения из большего класса. | Доля целевого класса относительно входных данных | Ручной ввод числового значения Значение не должно быть больше 1 и меньше или равно 0 По умолчанию — 1 | Данный параметр задает долю целевого класса относительно входных данных | Доля целевого класса в выборке | Ручной ввод числового значения Значение не должно быть больше 1 и меньше или равно 0 По умолчанию — 0,2 | Данный параметр задает долю целевого класса в выборке |
|
Результаты выполнения узла:
...
- Таблица с результатами сэмплирования.
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример таблицы с результатами сэмплирования |
---|
|
...
Image Added |
Scroll Title |
---|
title-alignment | center |
---|
title | Пример таблицы с результатами сэмплирования (с undersampling) |
---|
|
Image Added |
- Таблица с результатами стратификации (отображается при выборе метода построения выборки Выборка со стратификацией) (Рисунок 75)
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример таблицы с результатами стратификации |
---|
|
Image Added |
- Таблица
Якорь |
---|
_Hlk108078098 | _Hlk108078098 | с результатами стратификации для целевого класса (отображается при выборе чекбокса Использовать Undersampling и Выборке со стратификацией) (Рисунок 76)
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример таблицы с результатами стратификации для целевого класса |
---|
|
Image Added |
- Таблица
Якорь |
---|
_Hlk108078084 | _Hlk108078084 | с результатами стратификации для прочих классов (отображается при выборе чекбокса Использовать Undersampling и Выборке со стратификацией) (Рисунок 77)
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример таблицы с результатами стратификации для прочих классов |
---|
|
Image Added |