...
В задаче классификации данные называются несбалансированными, когда в обучающей выборке доли объектов разных классов существенно различаются.
Для корректировки неравномерного распределения классов предусмотрена субдискретизация (undersampling), которая заменяет больший класс подвыборкой по мощности равной малому классу (Рисунок 71). Image Removed
Якорь |
---|
_Ref108017399 | _Ref108017399 | Рисунок 71 —
Scroll Title |
---|
title-alignment | center |
---|
title | Принцип работы метода Undersampling |
---|
|
Image Added |
При выборе чекбокса Использовать undersampling параметр Доля наблюдений в выборке игнорируется.
Если выбраны Выборка со стратификацией и чекбокс Использовать undersampling, то стратификация делается отдельно для выборки с целевым классом и отдельно для выборки с прочими классами. При этом может получиться в целом нестратифицированная выборка, т.к. распределения переменных в выборке по целевому классу может отличаться от распределений во всей выборке.
Целевой класс задается в узле «Метаданные».
Если выбрать чекбокс Использовать Undersampling и Долю целевого класса в выборке задать меньше доли целевого класса во входных данных, то возникнет ошибка. Это связано с тем, что возможна ситуация, когда в выборке должно быть больше наблюдений с прочими классами, чем их есть во всем исходном наборе.
Список параметров узла представлен в таблице (Таблица 10).
Якорь |
---|
_Ref91589828 | _Ref91589828 | Таблица 10 — ниже.
Scroll Title |
---|
title-position | top |
---|
title-alignment | right |
---|
title | Параметры узла «Sample» |
---|
|
Параметр | Возможные значения и ограничения | Описание |
---|
Название | Ручной ввод Ограничений на значения нет | Название узла, которое будет отображаться в интерфейсе | Описание | Ручной ввод Ограничений на значения нет | Описание узла | Метод построения выборки | Раскрывающийся список со следующими значениями: - Простая случайная выборка
- Выборка со стратификацией
| Метод разбиения исходного набора данных. Предусмотрены: - Простая случайная выборка — все наблюдения имеют одинаковую вероятность быть отобранными
- Выборка со стратификацией — случайный отбор наблюдений производится в пределах каждого класса
| Доля наблюдений в выборке | Ручной ввод числового значения Значение не должно быть больше 1 и меньше или равно 0 По умолчанию — 0,5 | Данный параметр задает долю наблюдений, которые попадут в выборку из входных данных | Seed | Ручной ввод числового значения По умолчанию — 42 | Начальное числовое значение для генератора случайных чисел. Используется для воспроизведения результатов при повторном запуске | Переменные для стратификации | Поле выбора со списком переменных | В случае выбора Выборки со стратификацией нужно указать переменную, по которой будет проводиться стратификация | Использовать Undersampling | Чекбокс | Выбор данного чекбокса указывает на стратегию сэмплирования — субдискретизация, которая удаляет наблюдения из большего класса. | Доля целевого класса относительно входных данных | Ручной ввод числового значения Значение не должно быть больше 1 и меньше или равно 0 По умолчанию — 1 | Данный параметр задает долю целевого класса относительно входных данных | Доля целевого класса в выборке | Ручной ввод числового значения Значение не должно быть больше 1 и меньше или равно 0 По умолчанию — 0,2 | Данный параметр задает долю целевого класса в выборке |
|
Результаты выполнения узла:
Таблица с примером данных
(Рисунок 72). Отображаются первые 100 наблюдений.
...
...
Scroll Title |
---|
title-alignment | center |
---|
title | Таблица с примером данных |
---|
|
Image Added |
- Таблица с результатами сэмлирования (Рисунок 73, Рисунок 74)
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример таблицы с результатами сэмплирования |
---|
|
Image Added |
...
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример таблицы с результатами сэмплирования (с undersampling) |
---|
|
Image Added |
- Таблица с результатами стратификации (отображается при выборе метода построения выборки Выборка со стратификацией) (Рисунок 75)
...
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример таблицы с результатами стратификации |
---|
|
...
Image Added |
- Таблица с результатами стратификации для целевого класса (отображается при выборе чекбокса Использовать Undersampling и Выборке со стратификацией) (Рисунок 76)
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример таблицы с результатами стратификации для целевого класса |
---|
|
Image Added |
- Таблица
Якорь |
---|
_Hlk108078084 | _Hlk108078084 | с результатами стратификации для прочих классов (отображается при выборе чекбокса Использовать Undersampling и Выборке со стратификацией) (Рисунок 77)
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример таблицы с результатами стратификации для прочих классов |
---|
|
Image Added |