Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

...

В задаче классификации данные называются несбалансированными, когда в обучающей выборке доли объектов разных классов существенно различаются.
Для корректировки неравномерного распределения классов предусмотрена субдискретизация (undersampling), которая заменяет больший класс подвыборкой по мощности равной малому классу (Рисунок 71). Image Removed
Якорь_Ref108017399_Ref108017399Рисунок 71 —


Scroll Title
title-alignmentcenter
titleПринцип работы метода Undersampling

Image Added


При выборе чекбокса Использовать undersampling параметр Доля наблюдений в выборке игнорируется.
Если выбраны Выборка со стратификацией и чекбокс Использовать undersampling, то стратификация делается отдельно для выборки с целевым классом и отдельно для выборки с прочими классами. При этом может получиться в целом нестратифицированная выборка, т.к. распределения переменных в выборке по целевому классу может отличаться от распределений во всей выборке.
Целевой класс задается в узле «Метаданные».
Если выбрать чекбокс Использовать Undersampling и Долю целевого класса в выборке задать меньше доли целевого класса во входных данных, то возникнет ошибка. Это связано с тем, что возможна ситуация, когда в выборке должно быть больше наблюдений с прочими классами, чем их есть во всем исходном наборе.
Список параметров узла представлен в таблице (Таблица 10).
Якорь_Ref91589828_Ref91589828Таблица 10 — ниже.


Scroll Title
title-positiontop
title-alignmentright
titleПараметры узла «Sample»

Параметр

Возможные значения и ограничения

Описание

Название

Ручной ввод
Ограничений на значения нет

Название узла, которое будет отображаться в интерфейсе

Описание

Ручной ввод
Ограничений на значения нет

Описание узла

Метод построения выборки

Раскрывающийся список со следующими значениями:

  • Простая случайная выборка
  • Выборка со стратификацией

Метод разбиения исходного набора данных. Предусмотрены:

  • Простая случайная выборка — все наблюдения имеют одинаковую вероятность быть отобранными
  • Выборка со стратификацией — случайный отбор наблюдений производится в пределах каждого класса

Доля наблюдений в выборке

Ручной ввод числового значения
Значение не должно быть больше 1 и меньше или равно 0
По умолчанию — 0,5

Данный параметр задает долю наблюдений, которые попадут в выборку из входных данных

Seed

Ручной ввод числового значения
По умолчанию — 42

Начальное числовое значение для генератора случайных чисел.
Используется для воспроизведения результатов при повторном запуске

Переменные для стратификации

Поле выбора со списком переменных

В случае выбора Выборки со стратификацией нужно указать переменную, по которой будет проводиться стратификация

Использовать Undersampling

Чекбокс

Выбор данного чекбокса указывает на стратегию сэмплирования — субдискретизация, которая удаляет наблюдения из большего класса.

Доля целевого класса относительно входных данных

Ручной ввод числового значения
Значение не должно быть больше 1 и меньше или равно 0
По умолчанию — 1

Данный параметр задает долю целевого класса относительно входных данных

Доля целевого класса в выборке

Ручной ввод числового значения
Значение не должно быть больше 1 и меньше или равно 0
По умолчанию — 0,2

Данный параметр задает долю целевого класса в выборке



Результаты выполнения узла:

  • Таблица с примером данных

    (Рисунок 72)

    . Отображаются первые 100 наблюдений.

...


...

Scroll Title
title-alignmentcenter
titleТаблица с примером данных

Image Added


  • Таблица с результатами сэмлирования (Рисунок 73, Рисунок 74)сэмплирования.


Якорь
_Ref91592060
_Ref91592060
Якорь
_Ref91592056
_Ref91592056
Рисунок 73 — Пример таблицы с результатами сэмплирования

Якорь
_Ref108077879
_Ref108077879
Рисунок 74 — Пример таблицы с результатами сэмплирования (с undersampling)

  • Таблица с результатами стратификации (отображается при выборе метода построения выборки Выборка со стратификацией) (Рисунок 75)


Якорь
_Ref108078314
_Ref108078314
Рисунок 75 — Пример таблицы с результатами стратификации

  • Таблица
    Якорь
    _Hlk108078098
    _Hlk108078098
    с результатами стратификации для целевого класса (отображается при выборе чекбокса Использовать Undersampling и Выборке со стратификацией) (Рисунок 76)


Якорь
_Ref108078332
_Ref108078332
Рисунок 76 — Пример таблицы с результатами стратификации для целевого класса

  • Таблица
    Якорь
    _Hlk108078084
    _Hlk108078084
    с результатами стратификации для прочих классов (отображается при выборе чекбокса Использовать Undersampling и Выборке со стратификацией) (Рисунок 77)


Якорь
_Ref108078349
_Ref108078349
Рисунок 77 — Пример таблицы с результатами стратификации для прочих классов