Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

...

В задаче классификации данные называются несбалансированными, когда в обучающей выборке доли объектов разных классов существенно различаются.

Для корректировки неравномерного распределения классов предусмотрена субдискретизация (undersampling), которая заменяет больший класс подвыборкой по мощности равной малому классу.

...

Scroll Title
title-alignmentcenter
titleПринцип работы метода Undersampling

Image Modified


При выборе чекбокса Использовать undersampling параметр Доля наблюдений в выборке игнорируется.

Если выбраны Выборка со стратификацией и чекбокс Использовать undersampling, то стратификация делается отдельно для выборки с целевым классом и отдельно для выборки с прочими классами. При этом может получиться в целом нестратифицированная выборка, т.к. распределения переменных в выборке по целевому классу может отличаться от распределений во всей выборке.

Целевой класс задается в узле «Метаданные».

Если выбрать чекбокс Использовать Undersampling и Долю целевого класса в выборке задать меньше доли целевого класса во входных данных, то возникнет ошибка. Это связано с тем, что возможна ситуация, когда в выборке должно быть больше наблюдений с прочими классами, чем их есть во всем исходном наборе.

...

Scroll Title
title-positiontop
title-alignmentright
titleПараметры узла «Sample»

Параметр

Возможные значения и ограничения

Описание

Название

Ручной ввод
Ограничений на значения нет

Название узла, которое будет отображаться в интерфейсе

Описание

Ручной ввод
Ограничений на значения нет

Описание узла

Метод построения выборки

Раскрывающийся список со следующими значениями:

  • Простая случайная выборка
  • Выборка со стратификацией

Метод разбиения исходного набора данных. Предусмотрены:

  • Простая случайная выборка — все наблюдения имеют одинаковую вероятность быть отобранными
  • Выборка со стратификацией — случайный отбор наблюдений производится в пределах каждого класса

Доля наблюдений в выборке

Ручной ввод числового значения
Значение не должно быть больше 1 и меньше или равно 0
По умолчанию — 0,5

Данный параметр задает долю наблюдений, которые попадут в выборку из входных данных

Seed

Ручной ввод числового значения
По умолчанию — 42

Начальное числовое значение для генератора случайных чисел.
Используется для воспроизведения результатов при повторном запуске

Переменные для стратификации

Поле выбора со списком переменных

В случае выбора Выборки со стратификацией нужно указать переменную, по которой будет проводиться стратификация

Использовать Undersampling

Чекбокс

Выбор данного чекбокса указывает на стратегию сэмплирования — субдискретизация, которая удаляет наблюдения из большего класса.

Доля целевого класса относительно входных данных

Ручной ввод числового значения
Значение не должно быть больше 1 и меньше или равно 0
По умолчанию — 1

Данный параметр задает долю целевого класса относительно входных данных

Доля целевого класса в выборке

Ручной ввод числового значения
Значение не должно быть больше 1 и меньше или равно 0
По умолчанию — 0,2

Данный параметр задает долю целевого класса в выборке



Результаты выполнения узла:

...

  • Таблица с результатами сэмплирования.

...

Scroll Title
title-alignmentcenter
title Пример таблицы с результатами сэмплирования

...

Image Added



Scroll Title
title-alignmentcenter
titleПример таблицы с результатами сэмплирования (с undersampling)

Image Added



  • Таблица с результатами стратификации (отображается при выборе метода построения выборки Выборка со стратификацией) (Рисунок 75)

...

  • .


Scroll Title
title-alignmentcenter
titleПример таблицы с результатами стратификации

Image Added


  • Таблица Якорь_Hlk108078098_Hlk108078098 с результатами стратификации для целевого класса (отображается при выборе чекбокса Использовать Undersampling и Выборке со стратификацией) (Рисунок 76)

...

  • .


Scroll Title
title-alignmentcenter
titleПример таблицы с результатами стратификации для целевого класса

Image Added


  • Таблица Якорь_Hlk108078084_Hlk108078084 с результатами стратификации для прочих классов (отображается при выборе чекбокса Использовать Undersampling и Выборке со стратификацией) (Рисунок 77)

...

  • .


Scroll Title
title-alignmentcenter
titleПример таблицы с результатами стратификации для прочих классов

Image Added