Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

...

В задаче классификации данные называются несбалансированными, когда в обучающей выборке доли объектов разных классов существенно различаются.

Для корректировки неравномерного распределения классов предусмотрена субдискретизация (undersampling), которая заменяет больший класс подвыборкой по мощности равной малому классу.

...


При выборе чекбокса Использовать undersampling параметр Доля наблюдений в выборке игнорируется.

Если выбраны Выборка со стратификацией и чекбокс Использовать undersampling, то стратификация делается отдельно для выборки с целевым классом и отдельно для выборки с прочими классами. При этом может получиться в целом нестратифицированная выборка, т.к. распределения переменных в выборке по целевому классу может отличаться от распределений во всей выборке.

Целевой класс задается в узле «Метаданные».

Если выбрать чекбокс Использовать Undersampling и Долю целевого класса в выборке задать меньше доли целевого класса во входных данных, то возникнет ошибка. Это связано с тем, что возможна ситуация, когда в выборке должно быть больше наблюдений с прочими классами, чем их есть во всем исходном наборе.

...

Scroll Title
title-alignmentcenter
titleПример таблицы с результатами стратификации


  • Таблица Якорь_Hlk108078098_Hlk108078098 с результатами стратификации для целевого класса (отображается при выборе чекбокса Использовать Undersampling и Выборке со стратификацией).

...

Scroll Title
title-alignmentcenter
titleПример таблицы с результатами стратификации для целевого класса


  • Таблица Якорь_Hlk108078084_Hlk108078084 с результатами стратификации для прочих классов (отображается при выборе чекбокса Использовать Undersampling и Выборке со стратификацией).

...