Вы просматриваете старую версию данной страницы. Смотрите текущую версию.

Сравнить с текущим просмотр истории страницы

« Предыдущий Версия 3 Текущий »

Узел «Sample» позволяет сформировать репрезентативную выборку из исходного набора данных, а также скорректировать неравномерное распределение классов.
Предусмотрены два метода построения выборки:

  • Простая случайная выборка — все наблюдения имеют одинаковую вероятность быть отобранными.
  • Выборка со стратификацией — случайный отбор наблюдений производится в пределах каждого класса (т.е. с помощью стратификации можно избежать "непредставительной" выборки (когда в выборку попадают наблюдения только одной страты/класса) что не гарантируется простой случайной выборкой)

В задаче классификации данные называются несбалансированными, когда в обучающей выборке доли объектов разных классов существенно различаются.
Для корректировки неравномерного распределения классов предусмотрена субдискретизация (undersampling), которая заменяет больший класс подвыборкой по мощности равной малому классу.


Принцип работы метода Undersampling


При выборе чекбокса Использовать undersampling параметр Доля наблюдений в выборке игнорируется.
Если выбраны Выборка со стратификацией и чекбокс Использовать undersampling, то стратификация делается отдельно для выборки с целевым классом и отдельно для выборки с прочими классами. При этом может получиться в целом нестратифицированная выборка, т.к. распределения переменных в выборке по целевому классу может отличаться от распределений во всей выборке.
Целевой класс задается в узле «Метаданные».
Если выбрать чекбокс Использовать Undersampling и Долю целевого класса в выборке задать меньше доли целевого класса во входных данных, то возникнет ошибка. Это связано с тем, что возможна ситуация, когда в выборке должно быть больше наблюдений с прочими классами, чем их есть во всем исходном наборе.
Список параметров узла представлен в таблице ниже.


Параметры узла «Sample»

Параметр

Возможные значения и ограничения

Описание

Название

Ручной ввод
Ограничений на значения нет

Название узла, которое будет отображаться в интерфейсе

Описание

Ручной ввод
Ограничений на значения нет

Описание узла

Метод построения выборки

Раскрывающийся список со следующими значениями:

  • Простая случайная выборка
  • Выборка со стратификацией

Метод разбиения исходного набора данных. Предусмотрены:

  • Простая случайная выборка — все наблюдения имеют одинаковую вероятность быть отобранными
  • Выборка со стратификацией — случайный отбор наблюдений производится в пределах каждого класса

Доля наблюдений в выборке

Ручной ввод числового значения
Значение не должно быть больше 1 и меньше или равно 0
По умолчанию — 0,5

Данный параметр задает долю наблюдений, которые попадут в выборку из входных данных

Seed

Ручной ввод числового значения
По умолчанию — 42

Начальное числовое значение для генератора случайных чисел.
Используется для воспроизведения результатов при повторном запуске

Переменные для стратификации

Поле выбора со списком переменных

В случае выбора Выборки со стратификацией нужно указать переменную, по которой будет проводиться стратификация

Использовать Undersampling

Чекбокс

Выбор данного чекбокса указывает на стратегию сэмплирования — субдискретизация, которая удаляет наблюдения из большего класса.

Доля целевого класса относительно входных данных

Ручной ввод числового значения
Значение не должно быть больше 1 и меньше или равно 0
По умолчанию — 1

Данный параметр задает долю целевого класса относительно входных данных

Доля целевого класса в выборке

Ручной ввод числового значения
Значение не должно быть больше 1 и меньше или равно 0
По умолчанию — 0,2

Данный параметр задает долю целевого класса в выборке



Результаты выполнения узла:

  • Таблица с примером данных. Отображаются первые 100 наблюдений.


Таблица с примером данных


  • Таблица с результатами сэмплирования.

Пример таблицы с результатами сэмплирования



Пример таблицы с результатами сэмплирования (с undersampling)



  • Таблица с результатами стратификации (отображается при выборе метода построения выборки Выборка со стратификацией).


Пример таблицы с результатами стратификации


  • Таблица с результатами стратификации для целевого класса (отображается при выборе чекбокса Использовать Undersampling и Выборке со стратификацией).


Пример таблицы с результатами стратификации для целевого класса


  • Таблица с результатами стратификации для прочих классов (отображается при выборе чекбокса Использовать Undersampling и Выборке со стратификацией).


Пример таблицы с результатами стратификации для прочих классов
  • Нет меток