Вы просматриваете старую версию данной страницы. Смотрите текущую версию.

Сравнить с текущим просмотр истории страницы

Версия 1 Следующий »

Узел «Sample» позволяет сформировать репрезентативную выборку из исходного набора данных, а также скорректировать неравномерное распределение классов.
Предусмотрены два метода построения выборки:

  • Простая случайная выборка — все наблюдения имеют одинаковую вероятность быть отобранными.
  • Выборка со стратификацией — случайный отбор наблюдений производится в пределах каждого класса (т.е. с помощью стратификации можно избежать "непредставительной" выборки (когда в выборку попадают наблюдения только одной страты/класса) что не гарантируется простой случайной выборкой)

В задаче классификации данные называются несбалансированными, когда в обучающей выборке доли объектов разных классов существенно различаются.
Для корректировки неравномерного распределения классов предусмотрена субдискретизация (undersampling), которая заменяет больший класс подвыборкой по мощности равной малому классу (Рисунок 71).

Рисунок 71 — Принцип работы метода Undersampling
При выборе чекбокса Использовать undersampling параметр Доля наблюдений в выборке игнорируется.
Если выбраны Выборка со стратификацией и чекбокс Использовать undersampling, то стратификация делается отдельно для выборки с целевым классом и отдельно для выборки с прочими классами. При этом может получиться в целом нестратифицированная выборка, т.к. распределения переменных в выборке по целевому классу может отличаться от распределений во всей выборке.
Целевой класс задается в узле «Метаданные».
Если выбрать чекбокс Использовать Undersampling и Долю целевого класса в выборке задать меньше доли целевого класса во входных данных, то возникнет ошибка. Это связано с тем, что возможна ситуация, когда в выборке должно быть больше наблюдений с прочими классами, чем их есть во всем исходном наборе.
Список параметров узла представлен в таблице (Таблица 10).
Таблица 10 — Параметры узла «Sample»

Параметр

Возможные значения и ограничения

Описание

Название

Ручной ввод
Ограничений на значения нет

Название узла, которое будет отображаться в интерфейсе

Описание

Ручной ввод
Ограничений на значения нет

Описание узла

Метод построения выборки

Раскрывающийся список со следующими значениями:

  • Простая случайная выборка
  • Выборка со стратификацией

Метод разбиения исходного набора данных. Предусмотрены:

  • Простая случайная выборка — все наблюдения имеют одинаковую вероятность быть отобранными
  • Выборка со стратификацией — случайный отбор наблюдений производится в пределах каждого класса

Доля наблюдений в выборке

Ручной ввод числового значения
Значение не должно быть больше 1 и меньше или равно 0
По умолчанию — 0,5

Данный параметр задает долю наблюдений, которые попадут в выборку из входных данных

Seed

Ручной ввод числового значения
По умолчанию — 42

Начальное числовое значение для генератора случайных чисел.
Используется для воспроизведения результатов при повторном запуске

Переменные для стратификации

Поле выбора со списком переменных

В случае выбора Выборки со стратификацией нужно указать переменную, по которой будет проводиться стратификация

Использовать Undersampling

Чекбокс

Выбор данного чекбокса указывает на стратегию сэмплирования — субдискретизация, которая удаляет наблюдения из большего класса.

Доля целевого класса относительно входных данных

Ручной ввод числового значения
Значение не должно быть больше 1 и меньше или равно 0
По умолчанию — 1

Данный параметр задает долю целевого класса относительно входных данных

Доля целевого класса в выборке

Ручной ввод числового значения
Значение не должно быть больше 1 и меньше или равно 0
По умолчанию — 0,2

Данный параметр задает долю целевого класса в выборке

Результаты выполнения узла:

  • Таблица с примером данных (Рисунок 72). Отображаются первые 100 наблюдений.


Рисунок 72 — Таблица с примером данных

  • Таблица с результатами сэмлирования (Рисунок 73, Рисунок 74)


Рисунок 73 — Пример таблицы с результатами сэмплирования

Рисунок 74 — Пример таблицы с результатами сэмплирования (с undersampling)

  • Таблица с результатами стратификации (отображается при выборе метода построения выборки Выборка со стратификацией) (Рисунок 75)


Рисунок 75 — Пример таблицы с результатами стратификации

  • Таблица с результатами стратификации для целевого класса (отображается при выборе чекбокса Использовать Undersampling и Выборке со стратификацией) (Рисунок 76)


Рисунок 76 — Пример таблицы с результатами стратификации для целевого класса

  • Таблица с результатами стратификации для прочих классов (отображается при выборе чекбокса Использовать Undersampling и Выборке со стратификацией) (Рисунок 77)


Рисунок 77 — Пример таблицы с результатами стратификации для прочих классов

  • Нет меток