Узел «Разделение выборки» разбивает набор данных на части: обучающую (используемую в процессе обучения модели), валидационную (используемую для подбора оптимального набора гиперпараметров модели) и тестовую согласно заданным Пользователем пропорциям.


Принцип работы узла «Разделение выборки»


Разбиение можно произвести двумя способами:

  • Простая случайная выборка — все наблюдения имеют одинаковую вероятность быть отобранными.
  • Выборка со стратификацией — случайный отбор наблюдений производится в пределах каждого класса (т.е. с помощью стратификации можно избежать "непредставительной" выборки (когда в выборку попадают наблюдения только одной страты/класса) что не гарантируется простой случайной выборкой)


Список параметров узла представлен в таблице ниже.


Параметры узла «Разделение выборки»

Параметр

Возможные значения и ограничения

Описание

Название

Ручной ввод
Ограничений на значение нет

Название узла, которое будет отображаться в интерфейсе

Описание

Ручной ввод
Ограничений на значение нет

Описание узла

Разделение выборки на части

Ручной ввод доли (в %) для каждой части
Сумма долей должна быть равна 100%

Доли обучающей, валидационной и тестовой выборок в исходном наборе данных

Метод разбиения

Раскрывающийся список со следующими значениями:

  • Simple Random (по умолчанию)
  • Stratified

Метод разбиения исходного набора данных. Предусмотрены:

  • Simple Random — все наблюдения имеют одинаковый шанс быть отобранными
  • Stratified — случайный отбор наблюдений выполняется в пределах каждого класса (при выборе данного метода появится поле «Список входных переменных» для указания переменной, по которой будет проводиться стратификация)

Seed

Ручной ввод числового значения
По умолчанию — 12345

Начальное числовое значение для генератора случайных чисел
Используется для воспроизведения результатов при повторном запуске


Результаты выполнения узла:

  • Таблица с примером данных. Отображаются первые 100 наблюдений.

Таблица с примером данных


В результате выполнения узла будет рассчитана новая переменная, по которой далее будет производиться разделение набора данных на выборки (переменная _partid_0).

  • Таблица с указанием долей и количества наблюдений, попавших в соответствующую выборку.


Пример таблицы с указанием выборок и количества наблюдений
  • Нет меток