Узел «Разделение выборки»

Узел «Разделение выборки» разбивает набор данных на части: обучающую (используемую в процессе обучения модели), валидационную (используемую для подбора оптимального набора гиперпараметров модели) и тестовую согласно заданным Пользователем пропорциям (Рисунок 68).

Рисунок 68 — Принцип работы узла «Разделение выборки»
Разбиение можно произвести двумя способами:

Простая случайная выборка — все наблюдения имеют одинаковую вероятность быть отобранными.
Выборка со стратификацией — случайный отбор наблюдений производится в пределах каждого класса (т.е. с помощью стратификации можно избежать "непредставительной" выборки (когда в выборку попадают наблюдения только одной страты/класса) что не гарантируется простой случайной выборкой)

Список параметров узла представлен в таблице (Таблица 9).
Таблица 9 — Параметры узла «Разделение выборки»

Параметр	Возможные значения и ограничения	Описание
Название	Ручной ввод Ограничений на значение нет	Название узла, которое будет отображаться в интерфейсе
Описание	Ручной ввод Ограничений на значение нет	Описание узла
Разделение выборки на части	Ручной ввод доли (в %) для каждой части Сумма долей должна быть равна 100%	Доли обучающей, валидационной и тестовой выборок в исходном наборе данных
Метод разбиения	Раскрывающийся список со следующими значениями: Simple Random (по умолчанию) Stratified	Метод разбиения исходного набора данных. Предусмотрены: Simple Random — все наблюдения имеют одинаковый шанс быть отобранными Stratified — случайный отбор наблюдений выполняется в пределах каждого класса (при выборе данного метода появится поле «Список входных переменных» для указания переменной, по которой будет проводиться стратификация)
Seed	Ручной ввод числового значения По умолчанию — 12345	Начальное числовое значение для генератора случайных чисел Используется для воспроизведения результатов при повторном запуске

Результаты выполнения узла:

Таблица с примером данных (Рисунок 69). Отображаются первые 100 наблюдений.

Рисунок 69 — Таблица с примером данных
В результате выполнения узла будет рассчитана новая переменная, по которой далее будет производиться разделение набора данных на выборки (переменная _partid_0).

Таблица с указанием долей и количества наблюдений, попавших в соответствующую выборку (Рисунок 70).

Рисунок 70 — Пример таблицы с указанием выборок и количества наблюдений

Быстрые ссылки

Дерево страниц