Узел «Разделение выборки» разбивает набор данных на части: обучающую (используемую в процессе обучения модели), валидационную (используемую для подбора оптимального набора гиперпараметров модели) и тестовую согласно заданным Пользователем пропорциям (Рисунок 68).
Рисунок 68 — Принцип работы узла «Разделение выборки»
Разбиение можно произвести двумя способами:
- Простая случайная выборка — все наблюдения имеют одинаковую вероятность быть отобранными.
- Выборка со стратификацией — случайный отбор наблюдений производится в пределах каждого класса (т.е. с помощью стратификации можно избежать "непредставительной" выборки (когда в выборку попадают наблюдения только одной страты/класса) что не гарантируется простой случайной выборкой)
Список параметров узла представлен в таблице (Таблица 9).
Таблица 9 — Параметры узла «Разделение выборки»
Параметр |
Возможные значения и ограничения |
Описание |
---|---|---|
Название |
Ручной ввод |
Название узла, которое будет отображаться в интерфейсе |
Описание |
Ручной ввод |
Описание узла |
Разделение выборки на части |
Ручной ввод доли (в %) для каждой части |
Доли обучающей, валидационной и тестовой выборок в исходном наборе данных |
Метод разбиения |
Раскрывающийся список со следующими значениями:
|
Метод разбиения исходного набора данных. Предусмотрены:
|
Seed |
Ручной ввод числового значения |
Начальное числовое значение для генератора случайных чисел |
Результаты выполнения узла:
- Таблица с примером данных (Рисунок 69). Отображаются первые 100 наблюдений.
Рисунок 69 — Таблица с примером данных
В результате выполнения узла будет рассчитана новая переменная, по которой далее будет производиться разделение набора данных на выборки (переменная _partid_0).
- Таблица с указанием долей и количества наблюдений, попавших в соответствующую выборку (Рисунок 70).
Рисунок 70 — Пример таблицы с указанием выборок и количества наблюдений