Узел «Разделение выборки» разбивает набор данных на части: обучающую (используемую в процессе обучения модели), валидационную (используемую для подбора оптимального набора гиперпараметров модели) и тестовую согласно заданным Пользователем пропорциям.
Разбиение можно произвести двумя способами:
- Простая случайная выборка — все наблюдения имеют одинаковую вероятность быть отобранными.
- Выборка со стратификацией — случайный отбор наблюдений производится в пределах каждого класса (т.е. с помощью стратификации можно избежать "непредставительной" выборки (когда в выборку попадают наблюдения только одной страты/класса) что не гарантируется простой случайной выборкой)
Список параметров узла представлен в таблице ниже.
Параметр | Возможные значения и ограничения | Описание |
---|---|---|
Название | Ручной ввод | Название узла, которое будет отображаться в интерфейсе |
Описание | Ручной ввод | Описание узла |
Разделение выборки на части | Ручной ввод доли (в %) для каждой части | Доли обучающей, валидационной и тестовой выборок в исходном наборе данных |
Метод разбиения | Раскрывающийся список со следующими значениями:
| Метод разбиения исходного набора данных. Предусмотрены:
|
Seed | Ручной ввод числового значения | Начальное числовое значение для генератора случайных чисел |
Результаты выполнения узла:
- Таблица с примером данных. Отображаются первые 100 наблюдений.
В результате выполнения узла будет рассчитана новая переменная, по которой далее будет производиться разделение набора данных на выборки (переменная _partid_0).
- Таблица с указанием долей и количества наблюдений, попавших в соответствующую выборку.