...
Рекомендуется нормализовать данные перед использованием PCA, иначе можно получить вводящие в заблуждение компоненты (чекбокс Нормализация компонент).
PCA работает c числовыми данными. Поэтому если в наборе данных присутствует категориальная переменная, то она кодируется методом One-hot encoding и количество рассчитанных главных компонент будет равно (исходное кол-во некатегориальных атрибутов) + (столбцы One-hot encoding).
Пример: изначально было 14 атрибутов один из которых категориальный (с 3 категориями), то в результатах получится 15 (подробнее про One-hot encoding в описании одноименного узла).
Для отбора компонент предусмотрены следующие Методы определения количества компонент:
...
Scroll Title |
---|
title-position | top |
---|
title-alignment | right |
---|
title | Параметры узла «PCA» |
---|
|
Параметр | Возможные значения и ограничения | Описание |
---|
Название | Ручной ввод Ограничений на значение нет | Название узла, которое будет отображаться в интерфейсе | Описание | Ручной ввод Ограничений на значение нет | Описание узла | Метод определения количества компонент | Раскрывающийся список со следующими значениями: - full (по умолчанию)
- number
- variance
- mle
| Данный параметр задает метод определения количества компонент. Предусмотрены: | Количество компонент | Ручной ввод целочисленного значения По умолчанию - 1 | Актуален при выборе Метода определения количества компонент = number. Задает ограничение на количество компонент, которые в конечном итоге будут отобраны алгоритмом. | Процент объясненной дисперсии | Ручной ввод Значение больше 0 и меньше или равно 1 По умолчанию – 0,95 | Актуален при выборе Метода определения количества компонент = variance. Задает ограничение на процент объясненной дисперсии компонентами, которые в конечном итоге будут отобраны алгоритмом. | Нормализация компонент | Чекбокс | Данный чекбокс отвечает за преобразование числовых наблюдений с целью приведения их к общей шкале. Необходимость нормализации вызвана тем, что разные признаки из исходного набора могут быть представлены в разных масштабах и изменяться в разных диапазонах | Алгоритм главных компонент | Раскрывающийся список со следующими значениями: - auto (по умолчанию)
- full
- arpack
- randomized
| Данный параметр задает алгоритм главных компонент. Предусмотрены следующие варианты: | Погрешность | Ручной ввод числового значения Значение должно быть в диапазоне [0.0, inf) По умолчанию – 0 | Актуален при выборе Алгоритма главных компонент = arpack Задает допустимую погрешность для сингулярных значений. | Задать количество итераций степенного метода | Чекбокс | Актуален при выборе Алгоритма главных компонент = randomized Выбор данного чекбокса указывает, что необходимо задать количество итераций степенного метода | Количество итераций степенного метода | Ручной ввод числового значения Значение должно быть в диапазоне [0, inf) По умолчанию – 10 | Актуален при выборе Алгоритма главных компонент = randomized Перед увеличением Количества итераций степенного метода следует увеличивать Количество дополнительных случайных векторов, поскольку принцип рандомизированного метода заключается в том, чтобы избежать использования этих более дорогостоящих шагов итерации. | Количество дополнительных случайных векторов | По умолчанию – 10 | Актуален при выборе Алгоритма главных компонент = randomized Задает дополнительное количество случайных векторов, что обеспечивает лучшую аппроксимацию сингулярных векторов и сингулярных значений. | Нормализация итераций | Раскрывающийся список со следующими значениями: - auto (по умолчанию)
- QR
- LU
- randomized
| Актуален при выборе Алгоритма главных компонент = randomized Предусмотрены следующие методы: - auto – не применяет нормализацию, если Количество итераций степенного метода <=2, и переключается на LU разложение в противном случае
- QR – пошаговое разложение матрицы. Самое медленное, но наиболее точное
- LU – LU разложение матрицы. Численно стабильное, но может терять в точности
- randomized – наиболее быстрый метод, но нестабильный, если Количество итераций степенного метода большое (5 и больше)
| Seed | Ручной ввод числового значения Значение больше 0 По умолчанию — 42 | Начальное числовое значение для генератора случайных чисел. Используется для воспроизведения результатов при повторном запуске | Исключить оригинальные предикторы | Чекбокс | Выбор данного чекбокса указывает, что необходимо удалить оригинальные предикторы |
|
Результаты выполнения узла:
...