Узел "AutoML" позволяет в автоматизированном режиме построить алгоритмы машинного обучения с различными параметрами и выбрать из них лучшую, исходя из заданной метрики качества.
Автоматическое машинное обучение (AutoML) позволяет автоматизировать процесс дизайна ML-пайплайнов. Это позволяет сократить требуемые ресурсы на процесс отбора оптимальных гиперпараметров модели и на тестирование.
AutoML состоит из трех шагов:
- предобработка данных;
- предобработка признаков;
- обучение и тестирование модели
Scroll Title |
---|
title-alignment | center |
---|
title | Принцип работы узла "AutoML" |
---|
|
Image Added |
В результате запуска узла AutoML Система автоматически перебирает различные методы балансировки, предобработки и моделирования и объединяет модели в ансамбли.
При необходимости пользователь может посмотреть, какие модели выбрала система и какие модели тестировались.
На рисунке ниже представлен пример результата AutoML.
Scroll Title |
---|
title-alignment | center |
---|
title | Пример результата узла AutoML |
---|
|
Image Added |
В представленном примере итоговая модель состоит из 5 моделей с различными предобработками и балансировками. Результаты каждой модели имеют вес 0,2.
Scroll Title |
---|
title-alignment | center |
---|
title | Пример итоговой модели |
---|
|
Image Added |
Список параметров узла представлен в таблице ниже.
Scroll Title |
---|
title-position | top |
---|
title-alignment | right |
---|
title | Параметры узла «AutoML» |
---|
|
Параметр | Возможные значения и ограничения | Описание |
---|
Название | Ручной ввод Ограничений на значение нет | Название узла, которое будет отображаться в интерфейсе |
|
...
| Описание | Ручной ввод Ограничений на значение нет | Описание |
|
...
Общие параметры
...
Конфигурация слоев нейросети
...
Функция активации ReLU
Функция активации CELU
Функция активации Sigmoid
Функция активации Softmax
Линейный слой
Функция активации Logsigmoid
Исключение
Tanh
...
узла | Время на построение всех моделей, с | По умолчанию - 300 | Количество времени в секундах, которым ограничено выполнение данного узла | Время на построение одной модели, с | По умолчанию - 30 | Количество времени в секундах, которым ограничено время построения одной модели | Количество конфигураций подбора гиперпараметров
| По умолчанию - 25 | Количество конфигураций подбора гиперпараметров для ускорения подбора с помощью алгоритма SMAC | Размер ансамблевых моделей
| По умолчанию - 5 | Максимальное количество моделей в ансамбле | Количество лучших моделей в ансамбле
| По умолчанию - 50 | Количество лучших моделей, участвующих в отборе в ансамбль | Максимальное количество моделей на диске
| По умолчанию - 50 | Максимальное количество моделей, которое будет построено в рамках временных ограничений | Seed
| По умолчанию - 42 | Начальное числовое значение для генератора случайных чисел | Лимит памяти модели
| По умолчанию - 3072 | Лимит памяти для обучения модели | Типы предобработки переменных
| Раскрывающийся список со следующими значениями: - densifier
- extra_trees_preproc
- fast_ica
- feature_agglomeration
- kernel_pca
- kitchen_sinks
- no_preprocessing
- nystroem_sampler
- pca
- polynomial
- random_trees_embedding
- select_percentile
- select_rates
- truncatedSVD
| Набор методов предобработки переменных, который будет использован при переборе вариантов моделей. Предусмотрены: - densifier (Перевод данных из разреженного представления в плотное)
- extra_trees_preproc (Отбор признаков с помощью ансамбля сильно рандомизированных деревьев)
- fast_ica (Быстрый метод независимых компонент)
- feature_agglomeration (Кластеризация признаков)
- kernel_pca (Ядерный метод главных компонент)
- kitchen_sinks (Аппроксимация ядерной функции методом случайных признаков Фурье (метод кухонных раковин))
- no_preprocessing (Без предобработки)
- nystroem_sampler (Аппроксимация ядерной функции методом Nyström’а)
- pca (Метод главных компонент)
- polynomial (Полиноминальные предикторы)
- random_trees_embedding (Бинарное кодирование сильно рандомизированными деревьями)
- select_percentile (Отбор признаков по перцентилю)
- select_rates (Отбор признаков по частотам ошибок)
- truncatedSVD (Усечённое сингулярное разложение)
| Типы используемых моделей
| Раскрывающийся список со следующими значениями: - adaboost
- ard_regression
- bernoulli_nb
- decision_tree
- extra_trees
- gaussian_nb
- gausssian_process
- gradient_boosting
- k_nearest_neigbors
- Ida
- liblinear_svm
- libsvm_svc
- mlp
- multinomial_nb
- passive_aggressive
- qda
- random_forest
- sgd
| Набор алгоритмов, который будет использован при построении вариантов моделей. Предусмотрены: - adaboost (Адаптивный бустинг (AdaBoost))
- ard_regression (Байесовская линейная регрессия с автоматическим определением актуальности (ARD Regression))
- bernoulli_nb (Наивный байесовский классификатор с распределением Бернулли)
- decision_tree (Дерево решений)
- extra_trees (Ансамбль сильно рандомизированных деревьев решений)
- gaussian_nb (Наивный байесовский классификатор с нормальным распределением)
- gausssian_process (Гауссовский процесс)
- gradient_boosting (Градиентный бустинг)
- k_nearest_neigbors (Метод K-ближайших соседей)
- Ida (Линейный дискриминантный анализ)
- liblinear_svm (Линейная машина опорных векторов)
- libsvm_svc (Машина опорных векторов)
- mlp (Многослойный перцептрон)
- multinomial_nb (Наивный байесовский классификатор с полиномиальным распределением)
- passive_aggressive (Пассивно-агрессивный алгоритм)
- qda (Квадратичный дискриминантный анализ)
- random_forest (Случайный лес)
- sgd (Линейная модель, обучаемая методом стохастического градиентного спуска)
| Тип ресемплинга
| Раскрывающийся список со следующими значениями: | Тип ресемплинга выборки. Предусмотрены: - holdout (Отложенная выборка)
- cv (Кросс-валидация)
| % обучающей выборки для AutoML
| По умолчанию - 0,67 | % Обучающей выборки, который будет использован для AutoML | Перемешать наблюдения
| Чекбокс | При выборе этой опции наблюдения будут перемешаны заново | Количество параллельных потоков
| По умолчанию - 0 | Параллельное исполнение | Метрика
| Раскрывающийся список со следующими значениями: - AUC ROC
- Logloss
- Accuracy
- Balanced accuracy
- F1
- Logloss
- MSE
- MAE
- R2
| Метрика, которую оптимизирует AutoML. Прдусмотрены: Для задачи бинарной классификации: - AUC ROC
- Logloss
- Accuracy
- Balanced accuracy
- F1
Для задачи многоклассовой классификации: Для задачи регрессии: | Коэффициент сжатия датасета
| По умолчанию - 1 | Сжатие датасета для оптимизации памяти. Сжатие выполняется за счёт сокращения точности чисел с плавающей точкой. |
|