Узел «AutoML»

Узел "AutoML" позволяет в автоматизированном режиме построить алгоритмы машинного обучения с различными параметрами и выбрать из них лучшую, исходя из заданной метрики качества.

Автоматическое машинное обучение (AutoML) позволяет автоматизировать процесс дизайна ML-пайплайнов. Это позволяет сократить требуемые ресурсы на процесс отбора оптимальных гиперпараметров модели и на тестирование.

AutoML состоит из трех шагов:

предобработка данных;
предобработка признаков;
обучение и тестирование модели

Принцип работы узла "AutoML"

В результате запуска узла AutoML Система автоматически перебирает различные методы балансировки, предобработки и моделирования и объединяет модели в ансамбли.

При необходимости пользователь может посмотреть, какие модели выбрала система и какие модели тестировались.

На рисунке ниже представлен пример результата AutoML.

Пример результата узла AutoML

В представленном примере итоговая модель состоит из 5 моделей с различными предобработками и балансировками. Результаты каждой модели имеют вес 0,2.

Пример итоговой модели

Список параметров узла представлен в таблице ниже.

Параметры узла «AutoML»

Параметр	Возможные значения и ограничения	Описание
Название	Ручной ввод Ограничений на значение нет	Название узла, которое будет отображаться в интерфейсе
Описание	Ручной ввод Ограничений на значение нет	Описание узла
Время на построение всех моделей, с	По умолчанию - 300	Количество времени в секундах, которым ограничено выполнение данного узла
Время на построение одной модели, с	По умолчанию - 30	Количество времени в секундах, которым ограничено время построения одной модели
Количество конфигураций подбора гиперпараметров	По умолчанию - 25	Количество конфигураций подбора гиперпараметров для ускорения подбора с помощью алгоритма SMAC
Размер ансамблевых моделей	По умолчанию - 5	Максимальное количество моделей в ансамбле
Количество лучших моделей в ансамбле	По умолчанию - 50	Количество лучших моделей, участвующих в отборе в ансамбль
Максимальное количество моделей на диске	По умолчанию - 50	Максимальное количество моделей, которое будет построено в рамках временных ограничений
Seed	По умолчанию - 42	Начальное числовое значение для генератора случайных чисел
Лимит памяти модели	По умолчанию - 3072	Лимит памяти для обучения модели
Типы предобработки переменных	Раскрывающийся список со следующими значениями: densifier extra_trees_preproc fast_ica feature_agglomeration kernel_pca kitchen_sinks no_preprocessing nystroem_sampler pca polynomial random_trees_embedding select_percentile select_rates truncatedSVD	Набор методов предобработки переменных, который будет использован при переборе вариантов моделей. Предусмотрены: densifier (Перевод данных из разреженного представления в плотное) extra_trees_preproc (Отбор признаков с помощью ансамбля сильно рандомизированных деревьев) fast_ica (Быстрый метод независимых компонент) feature_agglomeration (Кластеризация признаков) kernel_pca (Ядерный метод главных компонент) kitchen_sinks (Аппроксимация ядерной функции методом случайных признаков Фурье (метод кухонных раковин)) no_preprocessing (Без предобработки) nystroem_sampler (Аппроксимация ядерной функции методом Nyström’а) pca (Метод главных компонент) polynomial (Полиноминальные предикторы) random_trees_embedding (Бинарное кодирование сильно рандомизированными деревьями) select_percentile (Отбор признаков по перцентилю) select_rates (Отбор признаков по частотам ошибок) truncatedSVD (Усечённое сингулярное разложение)
Типы используемых моделей	Раскрывающийся список со следующими значениями: adaboost ard_regression bernoulli_nb decision_tree extra_trees gaussian_nb gausssian_process gradient_boosting k_nearest_neigbors Ida liblinear_svm libsvm_svc mlp multinomial_nb passive_aggressive qda random_forest sgd	Набор алгоритмов, который будет использован при построении вариантов моделей. Предусмотрены: adaboost (Адаптивный бустинг (AdaBoost)) ard_regression (Байесовская линейная регрессия с автоматическим определением актуальности (ARD Regression)) bernoulli_nb (Наивный байесовский классификатор с распределением Бернулли) decision_tree (Дерево решений) extra_trees (Ансамбль сильно рандомизированных деревьев решений) gaussian_nb (Наивный байесовский классификатор с нормальным распределением) gausssian_process (Гауссовский процесс) gradient_boosting (Градиентный бустинг) k_nearest_neigbors (Метод K-ближайших соседей) Ida (Линейный дискриминантный анализ) liblinear_svm (Линейная машина опорных векторов) libsvm_svc (Машина опорных векторов) mlp (Многослойный перцептрон) multinomial_nb (Наивный байесовский классификатор с полиномиальным распределением) passive_aggressive (Пассивно-агрессивный алгоритм) qda (Квадратичный дискриминантный анализ) random_forest (Случайный лес) sgd (Линейная модель, обучаемая методом стохастического градиентного спуска)
Тип ресемплинга	Раскрывающийся список со следующими значениями: holdout cv	Тип ресемплинга выборки. Предусмотрены: holdout (Отложенная выборка) cv (Кросс-валидация)
% обучающей выборки для AutoML	По умолчанию - 0,67	% Обучающей выборки, который будет использован для AutoML
Перемешать наблюдения	Чекбокс	При выборе этой опции наблюдения будут перемешаны заново
Количество параллельных потоков	По умолчанию - 0	Параллельное исполнение
Метрика	Раскрывающийся список со следующими значениями: AUC ROC Logloss Accuracy Balanced accuracy F1 Logloss MSE MAE R2	Метрика, которую оптимизирует AutoML. Прдусмотрены: Для задачи бинарной классификации: AUC ROC Logloss Accuracy Balanced accuracy F1 Для задачи многоклассовой классификации: Logloss Для задачи регрессии: MSE MAE R2
Коэффициент сжатия датасета	По умолчанию - 1	Сжатие датасета для оптимизации памяти. Сжатие выполняется за счёт сокращения точности чисел с плавающей точкой.

Быстрые ссылки

Дерево страниц