История страницы

Узел "AutoML" позволяет в автоматизированном режиме построить алгоритмы машинного обучения с различными параметрами и выбрать из них лучшую, исходя из заданной метрики качества.

Автоматическое машинное обучение (AutoML) позволяет автоматизировать процесс дизайна ML-пайплайнов. Это позволяет сократить требуемые ресурсы на процесс отбора оптимальных гиперпараметров модели и на тестирование.

AutoML состоит из трех шагов:

предобработка данных;
предобработка признаков;
обучение и тестирование модели

Scroll Title

title-alignment	center
title	Принцип работы узла "AutoML"

Image Added

В результате запуска узла AutoML Система автоматически перебирает различные методы балансировки, предобработки и моделирования и объединяет модели в ансамбли.

При необходимости пользователь может посмотреть, какие модели выбрала система и какие модели тестировались.

На рисунке ниже представлен пример результата AutoML.

Scroll Title

title-alignment	center
title	Пример результата узла AutoML

Image Added

В представленном примере итоговая модель состоит из 5 моделей с различными предобработками и балансировками. Результаты каждой модели имеют вес 0,2.

Scroll Title

title-alignment	center
title	Пример итоговой модели

Image Added

Список параметров узла представлен в таблице ниже.

Scroll Title

title-position	top
title-alignment	right
title	Параметры узла «AutoML»

Параметр	Возможные значения и ограничения	Описание
Название	Ручной ввод Ограничений на значение нет	Название узла, которое будет отображаться в интерфейсе

...


Описание	Ручной ввод Ограничений на значение нет	Описание

...

Общие параметры

...

Конфигурация слоев нейросети

...

Функция активации ReLU

Функция активации CELU

Функция активации Sigmoid

Функция активации Softmax

Линейный слой

Функция активации Logsigmoid

Исключение

Tanh

...

узла
Время на построение всех моделей, с	По умолчанию - 300	Количество времени в секундах, которым ограничено выполнение данного узла
Время на построение одной модели, с	По умолчанию - 30	Количество времени в секундах, которым ограничено время построения одной модели
Количество конфигураций подбора гиперпараметров	По умолчанию - 25	Количество конфигураций подбора гиперпараметров для ускорения подбора с помощью алгоритма SMAC
Размер ансамблевых моделей	По умолчанию - 5	Максимальное количество моделей в ансамбле
Количество лучших моделей в ансамбле	По умолчанию - 50	Количество лучших моделей, участвующих в отборе в ансамбль
Максимальное количество моделей на диске	По умолчанию - 50	Максимальное количество моделей, которое будет построено в рамках временных ограничений
Seed	По умолчанию - 42	Начальное числовое значение для генератора случайных чисел
Лимит памяти модели	По умолчанию - 3072	Лимит памяти для обучения модели
Типы предобработки переменных	Раскрывающийся список со следующими значениями: densifier extra_trees_preproc fast_ica feature_agglomeration kernel_pca kitchen_sinks no_preprocessing nystroem_sampler pca polynomial random_trees_embedding select_percentile select_rates truncatedSVD	Набор методов предобработки переменных, который будет использован при переборе вариантов моделей. Предусмотрены: densifier (Перевод данных из разреженного представления в плотное) extra_trees_preproc (Отбор признаков с помощью ансамбля сильно рандомизированных деревьев) fast_ica (Быстрый метод независимых компонент) feature_agglomeration (Кластеризация признаков) kernel_pca (Ядерный метод главных компонент) kitchen_sinks (Аппроксимация ядерной функции методом случайных признаков Фурье (метод кухонных раковин)) no_preprocessing (Без предобработки) nystroem_sampler (Аппроксимация ядерной функции методом Nyström’а) pca (Метод главных компонент) polynomial (Полиноминальные предикторы) random_trees_embedding (Бинарное кодирование сильно рандомизированными деревьями) select_percentile (Отбор признаков по перцентилю) select_rates (Отбор признаков по частотам ошибок) truncatedSVD (Усечённое сингулярное разложение)
Типы используемых моделей	Раскрывающийся список со следующими значениями: adaboost ard_regression bernoulli_nb decision_tree extra_trees gaussian_nb gausssian_process gradient_boosting k_nearest_neigbors Ida liblinear_svm libsvm_svc mlp multinomial_nb passive_aggressive qda random_forest sgd	Набор алгоритмов, который будет использован при построении вариантов моделей. Предусмотрены: adaboost (Адаптивный бустинг (AdaBoost)) ard_regression (Байесовская линейная регрессия с автоматическим определением актуальности (ARD Regression)) bernoulli_nb (Наивный байесовский классификатор с распределением Бернулли) decision_tree (Дерево решений) extra_trees (Ансамбль сильно рандомизированных деревьев решений) gaussian_nb (Наивный байесовский классификатор с нормальным распределением) gausssian_process (Гауссовский процесс) gradient_boosting (Градиентный бустинг) k_nearest_neigbors (Метод K-ближайших соседей) Ida (Линейный дискриминантный анализ) liblinear_svm (Линейная машина опорных векторов) libsvm_svc (Машина опорных векторов) mlp (Многослойный перцептрон) multinomial_nb (Наивный байесовский классификатор с полиномиальным распределением) passive_aggressive (Пассивно-агрессивный алгоритм) qda (Квадратичный дискриминантный анализ) random_forest (Случайный лес) sgd (Линейная модель, обучаемая методом стохастического градиентного спуска)
Тип ресемплинга	Раскрывающийся список со следующими значениями: holdout cv	Тип ресемплинга выборки. Предусмотрены: holdout (Отложенная выборка) cv (Кросс-валидация)
% обучающей выборки для AutoML	По умолчанию - 0,67	% Обучающей выборки, который будет использован для AutoML
Перемешать наблюдения	Чекбокс	При выборе этой опции наблюдения будут перемешаны заново
Количество параллельных потоков	По умолчанию - 0	Параллельное исполнение
Метрика	Раскрывающийся список со следующими значениями: AUC ROC Logloss Accuracy Balanced accuracy F1 Logloss MSE MAE R2	Метрика, которую оптимизирует AutoML. Прдусмотрены: Для задачи бинарной классификации: AUC ROC Logloss Accuracy Balanced accuracy F1 Для задачи многоклассовой классификации: Logloss Для задачи регрессии: MSE MAE R2
Коэффициент сжатия датасета	По умолчанию - 1	Сжатие датасета для оптимизации памяти. Сжатие выполняется за счёт сокращения точности чисел с плавающей точкой.

Быстрые ссылки

Дерево страниц

Сравнение версий

Старая версия 2

Новая версия Текущий

Ключ