Узел "AutoML" позволяет в автоматизированном режиме построить алгоритмы машинного обучения с различными параметрами и выбрать из них лучшую, исходя из заданной метрики качества.

Автоматическое машинное обучение (AutoML) позволяет автоматизировать процесс дизайна ML-пайплайнов. Это позволяет сократить требуемые ресурсы на процесс отбора оптимальных гиперпараметров модели и на тестирование.

AutoML состоит из трех шагов:

  • предобработка данных;
  • предобработка признаков;
  • обучение и тестирование модели




Принцип работы узла "AutoML"

В результате запуска узла AutoML Система автоматически перебирает различные методы балансировки, предобработки и моделирования и объединяет модели в ансамбли.

При необходимости пользователь может посмотреть, какие модели выбрала система и какие модели тестировались.

На рисунке ниже представлен пример результата AutoML.

Пример результата узла AutoML


В представленном примере итоговая модель состоит из 5 моделей с различными предобработками и балансировками. Результаты каждой модели имеют вес 0,2.

Пример итоговой модели


Список параметров узла представлен в таблице ниже.


Параметры узла «AutoML»

Параметр

Возможные значения и ограничения

Описание

Название

Ручной ввод
Ограничений на значение нет

Название узла, которое будет отображаться в интерфейсе

Описание

Ручной ввод
Ограничений на значение нет

Описание узла

Время на построение всех моделей, с

По умолчанию - 300

Количество времени в секундах, которым ограничено выполнение данного узла

Время на построение одной модели, с

По умолчанию - 30

Количество времени в секундах, которым ограничено время построения одной модели

Количество конфигураций подбора гиперпараметров

По умолчанию - 25

Количество конфигураций подбора гиперпараметров для ускорения подбора с помощью алгоритма SMAC

Размер ансамблевых моделей

По умолчанию - 5

Максимальное количество моделей в ансамбле

Количество лучших моделей в ансамбле

По умолчанию - 50

Количество лучших моделей, участвующих в отборе в ансамбль

Максимальное количество моделей на диске

По умолчанию - 50

Максимальное количество моделей, которое будет построено в рамках временных ограничений

Seed

По умолчанию - 42

Начальное числовое значение для генератора случайных чисел

Лимит памяти модели

По умолчанию - 3072

Лимит памяти для обучения модели

Типы предобработки переменных

Раскрывающийся список со следующими значениями:

  • densifier
  • extra_trees_preproc
  • fast_ica
  • feature_agglomeration
  • kernel_pca
  • kitchen_sinks
  • no_preprocessing
  • nystroem_sampler
  • pca
  • polynomial
  • random_trees_embedding
  • select_percentile
  • select_rates
  • truncatedSVD

Набор методов предобработки переменных, который будет использован при переборе вариантов моделей. Предусмотрены:

  • densifier (Перевод данных из разреженного представления в плотное)
  • extra_trees_preproc (Отбор признаков с помощью ансамбля сильно рандомизированных деревьев)
  • fast_ica (Быстрый метод независимых компонент)
  • feature_agglomeration (Кластеризация признаков)
  • kernel_pca (Ядерный метод главных компонент)
  • kitchen_sinks (Аппроксимация ядерной функции методом случайных признаков Фурье (метод кухонных раковин))
  • no_preprocessing (Без предобработки)
  • nystroem_sampler (Аппроксимация ядерной функции методом Nyström’а)
  • pca (Метод главных компонент)
  • polynomial (Полиноминальные предикторы)
  • random_trees_embedding (Бинарное кодирование сильно рандомизированными деревьями)
  • select_percentile (Отбор признаков по перцентилю)
  • select_rates (Отбор признаков по частотам ошибок)
  • truncatedSVD (Усечённое сингулярное разложение)

Типы используемых моделей

Раскрывающийся список со следующими значениями:

  • adaboost
  • ard_regression
  • bernoulli_nb
  • decision_tree
  • extra_trees
  • gaussian_nb
  • gausssian_process
  • gradient_boosting
  • k_nearest_neigbors
  • Ida
  • liblinear_svm
  • libsvm_svc
  • mlp
  • multinomial_nb
  • passive_aggressive
  • qda
  • random_forest
  • sgd

Набор алгоритмов, который будет использован при построении вариантов моделей. Предусмотрены:

  • adaboost (Адаптивный бустинг (AdaBoost))
  • ard_regression (Байесовская линейная регрессия с автоматическим определением актуальности (ARD Regression))
  • bernoulli_nb (Наивный байесовский классификатор с распределением Бернулли)
  • decision_tree (Дерево решений)
  • extra_trees (Ансамбль сильно рандомизированных деревьев решений)
  • gaussian_nb (Наивный байесовский классификатор с нормальным распределением)
  • gausssian_process (Гауссовский процесс)
  • gradient_boosting (Градиентный бустинг)
  • k_nearest_neigbors (Метод K-ближайших соседей)
  • Ida (Линейный дискриминантный анализ)
  • liblinear_svm (Линейная машина опорных векторов)
  • libsvm_svc (Машина опорных векторов)
  • mlp (Многослойный перцептрон)
  • multinomial_nb (Наивный байесовский классификатор с полиномиальным распределением)
  • passive_aggressive (Пассивно-агрессивный алгоритм)
  • qda (Квадратичный дискриминантный анализ)
  • random_forest (Случайный лес)
  • sgd (Линейная модель, обучаемая методом стохастического градиентного спуска)


Тип ресемплинга

Раскрывающийся список со следующими значениями:

  • holdout
  • cv

Тип ресемплинга выборки. Предусмотрены:

  • holdout (Отложенная выборка)
  • cv (Кросс-валидация)

% обучающей выборки для AutoML

По умолчанию - 0,67

% Обучающей выборки, который будет использован для AutoML

Перемешать наблюдения

Чекбокс

При выборе этой опции наблюдения будут перемешаны заново

Количество параллельных потоков

По умолчанию - 0

Параллельное исполнение

Метрика

Раскрывающийся список со следующими значениями:

  • AUC ROC
  • Logloss
  • Accuracy
  • Balanced accuracy
  • F1
  • Logloss
  • MSE
  • MAE
  • R2

Метрика, которую оптимизирует AutoML. Прдусмотрены:

Для задачи бинарной классификации:

  • AUC ROC
  • Logloss
  • Accuracy
  • Balanced accuracy
  • F1

Для задачи многоклассовой классификации:

  • Logloss

Для задачи регрессии:

  • MSE
  • MAE
  • R2

Коэффициент сжатия датасета

По умолчанию - 1

Сжатие датасета для оптимизации памяти. Сжатие выполняется за счёт сокращения точности чисел с плавающей точкой.



  • Нет меток