Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

Узел "AutoML" позволяет в автоматизированном режиме построить алгоритмы машинного обучения с различными параметрами и выбрать из них лучшую, исходя из заданной метрики качества.

Автоматическое машинное обучение (AutoML) позволяет автоматизировать процесс дизайна ML-пайплайнов. Это позволяет сократить требуемые ресурсы на процесс отбора оптимальных гиперпараметров модели и на тестирование.

AutoML состоит из трех шагов:

  • предобработка данных;
  • предобработка признаков;
  • обучение и тестирование модели




Scroll Title
title-alignmentcenter
titleПринцип работы узла "AutoML"

Image Added

В результате запуска узла AutoML Система автоматически перебирает различные методы балансировки, предобработки и моделирования и объединяет модели в ансамбли.

При необходимости пользователь может посмотреть, какие модели выбрала система и какие модели тестировались.

На рисунке ниже представлен пример результата AutoML.

Scroll Title
title-alignmentcenter
titleПример результата узла AutoML

Image Added


В представленном примере итоговая модель состоит из 5 моделей с различными предобработками и балансировками. Результаты каждой модели имеют вес 0,2.

Scroll Title
title-alignmentcenter
titleПример итоговой модели

Image Added


Список параметров узла представлен в таблице ниже.


Scroll Title
title-positiontop
title-alignmentright
titleПараметры узла «AutoML»

Параметр

Возможные значения и ограничения

Описание

Название

Ручной ввод
Ограничений на значение нет

Название узла, которое будет отображаться в интерфейсе

...

Описание

Ручной ввод
Ограничений на значение нет

Описание

...

Общие параметры

...

Конфигурация слоев нейросети

...

Функция активации ReLU

Функция активации CELU

Функция активации Sigmoid

Функция активации Softmax

Линейный слой

Функция активации Logsigmoid

Исключение

Tanh

...

узла

Время на построение всех моделей, с

По умолчанию - 300

Количество времени в секундах, которым ограничено выполнение данного узла

Время на построение одной модели, с

По умолчанию - 30

Количество времени в секундах, которым ограничено время построения одной модели

Количество конфигураций подбора гиперпараметров

По умолчанию - 25

Количество конфигураций подбора гиперпараметров для ускорения подбора с помощью алгоритма SMAC

Размер ансамблевых моделей

По умолчанию - 5

Максимальное количество моделей в ансамбле

Количество лучших моделей в ансамбле

По умолчанию - 50

Количество лучших моделей, участвующих в отборе в ансамбль

Максимальное количество моделей на диске

По умолчанию - 50

Максимальное количество моделей, которое будет построено в рамках временных ограничений

Seed

По умолчанию - 42

Начальное числовое значение для генератора случайных чисел

Лимит памяти модели

По умолчанию - 3072

Лимит памяти для обучения модели

Типы предобработки переменных

Раскрывающийся список со следующими значениями:

  • densifier
  • extra_trees_preproc
  • fast_ica
  • feature_agglomeration
  • kernel_pca
  • kitchen_sinks
  • no_preprocessing
  • nystroem_sampler
  • pca
  • polynomial
  • random_trees_embedding
  • select_percentile
  • select_rates
  • truncatedSVD

Набор методов предобработки переменных, который будет использован при переборе вариантов моделей. Предусмотрены:

  • densifier (Перевод данных из разреженного представления в плотное)
  • extra_trees_preproc (Отбор признаков с помощью ансамбля сильно рандомизированных деревьев)
  • fast_ica (Быстрый метод независимых компонент)
  • feature_agglomeration (Кластеризация признаков)
  • kernel_pca (Ядерный метод главных компонент)
  • kitchen_sinks (Аппроксимация ядерной функции методом случайных признаков Фурье (метод кухонных раковин))
  • no_preprocessing (Без предобработки)
  • nystroem_sampler (Аппроксимация ядерной функции методом Nyström’а)
  • pca (Метод главных компонент)
  • polynomial (Полиноминальные предикторы)
  • random_trees_embedding (Бинарное кодирование сильно рандомизированными деревьями)
  • select_percentile (Отбор признаков по перцентилю)
  • select_rates (Отбор признаков по частотам ошибок)
  • truncatedSVD (Усечённое сингулярное разложение)

Типы используемых моделей

Раскрывающийся список со следующими значениями:

  • adaboost
  • ard_regression
  • bernoulli_nb
  • decision_tree
  • extra_trees
  • gaussian_nb
  • gausssian_process
  • gradient_boosting
  • k_nearest_neigbors
  • Ida
  • liblinear_svm
  • libsvm_svc
  • mlp
  • multinomial_nb
  • passive_aggressive
  • qda
  • random_forest
  • sgd

Набор алгоритмов, который будет использован при построении вариантов моделей. Предусмотрены:

  • adaboost (Адаптивный бустинг (AdaBoost))
  • ard_regression (Байесовская линейная регрессия с автоматическим определением актуальности (ARD Regression))
  • bernoulli_nb (Наивный байесовский классификатор с распределением Бернулли)
  • decision_tree (Дерево решений)
  • extra_trees (Ансамбль сильно рандомизированных деревьев решений)
  • gaussian_nb (Наивный байесовский классификатор с нормальным распределением)
  • gausssian_process (Гауссовский процесс)
  • gradient_boosting (Градиентный бустинг)
  • k_nearest_neigbors (Метод K-ближайших соседей)
  • Ida (Линейный дискриминантный анализ)
  • liblinear_svm (Линейная машина опорных векторов)
  • libsvm_svc (Машина опорных векторов)
  • mlp (Многослойный перцептрон)
  • multinomial_nb (Наивный байесовский классификатор с полиномиальным распределением)
  • passive_aggressive (Пассивно-агрессивный алгоритм)
  • qda (Квадратичный дискриминантный анализ)
  • random_forest (Случайный лес)
  • sgd (Линейная модель, обучаемая методом стохастического градиентного спуска)


Тип ресемплинга

Раскрывающийся список со следующими значениями:

  • holdout
  • cv

Тип ресемплинга выборки. Предусмотрены:

  • holdout (Отложенная выборка)
  • cv (Кросс-валидация)

% обучающей выборки для AutoML

По умолчанию - 0,67

% Обучающей выборки, который будет использован для AutoML

Перемешать наблюдения

Чекбокс

При выборе этой опции наблюдения будут перемешаны заново

Количество параллельных потоков

По умолчанию - 0

Параллельное исполнение

Метрика

Раскрывающийся список со следующими значениями:

  • AUC ROC
  • Logloss
  • Accuracy
  • Balanced accuracy
  • F1
  • Logloss
  • MSE
  • MAE
  • R2

Метрика, которую оптимизирует AutoML. Прдусмотрены:

Для задачи бинарной классификации:

  • AUC ROC
  • Logloss
  • Accuracy
  • Balanced accuracy
  • F1

Для задачи многоклассовой классификации:

  • Logloss

Для задачи регрессии:

  • MSE
  • MAE
  • R2

Коэффициент сжатия датасета

По умолчанию - 1

Сжатие датасета для оптимизации памяти. Сжатие выполняется за счёт сокращения точности чисел с плавающей точкой.