Узел "AutoML" позволяет в автоматизированном режиме построить алгоритмы машинного обучения с различными параметрами и выбрать из них лучшую, исходя из заданной метрики качества.
Автоматическое машинное обучение (AutoML) позволяет автоматизировать процесс дизайна ML-пайплайнов. Это позволяет сократить требуемые ресурсы на процесс отбора оптимальных гиперпараметров модели и на тестирование.
AutoML состоит из трех шагов:
- предобработка данных;
- предобработка признаков;
- обучение и тестирование модели
В результате запуска узла AutoML Система автоматически перебирает различные методы балансировки, предобработки и моделирования и объединяется модели в ансамбли.
При необходимости пользователь может посмотреть, какие модели выбрала система и какие модели тестировались.
На рисунке ниже представлен пример результата AutoML.
В представленном примере итоговая модель состоит из 5 моделей с различными предобработками и балансировками. Результаты каждой модели имеют вес 0,2.
Список параметров узла представлен в таблице ниже.
Параметр | Возможные значения и ограничения | Описание |
---|---|---|
Название | Ручной ввод | Название узла, которое будет отображаться в интерфейсе |
Описание | Ручной ввод | Описание узла |
Время на построение всех моделей, с | По умолчанию - 300 | Количество времени в секундах, которым ограничено выполнение данного узла |
Время на построение одной модели, с | По умолчанию - 30 | Количество времени в секундах, которым ограничено время построения одной модели |
Количество конфигураций подбора гиперпараметров | По умолчанию - 25 | Количество конфигураций подбора гиперпараметров для ускорения подбора с помощью алгоритма SMAC |
Размер ансамблевых моделей | По умолчанию - 5 | Максимальное количество моделей в ансамбле |
Количество лучших моделей в ансамбле | По умолчанию - 50 | Количество лучших моделей, участвующих в отборе в ансамбль |
Максимальное количество моделей на диске | По умолчанию - 50 | Максимальное количество моделей, которое будет построено в рамках временных ограничений |
Seed | По умолчанию - 42 | Начальное числовое значение для генератора случайных чисел |
Лимит памяти модели | По умолчанию - 3072 | Лимит памяти для обучения модели |
Типы предобработки переменных | Раскрывающийся список со следующими значениями:
| Набор методов предобработки переменных, который будет использован при переборе вариантов моделей. Предусмотрены:
|
Типы используемых моделей | Раскрывающийся список со следующими значениями:
| Набор алгоритмов, который будет использован при построении вариантов моделей. Предусмотрены:
|
Тип ресемплинга | Раскрывающийся список со следующими значениями:
| Тип ресемплинга выборки. Предусмотрены:
|
% обучающей выборки для AutoML | По умолчанию - 0,67 | % Обучающей выборки, который будет использован для AutoML |
Перемешать наблюдения | Чекбокс | При выборе этой опции наблюдения будут перемешаны заново |
Количество параллельных потоков | По умолчанию - 0 | Параллельное исполнение |
Метрика | Раскрывающийся список со следующими значениями:
| Метрика, которую оптимизирует AutoML. Прдусмотрены: Для задачи бинарной классификации:
Для задачи многоклассовой классификации:
Для задачи регрессии:
|
Коэффициент сжатия датасета | По умолчанию - 1 | Сжатие датасета для оптимизации памяти. Сжатие выполняется за счёт сокращения точности чисел с плавающей точкой. |