Параметр | Возможные значения и ограничения | Описание | Группа параметров |
---|
Название | Ручной ввод Ограничений на значение нет | Название узла, которое будет отображаться в интерфейсе | Общий параметр |
Описание | Ручной ввод Ограничений на значение нет | Описание узла | Общий параметр |
Бустер | Раскрывающийся список со следующими значениями: - gbtree (по умолчанию)
- gblinear
- DART
| Данный параметр задает тип базового алгоритма для бустинга. Предусмотрены следующие типы: - gbtree – бустинг на основе деревьев
- gblinear – бустинг на основе линейных моделей
- DART – модификация gbtree (отбрасывает деревья, для предотвращения переобучения)
| Общий параметр |
Количество оценочных функций | Ручной ввод Число больше 0 По умолчанию — 100 | Данный параметр задает число итераций градиентного бустинга | Общий параметр |
Скорость обучения | Ручной ввод Число больше 0 и меньше 1 По умолчанию — 0,3 | Данный параметр задает скорость обучения модели и контролирует, с каким весом предсказания каждой следующей модели суммируются с предсказаниями ансамбля. Значение по умолчанию (0,3) является слишком большим, обычно хорошо работают значения меньше 0.1 | Общий параметр |
Цель обучения для регрессии | Раскрывающийся список со следующими значениями: - Квадрат ошибки (по умолчанию)
- Функция потерь Хьюбера
- Пуассоновская регрессия
- Регрессия Твиди
- Гамма регрессия
| Данный параметр задает используемую при обучении функцию потерь. Предусмотрены следующие: - Квадрат ошибки – квадратичная функция потерь
- Функция потерь Хьюбера – функция квадратична для малых значений остатка (разница между наблюдаемым и предсказанным значением), и линейна для больших значений остатка
- Пуассоновская регрессия – предназначена для прогнозирования счетчиков (неотрицательных целых чисел) (например, количество дождевых явлений в год или количество событий прерывания производства в год). Поэтому использовать данную функцию следует в случае соответствия следующим условиям:
- переменная ответа имеет распределение Пуассона,
- метки не должны быть отрицательными
- бессмысленно использовать для дробных чисел
- Регрессия Твиди – предназначена для прогнозирования целевой переменной, имеющей распределение Твиди (например, общее количество осадков в год или общее время прерывания в год)
- Гамма регрессия – предназначена для прогнозирования целевой переменной, имеющей гамма-распределение (например, количество осадков на одно событие или продолжительность прерывания)
| Общий параметр |
Цель обучения для классификации | Раскрывающийся список со следующими значениями: - Бинарная логистическая регрессия (по умолчанию)
- Бинарная с hinge loss
- Мультиклассовая с softprob
- Мультиклассовая с softmax
| Данный параметр задает используемую при обучении функцию потерь. Предусмотрены следующие: - Бинарная логистическая регрессия – возвращает прогнозируемую вероятность (не класс)
- Бинарная с hinge loss – кусочно-линейная функция потерь для бинарной классификации. Возвращает принадлежность одному из двух классов – 0 или 1
- Мультиклассовая с softprob – функция softprob для мультиклассовой классификации, возвращает матрицу со значениями вероятности каждого класса
- Мультиклассовая с softmax – функция softmax для мультиклассовой классификации, возвращает класс с максимальной вероятностью принадлежности
| Общий параметр |
Дисперсия распределения Твиди | Ручной ввод Число больше 1 и меньше 2 По умолчанию — 1,5 | Данный параметр используется для управления дисперсией распределения Твиди. Значение ближе к 2 переходит в гамма-распределение, значение ближе к 1 – распределение Пуассона. | Параметр актуален при заданных Цели обучения для регрессии = Регрессия Твиди и Метриках для валидации регрессии, связанными с распределением Твиди. |
Размер (%) валидационной выборки для ранней остановки | Ручной ввод Число больше 0 и меньше 1 По умолчанию – 0,1 | Данный параметр задает размер (%) валидационной выборки для ранней остановки | Общий параметр |
Количество итераций до ранней остановки | Ручной ввод По умолчанию – 0 | Данный параметр задает количество итераций до ранней остановки | Общий параметр |
Метрика для валидации регрессии | Раскрывающийся список со следующими значениями: - RMSE (по умолчанию)
- MAE
- MAPE
- poisson nloglik
- gamma nloglik
- gamma deviance
- tweedie nloglik
| Данный параметр задает метрику качества на валидационной выборке. Предусмотрены следующие метрики: - RMSE – Среднеквадратическая ошибка
- MAE – Средняя абсолютная ошибка
- MAPE – Средняя абсолютная ошибка в процентах
- poisson nloglik – отрицательная логарифмическая функция правдоподобия для регрессии Пуассона
- gamma nloglik – отрицательная логарифмическая функция правдоподобия для гамма-регрессии
- gamma deviance – остаточное отклонение для гамма-регрессии
- tweedie nloglik – отрицательная логарифмическая функция правдоподобия для регрессии Твиди
| Общие параметры |
Метрика для валидации классификации | Раскрывающийся список со следующими значениями: - logloss (по умолчанию)
- error
- merror
- mlogloss
- auc
- aucpr
| Данный параметр задает метрику качества на валидационной выборке. Предусмотрены следующие метрики: - logloss – логистическая функция ошибки
- error – частота ошибок бинарной классификации, рассчитывается как неправильно классифицированные объекты/все объекты. При прогнозировании положительными экземплярами будут считаться наблюдения со значением прогноза больше 0,5, остальные – как отрицательные
- merror – частота ошибок мультикласссовой классификации, рассчитывается как неправильно классифицированные объекты/все объекты
- mlogloss – мультиклассовая логистическая функция ошибки
- auc – количественная интерпретация кривой шибок, площадь, ограниченная ROC-кривой и осью доли ложных положительных классификаций
- aucpr – площадь под PR-кривой (Precision-Recall curve)
| Общие параметры |
Cutoff для метрики error | Ручной ввод По умолчанию – 0,5 | Данный параметр задает порог отсечения, чтобы относить новые примеры к одному из двух классов (задача бинарной классификации). | Общие параметры Актуален при выбранной метрике error для валидации классификации. |
Способ определения важности переменных | Раскрывающийся список со следующими значениями: - gain (по умолчанию)
- weight
- cover
- total gain
- total cover
| Данный параметр определяет метод оценки важности переменных. Предусмотрены следующие методы: - gain – средний выигрыш по всем разделениям (splits), в которых используется переменная
- weight – количество раз, когда переменная используется для разделения данных по всем деревьям
- cover – среднее количество наблюдений для каждой фичи по всем разделениям, в которых используется переменная
- total gain – общий выигрыш по всем разделениям, в которых используется переменная
- total cover – общее количество наблюдений для каждой фичи всех разделений, в которых используется переменная
| Параметры для Tree Booster (Бустер = gbtree). Для Бустер = gblinear значение параметра = 'weight' |
Количество параллельных потоков | Ручной ввод Число больше или равно 0 По умолчанию – 0 | Данный параметр задает количество параллельных потоков, используемых для запуска xgboost 0 означает использование всех доступных потоков (CPU) | Общие параметры |
Seed | Ручной ввод числового значения По умолчанию — 42 | Начальное числовое значение для генератора случайных чисел | Общие параметры |
Метод построения дерева | Раскрывающийся список со следующими значениями: - auto (по умолчанию)
- exact
- approx
- hist
| Данный параметр задает метод построения дерева. Предусмотрены следующие методы: - auto – для небольшого набора данных будет использован exact, для большого набора данных – approx
- exact – жадный алгоритм, который перебирает все наблюдения входного набора в ходе процедуры поиска разделения. Данный метод более точен среди других жадных методов, но медленнее в вычислительной производительности
- approx – приближенный жадный алгоритм, который использует quantile sketch (квантильные наброски) и gradient histogram (приближенные гистограммы статистики градиента)
- hist – более быстрый приближенный жадный алгоритм, оптимизированный для histogram.
| Параметры для Tree Booster и DART (Бустер = gbtree или dart) |
Метод добавление узлов к дереву | Раскрывающийся список со следующими значениями: - depthwise (по умолчанию)
- lossguide
| Данный параметр задает способ добавления новых узлов к дереву. Предусмотрены следующие методы: - depthwise – разделение в узлах, ближайших к корню
- lossguide – разделение на узлы с наибольшим изменением значения функции потерь
| Параметры для Tree Booster и DART (Бустер = gbtree или dart) Поддерживается только если метод построения дерева выбран как hist |
Количество параллельных деревьев | Ручной ввод Число больше или равно 0 По умолчанию – 1 | Данный параметр задает количество параллельных деревьев, построенных на каждой итерации | Параметры для Tree Booster и DART (Бустер = gbtree или dart) |
Максимальная глубина дерева | Ручной ввод Число больше 0 По умолчанию – 6 | Данный параметр задает максимальную глубину дерева | Параметры для Tree Booster и DART (Бустер = gbtree или dart) |
Минимальное снижение потери для разбиения | Ручной ввод Число больше или равно 0, float По умолчанию – 0 | Данный параметр задает значение минимального уменьшения функции потерь для разбиения | Параметры для Tree Booster и DART (Бустер = gbtree или dart) |
Максимальное количество листов | Ручной ввод Число больше или равно 0 По умолчанию – 0 | Данный параметр задает максимальное количество листов. | Параметры для Tree Booster и DART (Бустер = gbtree или dart) Актуален, если выбран Метод добавления узлов к дереву = lossguide |
Максимальное количество бинов для интервальных переменных | Ручной ввод Число больше 0 По умолчанию – 256 | Данный параметр задает максимальное количество бинов для интервальных переменных. Увеличение этого числа повышает оптимальное разделения за счет увеличения времени вычислений. | Параметры для Tree Booster и DART (Бустер = gbtree или dart) Актуален, если выбран метод построения дерева = hist |
Относительное количество бинов (sketch_eps) | Ручной ввод Число больше 0 и меньше 1 По умолчанию – 0,03 | Данный параметр задает относительное количество бинов, примерно соответствующее 1 / sketch_eps. По сравнению с прямым выбором количества бинов дает теоретическую гарантию точности набросков (sketch). | Параметры для Tree Booster и DART (Бустер = gbtree или dart) Актуален, если выбран метод построения дерева = approx |
Соотношение колонок для каждого дерева | Ручной ввод Число больше 0 и меньше или равно 1 По умолчанию – 1 | Данный параметр задает долю переменных, используемых на каждой итерации (при построении каждого дерева). Подвыборка происходит один раз для каждого построенного дерева | Параметры для Tree Booster и DART (Бустер = gbtree или dart) Данные параметры работают кумулятивно. Например, комбинация {'colsample_bytree':0,5, 'colsample_bylevel':0,5, 'colsample_bynode':0,5} с 64 функциями оставит 8 функций на выбор при каждом разбиении. |
Соотношение колонок для каждого уровня | Ручной ввод Число больше 0 и меньше или равно 1 По умолчанию – 1 | Данный параметр задает долю подвыборки признаков, которые будут использованы для обучения каждого уровня. Подвыборка происходит один раз для каждого нового уровня глубины, достигнутого в дереве. Колонки выбираются из набора колонок, выбранных для текущего дерева. |