разделение за счет увеличения времени вычислений. | Параметры для Tree Booster и DART (Бустер = gbtree или dart) Актуален, если выбран метод построения дерева = hist |
Относительное количество бинов (sketch_eps) | Ручной ввод Число больше 0 и меньше 1 По умолчанию – 0,03 | Данный параметр задает относительное количество бинов, примерно соответствующее 1 / sketch_eps. По сравнению с прямым выбором количества бинов дает теоретическую гарантию точности набросков (sketch). | Параметры для Tree Booster и DART (Бустер = gbtree или dart) Актуален, если выбран метод построения дерева = approx |
Соотношение колонок для каждого дерева | Ручной ввод Число больше 0 и меньше или равно 1 По умолчанию – 1 | Данный параметр задает долю переменных, используемых на каждой итерации (при построении каждого дерева). Подвыборка происходит один раз для каждого построенного дерева | Параметры для Tree Booster и DART (Бустер = gbtree или dart) Данные параметры работают кумулятивно. Например, комбинация {'colsample_bytree':0,5, 'colsample_bylevel':0,5, 'colsample_bynode':0,5} с 64 функциями оставит 8 функций на выбор при каждом разбиении. |
Соотношение колонок для каждого уровня | Ручной ввод Число больше 0 и меньше или равно 1 По умолчанию – 1 | Данный параметр задает долю подвыборки признаков, которые будут использованы для обучения каждого уровня. Подвыборка происходит один раз для каждого нового уровня глубины, достигнутого в дереве. Колонки выбираются из набора колонок, выбранных для текущего дерева. |
|
Соотношение колонок для каждого разбиения | Ручной ввод Число больше 0 и меньше или равно 1 По умолчанию – 1 | Данный параметр задает долю подвыборки признаков, которые будут использованы для каждого разделения (узла). Подвыборка происходит каждый раз, когда оценивается новое разбиение. Колонки (столбцы) выбираются из набора колонок, выбранного для текущего уровня |
|
Минимальный вес для потомка | Ручной ввод Число больше или равно 0 По умолчанию – 0 | Данный параметр задает минимальный вес потомка, необходимый для разделения. Если шаг разделения дерева приводит к листу с суммой весов меньше, чем заданное данным параметром значение, то процесс построения откажется от дальнейшего разделения. В задаче линейной регрессии это соответствует минимальному количеству наблюдений, которые должны быть в каждом узле. Чем больше значение, тем более консервативен алгоритм. | Параметры для Tree Booster и DART (Бустер = gbtree или dart) |
Максимальный шаг в листе | Ручной ввод Число больше или равно 0 По умолчанию – 0 | Данный параметр задает максимальный шаг обновления для каждого выходного листа. Если значение равно 0, это означает, что ограничения отсутствуют. Данный параметр может помочь при логистической регрессии, когда классы несбалансированы. | Параметры для Tree Booster и DART (Бустер = gbtree или dart) |
Соотношение случайной подвыборки в обучающей выборке | Ручной ввод Число больше 0 или меньше или равно 1 По умолчанию – 1 | Данный параметр задает долю объектов обучающей выборки, используемых на каждой итерации. При значении равном 0,5 XGBoost будет случайным образом отбирать половину обучающих данных перед обучением (growing) дерева, что предотвращает переобучение. Подвыборка будет происходить один раз в каждой итерации бустинга | Бэггинг |
Метод сэмплинга | Раскрывающийся список со следующими значениями: - uniform (по умолчанию)
- gradient based
| Данный параметр задает метод сэмплинга. Предусмотрены следующие методы: - uniform – каждое наблюдение имеет равную вероятность быть выбранным. Для хороших результатов необходимо выбрать соотношение случайной подвыборки в обучающей выборке = 0,5
- gradient based – вероятность выбора наблюдения пропорциональна регуляризованному абсолютному значению градиентов
| Бэггинг |
L1 регуляризатор | Ручной ввод По умолчанию – 0 | Регуляризация добавляет ограничения алгоритма относительно аспектов модели, которые не зависят от данных для обучения. Регуляризация обычно используется, чтобы избежать переобучения. Регуляризация L1 применяется для получения максимально разреженной модели | Регуляризация Параметры для Linear Booster и Tree Booster (Бустер = gblinear или Бустер = gbtree) |
L2 регуляризатор | Ручной ввод По умолчанию – 1 | Регуляризация L2 ограничивает чрезмерный рост какой-либо отдельной координаты весового вектора. Регуляризация L2 полезна в том случае, если целью является создание модели, имеющей в целом малые значения веса. | Регуляризация Параметры для Linear Booster и Tree Booster (Бустер = gblinear или Бустер = gbtree) |
Тип сэмплинга | Раскрывающийся список со следующими значениями: - uniform (по умолчанию)
- weighted
| Данный параметр задает тип алгоритма сэмплинга. Предусмотрены следующие: - uniform –деревья имеют одинаковую вероятность быть отброшенными
- weighted – отбрасываемые деревья выбираются пропорционально весу
| Параметры для DART (Бустер = dart) |
Тип алгоритма нормализации | Раскрывающийся список со следующими значениями: | Данный параметр задает тип алгоритма нормализации. Предусмотрены следующие варианты: - Дерево – новые деревья имеют такой же вес, как и каждое из отбрасываемых деревьев. Вес новых деревьев равен 1/(k + скорость обучения). Отбрасываемые деревья масштабируются с коэффициентом k /(k + скорость обучения)
- Лес – новые деревья имеют тот же вес, что и сумма отбрасываемых деревьев (леса). Вес новых деревьев равен 1/(k + скорость обучения). Отбрасываемые деревья масштабируются с коэффициентом k /(k + скорость обучения)
| Параметры для DART (Бустер = dart) |
Доля отбрасываемых деревьев | Ручной ввод Число больше или равно 0 и меньше или равно 1 По умолчанию – 0 | Данный параметр задает долю отбрасываемых деревьев | Параметры для DART (Бустер = dart) |
Отбрасывать хотя бы одно дерево | Чекбокс | Выбор данного чекбокса указывает на то, что по крайней мере одно дерево будет отбрасываться | Параметры для DART (Бустер = dart) |
Вероятность пропуска отбрасывания деревьев | Ручной ввод Число больше или равно 0 и меньше или равно 1 По умолчанию – 0 | Данный параметр задает вероятность пропуска процедуры отбрасывания деревьев. Если процедура отбрасывания деревьев пропущена, новые деревья добавляются так же, как и gbtree. | Параметры для DART (Бустер = dart) |
Алгоритм | Раскрывающийся список со следующими значениями: - shortgun (по умолчанию)
- coord descent
| Данный параметр задает алгоритм для обучения линейной модели. Предусмотрены следующие алгоритмы: - shortgun – алгоритм спуска с параллельными координатами
- coord descent – алгоритм спуска по обычным координатам
| Параметры для Linear Booster (Бустер = gblinear) |
Метод выбора переменных | Раскрывающийся список со следующими значениями: - cyclic (по умолчанию)
- shuffle
- random
- greedy
- thrifty
| Данный параметр задает метод выбора переменных. Предусмотрены следующие методы: - cyclic – детерминированный выбор путем циклического перебора признаков по одному
- shuffle – похоже на cyclic, но со случайным перемешиванием функций перед каждым обновлением
- random – случайный (с заменой) селектор координат
- greedy – выбирается координата с наибольшей величиной градиента.
- thrifty – перед циклическими обновлениями функции переупорядочиваются по убыванию величины их одномерных изменений веса
| Параметры для Linear Booster (Бустер = gblinear) |
Количество отбираемых переменных для жадных алгоритмов | Числовое значение По умолчанию – 0 | Данный параметр задает количество отбираемых переменных для жадных алгоритмов. Значение, равное 0, означает использование всех функций.
| Параметры для Linear Booster (Бустер = gblinear) Актуален, если выбраны метод выбора переменных = greedy или thrifty |