сумму весов экземпляров (Гессиан), необходимую для дочернего элемента (листа) | Построение дерева |
Минимальное количество наблюдений в листе | По умолчанию – 20 | Данный параметр задает минимальное количество наблюдений в листе | Построение дерева |
Доля выборки признаков в каждой итерации | По умолчанию – 1 | Данный параметр задает долю переменных, используемых на каждой итерации (при построении каждого дерева). | Построение дерева |
Доля выборки признаков в каждом узле дерева | По умолчанию – 1 | Данный параметр задает долю подвыборки признаков, которые будут использованы для каждого разделения (узла). | Построение дерева |
Использовать экстремально рандомизированные деревья | Чекбокс | Выбор данного чекбокса указывает на необходимость использования экстремально рандомизированных деревьев.
В экстремально рандомизированных деревьях используется случайное подмножество объектов-кандидатов, но вместо поиска наиболее отличительных пороговых значений пороги выбираются случайным образом для каждого объекта-кандидата, и лучший из этих случайно сгенерированных пороговых значений выбирается в качестве правила разделения. Обычно это позволяет еще немного уменьшить дисперсию модели за счет чуть большего увеличения смещения | Построение дерева |
Доля отбрасываемых деревьев | Ручной ввод Число больше или равно 0 и меньше или равно 1 По умолчанию – 0,1 | Данный параметр задает долю отбрасываемых деревьев | Параметры для DART (Бустер = dart) |
Максимальное количество отбрасываемых деревьев | По умолчанию – 50 | Данный параметр задает максимальное число отбрасываемых деревьев | Параметры для DART (Бустер = dart) |
Вероятность отсутствия отбрасывания | Ручной ввод Число больше или равно 0 и меньше или равно 1 По умолчанию – 0,5 | Данный параметр задает вероятность пропуска процедуры отбрасывания деревьев. Если процедура отбрасывания деревьев пропущена, новые деревья добавляются так же, как и gbtree | Параметры для DART (Бустер = dart) |
Использовать XGBoost DART | Чекбокс | Выбор данного чекбокса указывает на необходимость использования XGBoost DART | Параметры для DART (Бустер = dart) |
Использовать uniform drop | Чекбокс | Выбор данного чекбокса указывает на то, что отбрасываемые деревья выбираются равномерно. | Параметры для DART (Бустер = dart) |
Коэффициент сохранения большого градиента | Ручной ввод Число больше или равно 0 и меньше или равно 1 По умолчанию – 0,2 | Данный параметр задает коэффициент сохранения наблюдений с большим градиентом | Параметры для GOSS (Бустер = GOSS) |
Коэффициент сохранения маленького градиента | Ручной ввод Число больше или равно 0 и меньше или равно 1 По умолчанию – 0,1 | Данный параметр задает коэффициент сохранения наблюдений с маленьким градиентом | Параметры для GOSS (Бустер = GOSS) |
Соотношение случайной подвыборки в обучающей выборке | Ручной ввод Число больше или равно 0 и меньше или равно 1 По умолчанию – 1 | Данный параметр задает соотношение случайной подвыборки в обучающей выборке.
Для того, чтобы процесс бэггинга был запущен необходимо указать значение меньше 1. | Параметры бэггинга |
Частота случайной подвыборки | Ручной ввод целочисленного значения По умолчанию – 0 | Данный параметр задает выполнение бэггинга на каждой k (заданной значением) итерации. Каждая k-я итерация LightGBM будет случайным образом отбирать 'Соотношение случайной подвыборки в обучающей выборке'*100% данных для использования в следующих k итерациях.
Значение параметра равное 0 означает отключение бэггинга | Параметры бэггинга |
L1 регуляризатор | По умолчанию – 0 | Регуляризация добавляет ограничения алгоритма относительно аспектов модели, которые не зависят от данных для обучения. Регуляризация обычно используется, чтобы избежать переобучения. Регуляризация L1 применяется для получения максимально разреженной модели | Параметры регуляризации |
L2 регуляризатор | По умолчанию – 1 | Регуляризация L2 ограничивает чрезмерный рост какой-либо отдельной координаты весового вектора. Регуляризация L2 полезна в том случае, если целью является создание модели, имеющей в целом малые значения веса | Параметры регуляризации |
L2 регуляризатор для линейной регрессии | По умолчанию – 0 | Данный параметр задает линейную регуляризацию дерева | Параметры регуляризации |
L2 регуляризатор в категориальном разбиении | Ручной ввод Число больше или равно 0 По умолчанию – 10 | Данный параметр используется для задания регуляризации категориального разделения (сплита) | Параметры регуляризации |
Минимальное количество наблюдений в категориальной переменной | Ручной ввод Число больше 0 По умолчанию – 100 | Данный параметр задает минимальное количество наблюдений в категориальной переменной | Параметры для обработки категориальных признаков |
Лимит количества разбиений для категориальной переменной | По умолчанию – 32 | Данный параметр задает ограничение на количество разбиений (сплитов) для категориальной переменной | Параметры для обработки категориальных признаков |
Псевдосчет в сглаживании Лапласа | Ручной ввод Число больше или равно 0 По умолчанию – 10 | Данный параметр позволяет уменьшить влияние шумов на категориальные переменные, особенно для категорий с небольшим количеством данных. | Параметры для обработки категориальных признаков |
Максимальное количество категории для One-Hot Encoding | Ручной ввод Число больше 0 По умолчанию – 4 | Когда количество категорий одной переменной меньше или равно данному значению, будет использоваться алгоритм разделения one-vs-other («один против другого») | Параметры для обработки категориальных признаков |