Параметр | Возможные значения и ограничения | Описание |
---|
Название | Ручной ввод Ограничений на значение нет | Название узла, которое будет отображаться в интерфейсе |
Описание | Ручной ввод Ограничений на значение нет | Описание узла |
Префикс выходных переменных | Ручной ввод По умолчанию — BIN_ | Данный параметр задает префикс для выходных переменных узла Используется для биннинга интервальных переменных |
Обработка значений вне диапазона | Раскрывающийся список со следующими значениями: - Включить в крайние бины (по умолчанию)
- Отдельные бины
- Игнорировать
| Данный параметр указывает что делать со значениями вне диапазона. Используется для биннинга интервальных переменных |
Бин для пропущенных значений | Чекбокс | Выбор данного чекбокса указывает, что необходимо посчитать отдельный бин для пропущенных значений Используется для биннинга интервальных переменных |
Переменные | Кнопка | Используется для биннинга интервальных переменных При выборе кнопки «Переменные» открывается окно Переменные, в котором необходимо выбрать переменные для биннинга и указать необходимые параметры. Параметр Метод задает метод, который будет использоваться для бинаризации переменной. Предусмотрены следующие методы: - Одинаковая ширина (по умолчанию)
- Квантильный
- Дерево
Параметр Количество бинов имеет значение по умолчанию, равное 10. Для метода Дерево значение должно быть больше или равно 2. Для остальных методов – больше или равно 1.
|
Минимальное количество наблюдений в бине | Ручной ввод целочисленного значения больше ли равно 1 По умолчанию — 1 | Является дополнительным параметром для биннинга на основе дерева и задает минимальное количество наблюдений в бине |
Критерий разбиения для регрессии | Раскрывающийся список со следующими значениями: - squared error (по умолчанию)
- friedman mse
- absolute error
- poisson
| Является дополнительным параметром для биннинга на основе дерева и задает критерий разбиения для регрессии. Предусмотрены следующие критерии: - squared error (среднеквадратичная ошибка)
- friedman mse (среднеквадратичная ошибка с оценкой улучшения Фридмана)
- absolute error (средняя абсолютная ошибка)
- poisson (отклонение Пуассона)
|
Критерий разбиения для классификации | Раскрывающийся список со следующими значениями: - gini (по умолчанию)
- entropy
| Является дополнительным параметром для биннинга на основе дерева и задает критерий разбиения для классификации. Предусмотрены следующие критерии: - gini (коэффициент Джини)
- entropy (критерий прироста информации, энтропия)
|
Префикс выходных переменных | Ручной ввод По умолчанию — ENC_ | Данный параметр используется для кодирования категориальных переменных и задает префикс для выходных переменных узла |
Обработка пропущенных значений | Раскрывающийся список со следующими значениями: | Данный параметр используется для кодирования категориальных переменных и задает метод обработки пропущенных значений. Предусмотрены следующие методы: - Пропуск – будет поставлено NaN.
- Значение – зависит от выбранного метода энкодинга. Для Count и Freq Encoding – пропуск как отдельная категория, Target Encoding – среднее значение целевой переменной на обучающей выборке (train), WOE Encoding – значение 0.
|
Обработка неизвестных значений | Раскрывающийся список со следующими значениями: | Данный параметр используется для кодирования категориальных переменных и задает метод обработки неизвестных значений. Предусмотрены следующие методы: - Пропуск – будет поставлено NaN.
- Значение – зависит от выбранного метода энкодинга. Для Count, Freq и WOE Encoding – значение 0, Target Encoding – среднее значение целевой переменной на обучающей выборке (train).
|
Минимальная частота значений | Ручной ввод Число больше или равно 0 и меньше или равно 1 По умолчанию — 0 | Данный параметр используется для кодирования категориальных переменных и задаёт минимальный % значений с категорией для того, чтобы не считать её редкой. Все редкие категории собираются в одну категорию и при скоринге для всех редких категорий будет проставлено одно и то же значение. Пропущенные значение не входят в редкие категории. |
Количество итераций кросс-валидации | Ручной ввод Число больше или равно 0 По умолчанию — 0 | Данный параметр используется для кодирования категориальных переменных и задает количество итераций кросс-валидации. Кросс-валидация используется для борьбы с переобучением при использовании кодировщиков, основанных на целевой переменной (методы Target Encoding и WOE). |
Переменные | Кнопка | Используется для кодирования категориальных переменных При выборе кнопки «Переменные» открывается окно Переменные, в котором необходимо выбрать переменные для энкодинга и указать необходимые параметры. Параметр Метод задает метод, который будет использоваться для энкодинга. Предусмотрены следующие методы: - Количество (Count Encoding)
- Частота (Freq Encoding)
- Целевая (Target Encoding)
- WOE (Weight of Evidence)
|
Сдвиг | Ручной ввод По умолчанию — 1 | Параметр для Target Encoding Данный параметр используется для кодирования категориальных переменных и задает сдвиг |
Масштаб | Ручной ввод Число больше 0 По умолчанию — 0,001 | Параметр для Target Encoding Данный параметр используется для кодирования категориальных переменных и задает масштаб |
Рандомизация | Чекбокс | Параметр для WOE Encoding Выбор чекбокса указывает на необходимость рандомизации |
Стандартное отклонение | Ручной ввод Число больше или равно 0 По умолчанию — 0,05 | Параметр для WOE Encoding Данный параметр используется для кодирования категориальных переменных и задает стандартное отклонение |
Регуляризация | Ручной ввод Число больше или равно 0 По умолчанию — 1 | Параметр для WOE encoding Данный параметр используется для кодирования категориальных переменных и задает значение регуляризации |