Узел «Линейные модели»

Узел «Линейные модели» объединяет в себе линейные классификаторы и регрессоры с обучением методом стохастического градиентного спуска и поддерживает различные функции потерь и штрафы.
Список параметров узла представлен в Таблица 33.
Таблица 33 — Параметры узла «Линейные модели»

Параметр	Возможные значения и ограничения	Описание
Название	Ручной ввод Ограничений на значение нет	Название узла, которое будет отображаться в интерфейсе
Описание	Ручной ввод Ограничений на значение нет	Описание узла
Функция потерь для классификации	Раскрывающийся список со следующими значениями: hinge (по умолчанию) log modified_huber squared_hinge perceptron squared_loss huber epsilon_insensitive squared_epsilon_insensitive	Данный параметр задает функцию потерь для классификационной задачи. Предусмотрены следующие функции: hinge – средняя потеря петель log – логистическая регрессия modified_huber – сглаженная потеря петли squared_hinge – похож на hinge, но его штраф возведен в квадрат perceptron – перцептрон squared_loss – метод наименьших квадратов huber – потеря Хубера epsilon_insensitive squared_epsilon_insensitive
Функция потерь для регрессии	Раскрывающийся список со следующими значениями: squared_error (по умолчанию) huber epsilon_insensitive squared_epsilon_insensitive	Данный параметр задает функцию потерь для регрессионной задачи. Предусмотрены следующие функции: squared_error – метод наименьших квадратов huber – потеря Хубера epsilon_insensitive squared_epsilon_insensitive
Epsilon	Ручной ввод Неотрицательное число По умолчанию — 0,1	Данный параметр задает Epsilon в функцию потерь
L1	Ручной ввод Число больше или равно 0 По умолчанию — 0,5	Данный параметр задает значение L1-регуляризации
L2	Ручной ввод Число больше или равно 0 По умолчанию — 0,5	Данный параметр задает значение L2-регуляризации
Правило определения скорости обучения	Раскрывающийся список со следующими значениями: constant optimal (по умолчанию) invscaling adaptive	Данный параметр задает правило определения скорости обучения. Предусмотрены следующие: constant – постоянная скорость обучения optimal – опеределяется на основе эвристики, предложенной Леоном Ботту invscaling – обратное масштабирование adaptive – адаптивноое уменьшения скорости обучения
Начальная скорость обучения	Ручной ввод Неотрицательное число По умолчанию — 0,001	Данный параметр задает начальную скорость обучения
Стандартизация	Раскрывающийся список со следующими значениями: no (по умолчанию) std range	Данные параметр отвечает за выбор метода стандартизации данных. Предусмотрены следующие методы: no — нет std — стандартное отклонение - преобразует наблюдения таким образом, чтобы их среднее значение равнялось нулю, а стандартное отклонение равнялось 1. <ac:structured-macro ac:name="unmigrated-wiki-markup" ac:schema-version="1" ac:macro-id="e88554d9-cb25-4e5f-9ccd-465b131f19a7"><ac:plain-text-body><![CDATA[* range — диапазон - линейно преобразует значения переменных в диапазон [0, 1].	]]></ac:plain-text-body></ac:structured-macro>
Метод построения вероятностей	Раскрывающийся список со следующими значениями: linear (по умолчанию) logistic	Данный параметр задает метод построения вероятностей
Показатель степени для изменения скорости обучения	Ручной ввод Неотрицательное число По умолчанию — 0,5	Данный параметр задает показатель степени для изменения скорости обучения
Добавить константу в модель	Чекбокс	Выбор данного чекбокса добавит константу в модель
Перемешать наблюдения	Чекбокс	Выбор данного чекбокса указывает на необходимость перемешать наблюдения
Seed	Ручной ввод числового значения По умолчанию — 42	Начальное числовое значение для генератора случайных чисел
Усреднение коэффициентов	Ручной ввод Число больше или равно 0 По умолчанию — 0	Данный параметр задает вычисление усредненных коэффициентов в результирующей линейной модели
Количество итераций	Ручной ввод Неотрицательное число По умолчанию — 1000	Данный параметр задает количество итераций, после достижения алгоритм останавливается
Ранняя остановка	Чекбокс	Выбор данного чекбокса указывает на необходимость ранней остановки алгоритма, если валидационная оценка не улучшается
Размер % валидационной выборки для ранней остановки	Ручной ввод Число больше 0 и меньше 1 По умолчанию — 0,1	Данный параметр задает долю обучающих данных, которые нужно отложить в качестве валидационного набора для ранней остановки
Допустимая погрешность	Ручной ввод Неотрицательное число По умолчанию — 0,0001	Данный параметр задает допустимую погрешность для оптимизации

Результаты выполнения узла:
Узел «Линейные модели» имеет разные результаты в зависимости от решаемой задачи.
Результаты регрессии представлены следующими объектами:

Тепловые карты для обучающей, валидационной и тестовой выборок (Аналогично узлу «Байесовская регрессия» Рисунок 142).
Таблица с метриками качества модели (Аналогично узлу «Байесовская регрессия» Рисунок 143).
Таблица с коэффициентами переменных (Аналогично узлу «Байесовская регрессия» Рисунок 144).

Результаты бинарной классификации представлены следующими объектами:

График ROC.
График Lift.
График Cumulative Lift.
График Gain.
График Cumulative Gain.
Таблица с метриками качества модели.
Таблица с метриками качества модели задачи классификации.
Таблица с коэффициентами переменных.

Результаты многоклассовой классификации представлены следующими объектами:

Таблица с метриками качества модели (Аналогично узлу «Логистическая регрессия» Рисунок 145).
Таблица с метриками качества модели задачи классификации (Аналогично узлу «Логистическая регрессия» Рисунок 146).
Таблица с коэффициентами переменных (Аналогично узлу «Логистическая регрессия» Рисунок 147).

Быстрые ссылки

Дерево страниц