Вы просматриваете старую версию данной страницы. Смотрите текущую версию.

Сравнить с текущим просмотр истории страницы

Версия 1 Следующий »

Узел «Линейные модели» объединяет в себе линейные классификаторы и регрессоры с обучением методом стохастического градиентного спуска и поддерживает различные функции потерь и штрафы.
Список параметров узла представлен в Таблица 33.
Таблица 33 — Параметры узла «Линейные модели»

Параметр

Возможные значения и ограничения

Описание

Название

Ручной ввод
Ограничений на значение нет

Название узла, которое будет отображаться в интерфейсе

Описание

Ручной ввод
Ограничений на значение нет

Описание узла

Функция потерь для классификации

Раскрывающийся список со следующими значениями:

  • hinge (по умолчанию)
  • log
  • modified_huber
  • squared_hinge
  • perceptron
  • squared_loss
  • huber
  • epsilon_insensitive
  • squared_epsilon_insensitive

Данный параметр задает функцию потерь для классификационной задачи. Предусмотрены следующие функции:

  • hinge – средняя потеря петель
  • log – логистическая регрессия
  • modified_huber – сглаженная потеря петли
  • squared_hinge – похож на hinge, но его штраф возведен в квадрат
  • perceptron – перцептрон
  • squared_loss – метод наименьших квадратов
  • huber – потеря Хубера
  • epsilon_insensitive
  • squared_epsilon_insensitive

Функция потерь для регрессии

Раскрывающийся список со следующими значениями:

  • squared_error (по умолчанию)
  • huber
  • epsilon_insensitive
  • squared_epsilon_insensitive

Данный параметр задает функцию потерь для регрессионной задачи. Предусмотрены следующие функции:

  • squared_error – метод наименьших квадратов
  • huber – потеря Хубера
  • epsilon_insensitive
  • squared_epsilon_insensitive

Epsilon

Ручной ввод
Неотрицательное число
По умолчанию — 0,1

Данный параметр задает Epsilon в функцию потерь

L1

Ручной ввод
Число больше или равно 0
По умолчанию — 0,5

Данный параметр задает значение L1-регуляризации

L2

Ручной ввод
Число больше или равно 0
По умолчанию — 0,5

Данный параметр задает значение L2-регуляризации

Правило определения скорости обучения

Раскрывающийся список со следующими значениями:

  • constant
  • optimal (по умолчанию)
  • invscaling
  • adaptive

Данный параметр задает правило определения скорости обучения. Предусмотрены следующие:

  • constant – постоянная скорость обучения
  • optimal – опеределяется на основе эвристики, предложенной Леоном Ботту
  • invscaling – обратное масштабирование
  • adaptive – адаптивноое уменьшения скорости обучения

Начальная скорость обучения

Ручной ввод
Неотрицательное число
По умолчанию — 0,001

Данный параметр задает начальную скорость обучения

Стандартизация

Раскрывающийся список со следующими значениями:

  • no (по умолчанию)
  • std
  • range

Данные параметр отвечает за выбор метода стандартизации данных. Предусмотрены следующие методы:

  • no — нет
  • std — стандартное отклонение - преобразует наблюдения таким образом, чтобы их среднее значение равнялось нулю, а стандартное отклонение равнялось 1.
    <ac:structured-macro ac:name="unmigrated-wiki-markup" ac:schema-version="1" ac:macro-id="e88554d9-cb25-4e5f-9ccd-465b131f19a7"><ac:plain-text-body><![CDATA[* range — диапазон - линейно преобразует значения переменных в диапазон [0, 1].

]]></ac:plain-text-body></ac:structured-macro>

Метод построения вероятностей

Раскрывающийся список со следующими значениями:

  • linear (по умолчанию)
  • logistic

Данный параметр задает метод построения вероятностей

Показатель степени для изменения скорости обучения

Ручной ввод
Неотрицательное число
По умолчанию — 0,5

Данный параметр задает показатель степени для изменения скорости обучения

Добавить константу в модель

Чекбокс

Выбор данного чекбокса добавит константу в модель

Перемешать наблюдения

Чекбокс

Выбор данного чекбокса указывает на необходимость перемешать наблюдения

Seed

Ручной ввод числового значения
По умолчанию — 42

Начальное числовое значение для генератора случайных чисел

Усреднение коэффициентов

Ручной ввод
Число больше или равно 0
По умолчанию — 0

Данный параметр задает вычисление усредненных коэффициентов в результирующей линейной модели

Количество итераций

Ручной ввод
Неотрицательное число
По умолчанию — 1000

Данный параметр задает количество итераций, после достижения алгоритм останавливается

Ранняя остановка

Чекбокс

Выбор данного чекбокса указывает на необходимость ранней остановки алгоритма, если валидационная оценка не улучшается

Размер % валидационной выборки для ранней остановки

Ручной ввод
Число больше 0 и меньше 1
По умолчанию — 0,1

Данный параметр задает долю обучающих данных, которые нужно отложить в качестве валидационного набора для ранней остановки

Допустимая погрешность

Ручной ввод
Неотрицательное число
По умолчанию — 0,0001

Данный параметр задает допустимую погрешность для оптимизации

Результаты выполнения узла:
Узел «Линейные модели» имеет разные результаты в зависимости от решаемой задачи.
Результаты регрессии представлены следующими объектами:

  • Тепловые карты для обучающей, валидационной и тестовой выборок (Аналогично узлу «Байесовская регрессия» Рисунок 142).
  • Таблица с метриками качества модели (Аналогично узлу «Байесовская регрессия» Рисунок 143).
  • Таблица с коэффициентами переменных (Аналогично узлу «Байесовская регрессия» Рисунок 144).

Результаты бинарной классификации представлены следующими объектами:

  • График ROC.
  • График Lift.
  • График Cumulative Lift.
  • График Gain.
  • График Cumulative Gain.
  • Таблица с метриками качества модели.
  • Таблица с метриками качества модели задачи классификации.
  • Таблица с коэффициентами переменных.

Результаты многоклассовой классификации представлены следующими объектами:

  • Таблица с метриками качества модели (Аналогично узлу «Логистическая регрессия» Рисунок 145).
  • Таблица с метриками качества модели задачи классификации (Аналогично узлу «Логистическая регрессия» Рисунок 146).
  • Таблица с коэффициентами переменных (Аналогично узлу «Логистическая регрессия» Рисунок 147).
  • Нет меток