Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

В основе узла «Иерархическая кластеризация» лежит алгоритм кластеризации, направленный на создание иерархии вложенных кластеров.

Алгоритм работы: Каждое наблюдение начинается в своем собственном кластере (Шаг 0), далее кластеры последовательно объединяются. Так, первоначально рассчитываются расстояния (расчет расстояния задает параметр Метрика) между наблюдениями, ближайшие из них объединяются в один кластер. Параметр Критерий объединения определяет стратегию слияния кластеров. Затем вычисляется расстояние между кластерами и ближайшие объединяются в один большой кластер. Слияние кластеров происходит до тех пор, пока не будет синтезирован один единый кластер (Шаг N).

...



Для остановки алгоритма необходимо указать в параметре Критерий остановки требуемый вариант – по достижению заданного количества кластеров, либо по минимальному расстоянию между кластерами.

Для определения значения количества кластеров или расстояния между кластерами рекомендуется воспользоваться дендрограммой в результатах узла.

...

Scroll Title
title-positiontop
title-alignmentright
titleСписок параметров узла "Иерархическая кластеризация"

Параметр

Возможные значения и ограничения

Описание

Название

Ручной ввод
Ограничений на значение нет

Название узла, которое будет отображаться в интерфейсе

Описание

Ручной ввод
Ограничений на значение нет

Описание узла

Критерий остановки

Раскрывающийся список со следующими значениями:

  • Количество кластеров (по умолчанию)
  • Расстояние
Данные

Данный параметр отвечает за выбор критерия остановки алгоритма. Предусмотрены следующие методы:

  • Количество кластеров
    Достигнуто указанное в параметре Количество кластеров значение
  • Расстояние
    Достигнуто указанное в параметре Минимальное расстояние значение.

Количество кластеров

Ручной ввод целочисленного значения
Число больше или равно 1
По умолчанию — 5

Данный параметр задает число кластеров, на которые будет делиться пространство признаков. Действителен при выбранном Критерии остановки Количество кластеров

Минимальное расстояние

Ручной ввод
Число больше или равно 0
По умолчанию — 0

Данный параметр задает минимальное расстояние между кластерами для остановки алгоритма. Действителен при выбранном Критерии остановки Расстояние
Для определения значения минимального расстояния можно воспользоваться Дендрограммой в результатах узла.

Стандартизация

Раскрывающийся список со следующими значениями:

  • Нет
  • Стандартное отклонение
  • Диапазон
Данные

Данный параметр отвечает за выбор метода стандартизации числовых переменных.
Стандартизация – преобразование числовых наблюдений с целью приведения их к некоторой общей шкале. Необходимость стандартизации вызвана тем, что разные признаки из обучающего набора могут быть представлены в разных масштабах и изменяться в разных диапазонах, что влияет на выявление некорректных зависимостей моделью.
Предусмотрены следующие методы:

  • Нет.
  • Стандартное отклонение – преобразует наблюдения таким образом, чтобы их среднее значение равнялось нулю, а стандартное отклонение равнялось 1.
  • Диапазон – линейно преобразует значения переменных в диапазон [0, 1].

Метрика

Раскрывающийся список со следующими значениями:

  • Евклидова метрика
  • Манхэттенская метрика
  • Косинус
Данные

Данный параметр отвечает за выбор метрики, которая задает расчет расстояния между наблюдениями. Выбор метрики влияет на форму кластеров, поскольку некоторые элементы могут быть относительно ближе друг к другу по одной метрике, чем по другой.
Предусмотрены следующие метрики:

  • Евклидова метрика
  • Манхэттенская метрика
  • Косинус

Критерий объединения

Раскрывающийся список со следующими значениями:

  • Ward (можно использовать только если в качестве метрики близости наблюдений выбрана Евклидова метрика)
  • Average
  • Maximum
  • Minimum

Метрика, используемая для объединения кластеров. Предусмотрены следующие метрики близости кластеров:

  • Ward
    минимизирует сумму квадратов разностей во всех кластерах
  • Average
    минимизирует среднее расстояние между всеми наблюдениями пар кластеров.
  • Maximum
    сводит к минимуму максимальное расстояние между наблюдениями пар кластеров
  • Minimum
    минимизирует расстояние между ближайшими наблюдениями пар кластеров

Seed

Ручной ввод целочисленного значения
По умолчанию — 42

Начальное числовое значение для генератора случайных чисел.
Используется для воспроизведения результатов при повторном запуске узла

Размер выборки

Ручной ввод целочисленного значения
Значение больше или равно 2
По умолчанию — 1000

Данный параметр задает размер выборки, которая будет отображена на графике Силуэт в результатах узла

Расстояние между кластерами

Ручной ввод
Значение больше или равно 0
По умолчанию — 25

Данный параметр задает расстояние между кластерами на графике Силуэт в результатах узла

Количество бинов

Ручной ввод целочисленного значения
Значение больше или равно 1
По умолчанию — 10

Данный параметр задает количество бинов, на которое будет делиться количественная переменная на графике с параллельными осями в результатах узла

Переменные, по которым делать оси

Раскрывающийся список с выбором нескольких переменных

Данный параметр задает переменные, которые будут отражены на графике с параллельными осями в результатах узла

Максимальное количество линий

Ручной ввод целочисленного значения
Значение больше или равно 1
По умолчанию — 50

Данный параметр задает максимальное количество линий, которые будут отражены на графике с параллельными осями в результатах узла


Параметры узла «Иерархическая кластеризация»

...

Scroll Title
title-alignmentcenter
titleПример Silhouette Plot


Значение Silhouette для каждого наблюдения (на графике отображается указанное в параметре Размер выборки число наблюдений) является мерой того, насколько это наблюдение похоже на наблюдения в собственном кластере по сравнению с наблюдениями в других кластерах.

Значение Silhouette находится в диапазоне от -1 до 1. Высокое значение указывает на то, что наблюдение хорошо соответствует собственному кластеру и плохо соответствует другим кластерам.

Если большинство наблюдений имеют низкое или отрицательное значение Silhouette, тогда пользователь должен перестроить кластеризацию с большим или меньшим количеством кластеров.

...

График в параллельных координатах позволяет интерпретировать построенные кластеры.

На данном графике каждой переменной присваивается собственная ось (согласно параметру Переменные, по которым делать оси). Оси располагаются параллельно друг другу, и каждая имеют имеет свою собственную шкалу. Начальная ось отражает кластер, к которому модель отнесла наблюдение. Каждое наблюдение наносится на график в виде линии (параметр параметр Максимальное количество линий), пересекающейся с каждой из осей. Таким образом, пользователь может выявить паттерны и корреляции между разными переменными.

...