Вы просматриваете старую версию данной страницы. Смотрите текущую версию.

Сравнить с текущим просмотр истории страницы

Версия 1 Следующий »

В основе узла «Иерархическая кластеризация» лежит алгоритм кластеризации, направленный на создание иерархии вложенных кластеров.
Алгоритм работы: Каждое наблюдение начинается в своем собственном кластере (Шаг 0), далее кластеры последовательно объединяются. Так, первоначально рассчитываются расстояния (расчет расстояния задает параметр Метрика) между наблюдениями, ближайшие из них объединяются в один кластер. Параметр Критерий объединения определяет стратегию слияния кластеров. Затем вычисляется расстояние между кластерами и ближайшие объединяются в один большой кластер. Слияние кластеров происходит до тех пор, пока не будет синтезирован один единый кластер (Шаг N) (Рисунок 120).

Рисунок 120 — Схема работы алгоритма Иерархической кластеризации
Для остановки алгоритма необходимо указать в параметре Критерий остановки требуемый вариант – по достижению заданного количества кластеров, либо по минимальному расстоянию между кластерами.
Для определения значения количества кластеров или расстояния между кластерами рекомендуется воспользоваться дендрограммой в результатах узла.
Список параметров узла представлен в таблице (Таблица 27).
Таблица 27 — Параметры узла «Иерархическая кластеризация»

Параметр

Возможные значения и ограничения

Описание

Название

Ручной ввод
Ограничений на значение нет

Название узла, которое будет отображаться в интерфейсе

Описание

Ручной ввод
Ограничений на значение нет

Описание узла

Критерий остановки

Раскрывающийся список со следующими значениями:

  • Количество кластеров (по умолчанию)
  • Расстояние

Данные параметр отвечает за выбор критерия остановки алгоритма. Предусмотрены следующие методы:

  • Количество кластеров

    Достигнуто указанное в параметре Количество кластеров значение
  • Расстояние
    Достигнуто указанное в параметре Минимальное расстояние значение.

Количество кластеров

Ручной ввод целочисленного значения
Число больше или равно 1
По умолчанию — 5

Данный параметр задает число кластеров, на которые будет делиться пространство признаков. Действителен при выбранном Критерии остановки Количество кластеров

Минимальное расстояние

Ручной ввод
Число больше или равно 0
По умолчанию — 0

Данный параметр задает минимальное расстояние между кластерами для остановки алгоритма. Действителен при выбранном Критерии остановки Расстояние
Для определения значения минимального расстояния можно воспользоваться Дендрограммой в результатах узла.

Стандартизация

Раскрывающийся список со следующими значениями:

  • Нет
  • Стандартное отклонение
  • Диапазон

Данные параметр отвечает за выбор метода стандартизации числовых переменных.
Стандартизация – преобразование числовых наблюдений с целью приведения их к некоторой общей шкале. Необходимость стандартизации вызвана тем, что разные признаки из обучающего набора могут быть представлены в разных масштабах и изменяться в разных диапазонах, что влияет на выявление некорректных зависимостей моделью.
Предусмотрены следующие методы:

  • Нет.
  • Стандартное отклонение – преобразует наблюдения таким образом, чтобы их среднее значение равнялось нулю, а стандартное отклонение равнялось 1.
    <ac:structured-macro ac:name="unmigrated-wiki-markup" ac:schema-version="1" ac:macro-id="57796bbe-a95c-428e-83a4-d7afff48d38d"><ac:plain-text-body><![CDATA[* Диапазон – линейно преобразует значения переменных в диапазон [0, 1].

]]></ac:plain-text-body></ac:structured-macro>

Метрика

Раскрывающийся список со следующими значениями:

  • Евклидова метрика
  • Манхэттенская метрика
  • Косинус

Данные параметр отвечает за выбор метрики, которая задает расчет расстояния между наблюдениями. Выбор метрики влияет на форму кластеров, поскольку некоторые элементы могут быть относительно ближе друг к другу по одной метрике, чем по другой.
Предусмотрены следующие метрики:

  • Евклидова метрика
  • Манхэттенская метрика
  • Косинус

Критерий объединения

Раскрывающийся список со следующими значениями:

  • Ward (можно использовать только если в качестве метрики близости наблюдений выбрана Евклидова метрика)
  • Average
  • Maximum
  • Minimum

Метрика, используемая для объединения кластеров. Предусмотрены следующие метрики близости кластеров:

  • Ward

    минимизирует сумму квадратов разностей во всех кластерах
  • Average

    минимизирует среднее расстояние между всеми наблюдениями пар кластеров.
  • Maximum

    сводит к минимуму максимальное расстояние между наблюдениями пар кластеров
  • Minimum
    минимизирует расстояние между ближайшими наблюдениями пар кластеров

Seed

Ручной ввод целочисленного значения
По умолчанию — 42

Начальное числовое значение для генератора случайных чисел.
Используется для воспроизведения результатов при повторном запуске узла

Размер выборки

Ручной ввод целочисленного значения
Значение больше или равно 2
По умолчанию — 1000

Данный параметр задает размер выборки, которая будет отображена на графике Силуэт в результатах узла

Расстояние между кластерами

Ручной ввод
Значение больше или равно 0
По умолчанию — 25

Данный параметр задает расстояние между кластерами на графике Силуэт в результатах узла

Количество бинов

Ручной ввод целочисленного значения
Значение больше или равно 1
По умолчанию — 10

Данный параметр задает количество бинов, на которое будет делиться количественная переменная на графике с параллельными осями в результатах узла

Переменные, по которым делать оси

Раскрывающийся список с выбором нескольких переменных

Данный параметр задает переменные, которые будут отражены на графике с параллельными осями в результатах узла

Максимальное количество линий

Ручной ввод целочисленного значения
Значение больше или равно 1
По умолчанию — 50

Данный параметр задает максимальное количество линий, которые будут отражены на графике с параллельными осями в результатах узла

Результаты выполнения узла:

  • Круговая диаграмма с количеством наблюдений по кластерам (Рисунок 121).


Рисунок 121 — Пример круговой диграммы
При наведении курсора мыши на сектор кластера можно узнать количество наблюдений в нем.

  • Силуэт – Silhouette Plot (Рисунок 122).


Рисунок 122 — Пример Silhouette Plot
Значение Silhouette для каждого наблюдения (на графике отображается указанное в параметре Размер выборки число наблюдений) является мерой того, насколько это наблюдение похоже на наблюдения в собственном кластере по сравнению с наблюдениями в других кластерах.
Значение Silhouette находится в диапазоне от -1 до 1. Высокое значение указывает на то, что наблюдение хорошо соответствует собственному кластеру и плохо соответствует другим кластерам.
Если большинство наблюдений имеют низкое или отрицательное значение Silhouette, тогда пользователь должен перестроить кластеризацию с большим или меньшим количеством кластеров.

  • График в параллельных координатах (Рисунок 123).


Рисунок 123 — Пример графика в параллельных координатах
График в параллельных координатах позволяет интерпретировать построенные кластеры.
На данном графике каждой переменной присваивается собственная ось (согласно параметру Переменные, по которым делать оси). Оси располагаются параллельно друг другу, и каждая имеют свою собственную шкалу. Начальная ось отражает кластер, к которому модель отнесла наблюдение. Каждое наблюдение наносится на график в виде линии (параметр Максимальное количество линий), пересекающейся с каждой из осей. Таким образом, пользователь может выявить паттерны и корреляции между разными переменными.

  • Дендрограмма кластеризации (Рисунок 124).


Рисунок 124 — Пример дендограммы
Дендрограмма показывает близость отдельных наблюдений и кластеров, а также последовательность их объединения. Количество уровней соответствует количеству слияний кластеров. По оси Y расположена шкала, на которой откладывается расстояние между объектами в пространстве признаков.

  • Таблица с примером данных (Рисунок 125). Отображаются первые 100 наблюдений.


Рисунок 125 — Пример таблицы
В результате выполнения узла будет рассчитана новая переменная с результатами кластеризации (переменная Cluster_ID0).

  • Таблица со статистиками по переменным кластера (Рисунок 126). По каждому кластеру отражены среднее и стандартное отклонение для каждой переменной.



Рисунок 126 — Пример таблицы со статистиками по переменным кластера

  • Нет меток