Узел «Иерархическая кластеризация»

В основе узла «Иерархическая кластеризация» лежит алгоритм кластеризации, направленный на создание иерархии вложенных кластеров.
Алгоритм работы: Каждое наблюдение начинается в своем собственном кластере (Шаг 0), далее кластеры последовательно объединяются. Так, первоначально рассчитываются расстояния (расчет расстояния задает параметр Метрика) между наблюдениями, ближайшие из них объединяются в один кластер. Параметр Критерий объединения определяет стратегию слияния кластеров. Затем вычисляется расстояние между кластерами и ближайшие объединяются в один большой кластер. Слияние кластеров происходит до тех пор, пока не будет синтезирован один единый кластер (Шаг N) (Рисунок 120).

Рисунок 120 — Схема работы алгоритма Иерархической кластеризации
Для остановки алгоритма необходимо указать в параметре Критерий остановки требуемый вариант – по достижению заданного количества кластеров, либо по минимальному расстоянию между кластерами.
Для определения значения количества кластеров или расстояния между кластерами рекомендуется воспользоваться дендрограммой в результатах узла.
Список параметров узла представлен в таблице (Таблица 27).
Таблица 27 — Параметры узла «Иерархическая кластеризация»

Параметр	Возможные значения и ограничения	Описание
Название	Ручной ввод Ограничений на значение нет	Название узла, которое будет отображаться в интерфейсе
Описание	Ручной ввод Ограничений на значение нет	Описание узла
Критерий остановки	Раскрывающийся список со следующими значениями: Количество кластеров (по умолчанию) Расстояние	Данные параметр отвечает за выбор критерия остановки алгоритма. Предусмотрены следующие методы: Количество кластеров Достигнуто указанное в параметре Количество кластеров значение Расстояние Достигнуто указанное в параметре Минимальное расстояние значение.
Количество кластеров	Ручной ввод целочисленного значения Число больше или равно 1 По умолчанию — 5	Данный параметр задает число кластеров, на которые будет делиться пространство признаков. Действителен при выбранном Критерии остановки Количество кластеров
Минимальное расстояние	Ручной ввод Число больше или равно 0 По умолчанию — 0	Данный параметр задает минимальное расстояние между кластерами для остановки алгоритма. Действителен при выбранном Критерии остановки Расстояние Для определения значения минимального расстояния можно воспользоваться Дендрограммой в результатах узла.
Стандартизация	Раскрывающийся список со следующими значениями: Нет Стандартное отклонение Диапазон	Данные параметр отвечает за выбор метода стандартизации числовых переменных. Стандартизация – преобразование числовых наблюдений с целью приведения их к некоторой общей шкале. Необходимость стандартизации вызвана тем, что разные признаки из обучающего набора могут быть представлены в разных масштабах и изменяться в разных диапазонах, что влияет на выявление некорректных зависимостей моделью. Предусмотрены следующие методы: Нет. Стандартное отклонение – преобразует наблюдения таким образом, чтобы их среднее значение равнялось нулю, а стандартное отклонение равнялось 1. <ac:structured-macro ac:name="unmigrated-wiki-markup" ac:schema-version="1" ac:macro-id="57796bbe-a95c-428e-83a4-d7afff48d38d"><ac:plain-text-body><![CDATA[* Диапазон – линейно преобразует значения переменных в диапазон [0, 1].	]]></ac:plain-text-body></ac:structured-macro>
Метрика	Раскрывающийся список со следующими значениями: Евклидова метрика Манхэттенская метрика Косинус	Данные параметр отвечает за выбор метрики, которая задает расчет расстояния между наблюдениями. Выбор метрики влияет на форму кластеров, поскольку некоторые элементы могут быть относительно ближе друг к другу по одной метрике, чем по другой. Предусмотрены следующие метрики: Евклидова метрика Манхэттенская метрика Косинус
Критерий объединения	Раскрывающийся список со следующими значениями: Ward (можно использовать только если в качестве метрики близости наблюдений выбрана Евклидова метрика) Average Maximum Minimum	Метрика, используемая для объединения кластеров. Предусмотрены следующие метрики близости кластеров: Ward минимизирует сумму квадратов разностей во всех кластерах Average минимизирует среднее расстояние между всеми наблюдениями пар кластеров. Maximum сводит к минимуму максимальное расстояние между наблюдениями пар кластеров Minimum минимизирует расстояние между ближайшими наблюдениями пар кластеров
Seed	Ручной ввод целочисленного значения По умолчанию — 42	Начальное числовое значение для генератора случайных чисел. Используется для воспроизведения результатов при повторном запуске узла
Размер выборки	Ручной ввод целочисленного значения Значение больше или равно 2 По умолчанию — 1000	Данный параметр задает размер выборки, которая будет отображена на графике Силуэт в результатах узла
Расстояние между кластерами	Ручной ввод Значение больше или равно 0 По умолчанию — 25	Данный параметр задает расстояние между кластерами на графике Силуэт в результатах узла
Количество бинов	Ручной ввод целочисленного значения Значение больше или равно 1 По умолчанию — 10	Данный параметр задает количество бинов, на которое будет делиться количественная переменная на графике с параллельными осями в результатах узла
Переменные, по которым делать оси	Раскрывающийся список с выбором нескольких переменных	Данный параметр задает переменные, которые будут отражены на графике с параллельными осями в результатах узла
Максимальное количество линий	Ручной ввод целочисленного значения Значение больше или равно 1 По умолчанию — 50	Данный параметр задает максимальное количество линий, которые будут отражены на графике с параллельными осями в результатах узла

Результаты выполнения узла:

Круговая диаграмма с количеством наблюдений по кластерам (Рисунок 121).

Рисунок 121 — Пример круговой диграммы
При наведении курсора мыши на сектор кластера можно узнать количество наблюдений в нем.

Силуэт – Silhouette Plot (Рисунок 122).

Рисунок 122 — Пример Silhouette Plot
Значение Silhouette для каждого наблюдения (на графике отображается указанное в параметре Размер выборки число наблюдений) является мерой того, насколько это наблюдение похоже на наблюдения в собственном кластере по сравнению с наблюдениями в других кластерах.
Значение Silhouette находится в диапазоне от -1 до 1. Высокое значение указывает на то, что наблюдение хорошо соответствует собственному кластеру и плохо соответствует другим кластерам.
Если большинство наблюдений имеют низкое или отрицательное значение Silhouette, тогда пользователь должен перестроить кластеризацию с большим или меньшим количеством кластеров.

График в параллельных координатах (Рисунок 123).

Рисунок 123 — Пример графика в параллельных координатах
График в параллельных координатах позволяет интерпретировать построенные кластеры.
На данном графике каждой переменной присваивается собственная ось (согласно параметру Переменные, по которым делать оси). Оси располагаются параллельно друг другу, и каждая имеют свою собственную шкалу. Начальная ось отражает кластер, к которому модель отнесла наблюдение. Каждое наблюдение наносится на график в виде линии (параметр Максимальное количество линий), пересекающейся с каждой из осей. Таким образом, пользователь может выявить паттерны и корреляции между разными переменными.

Дендрограмма кластеризации (Рисунок 124).

Рисунок 124 — Пример дендограммы
Дендрограмма показывает близость отдельных наблюдений и кластеров, а также последовательность их объединения. Количество уровней соответствует количеству слияний кластеров. По оси Y расположена шкала, на которой откладывается расстояние между объектами в пространстве признаков.

Таблица с примером данных (Рисунок 125). Отображаются первые 100 наблюдений.

Рисунок 125 — Пример таблицы
В результате выполнения узла будет рассчитана новая переменная с результатами кластеризации (переменная Cluster_ID0).

Таблица со статистиками по переменным кластера (Рисунок 126). По каждому кластеру отражены среднее и стандартное отклонение для каждой переменной.

Рисунок 126 — Пример таблицы со статистиками по переменным кластера

Быстрые ссылки

Дерево страниц