В основе узла «Иерархическая кластеризация» лежит алгоритм кластеризации, направленный на создание иерархии вложенных кластеров.
Алгоритм работы: Каждое наблюдение начинается в своем собственном кластере (Шаг 0), далее кластеры последовательно объединяются. Так, первоначально рассчитываются расстояния (расчет расстояния задает параметр Метрика) между наблюдениями, ближайшие из них объединяются в один кластер. Параметр Критерий объединения определяет стратегию слияния кластеров. Затем вычисляется расстояние между кластерами и ближайшие объединяются в один большой кластер. Слияние кластеров происходит до тех пор, пока не будет синтезирован один единый кластер (Шаг N) (Рисунок 120).
Рисунок 120 — Схема работы алгоритма Иерархической кластеризации
Для остановки алгоритма необходимо указать в параметре Критерий остановки требуемый вариант – по достижению заданного количества кластеров, либо по минимальному расстоянию между кластерами.
Для определения значения количества кластеров или расстояния между кластерами рекомендуется воспользоваться дендрограммой в результатах узла.
Список параметров узла представлен в таблице (Таблица 27).
Таблица 27 — Параметры узла «Иерархическая кластеризация»
Параметр |
Возможные значения и ограничения |
Описание |
|
---|---|---|---|
Название |
Ручной ввод |
Название узла, которое будет отображаться в интерфейсе |
|
Описание |
Ручной ввод |
Описание узла |
|
Критерий остановки |
Раскрывающийся список со следующими значениями:
|
Данные параметр отвечает за выбор критерия остановки алгоритма. Предусмотрены следующие методы:
|
|
Количество кластеров |
Ручной ввод целочисленного значения |
Данный параметр задает число кластеров, на которые будет делиться пространство признаков. Действителен при выбранном Критерии остановки Количество кластеров |
|
Минимальное расстояние |
Ручной ввод |
Данный параметр задает минимальное расстояние между кластерами для остановки алгоритма. Действителен при выбранном Критерии остановки Расстояние |
|
Стандартизация |
Раскрывающийся список со следующими значениями:
|
Данные параметр отвечает за выбор метода стандартизации числовых переменных.
|
]]></ac:plain-text-body></ac:structured-macro> |
Метрика |
Раскрывающийся список со следующими значениями:
|
Данные параметр отвечает за выбор метрики, которая задает расчет расстояния между наблюдениями. Выбор метрики влияет на форму кластеров, поскольку некоторые элементы могут быть относительно ближе друг к другу по одной метрике, чем по другой.
|
|
Критерий объединения |
Раскрывающийся список со следующими значениями:
|
Метрика, используемая для объединения кластеров. Предусмотрены следующие метрики близости кластеров:
|
|
Seed |
Ручной ввод целочисленного значения |
Начальное числовое значение для генератора случайных чисел. |
|
Размер выборки |
Ручной ввод целочисленного значения |
Данный параметр задает размер выборки, которая будет отображена на графике Силуэт в результатах узла |
|
Расстояние между кластерами |
Ручной ввод |
Данный параметр задает расстояние между кластерами на графике Силуэт в результатах узла |
|
Количество бинов |
Ручной ввод целочисленного значения |
Данный параметр задает количество бинов, на которое будет делиться количественная переменная на графике с параллельными осями в результатах узла |
|
Переменные, по которым делать оси |
Раскрывающийся список с выбором нескольких переменных |
Данный параметр задает переменные, которые будут отражены на графике с параллельными осями в результатах узла |
|
Максимальное количество линий |
Ручной ввод целочисленного значения |
Данный параметр задает максимальное количество линий, которые будут отражены на графике с параллельными осями в результатах узла |
Результаты выполнения узла:
- Круговая диаграмма с количеством наблюдений по кластерам (Рисунок 121).
Рисунок 121 — Пример круговой диграммы
При наведении курсора мыши на сектор кластера можно узнать количество наблюдений в нем.
- Силуэт – Silhouette Plot (Рисунок 122).
Рисунок 122 — Пример Silhouette Plot
Значение Silhouette для каждого наблюдения (на графике отображается указанное в параметре Размер выборки число наблюдений) является мерой того, насколько это наблюдение похоже на наблюдения в собственном кластере по сравнению с наблюдениями в других кластерах.
Значение Silhouette находится в диапазоне от -1 до 1. Высокое значение указывает на то, что наблюдение хорошо соответствует собственному кластеру и плохо соответствует другим кластерам.
Если большинство наблюдений имеют низкое или отрицательное значение Silhouette, тогда пользователь должен перестроить кластеризацию с большим или меньшим количеством кластеров.
- График в параллельных координатах (Рисунок 123).
Рисунок 123 — Пример графика в параллельных координатах
График в параллельных координатах позволяет интерпретировать построенные кластеры.
На данном графике каждой переменной присваивается собственная ось (согласно параметру Переменные, по которым делать оси). Оси располагаются параллельно друг другу, и каждая имеют свою собственную шкалу. Начальная ось отражает кластер, к которому модель отнесла наблюдение. Каждое наблюдение наносится на график в виде линии (параметр Максимальное количество линий), пересекающейся с каждой из осей. Таким образом, пользователь может выявить паттерны и корреляции между разными переменными.
- Дендрограмма кластеризации (Рисунок 124).
Рисунок 124 — Пример дендограммы
Дендрограмма показывает близость отдельных наблюдений и кластеров, а также последовательность их объединения. Количество уровней соответствует количеству слияний кластеров. По оси Y расположена шкала, на которой откладывается расстояние между объектами в пространстве признаков.
- Таблица с примером данных (Рисунок 125). Отображаются первые 100 наблюдений.
Рисунок 125 — Пример таблицы
В результате выполнения узла будет рассчитана новая переменная с результатами кластеризации (переменная Cluster_ID0).
- Таблица со статистиками по переменным кластера (Рисунок 126). По каждому кластеру отражены среднее и стандартное отклонение для каждой переменной.
Рисунок 126 — Пример таблицы со статистиками по переменным кластера