В основе узла «Иерархическая кластеризация» лежит алгоритм кластеризации, направленный на создание иерархии вложенных кластеров.
Алгоритм работы: Каждое наблюдение начинается в своем собственном кластере (Шаг 0), далее кластеры последовательно объединяются. Так, первоначально рассчитываются расстояния (расчет расстояния задает параметр Метрика) между наблюдениями, ближайшие из них объединяются в один кластер. Параметр Критерий объединения определяет стратегию слияния кластеров. Затем вычисляется расстояние между кластерами и ближайшие объединяются в один большой кластер. Слияние кластеров происходит до тех пор, пока не будет синтезирован один единый кластер (Шаг N) (Рисунок 120). Image Removed
Якорь |
---|
_Ref91600065 | _Ref91600065 | Рисунок 120 —
Scroll Title |
---|
title-alignment | center |
---|
title | Схема работы алгоритма Иерархической кластеризации |
---|
|
Image Added |
Для остановки алгоритма необходимо указать в параметре Критерий остановки требуемый вариант – по достижению заданного количества кластеров, либо по минимальному расстоянию между кластерами.
Для определения значения количества кластеров или расстояния между кластерами рекомендуется воспользоваться дендрограммой в результатах узла.
Список параметров узла представлен в таблице (Таблица 27).
Якорь |
---|
_Ref91600109 | _Ref91600109 | Таблица 27 — Параметры узла «Иерархическая кластеризация»ниже.
Scroll Title |
---|
title-position | top |
---|
title-alignment | right |
---|
title | Список параметров узла "Иерархическая кластеризация" |
---|
|
Параметр | Возможные значения и ограничения | Описание |
---|
Название | Ручной ввод Ограничений на значение нет | Название узла, которое будет отображаться в интерфейсе | Описание | Ручной ввод Ограничений на значение нет | Описание узла | Критерий остановки | Раскрывающийся список со следующими значениями: - Количество кластеров (по умолчанию)
- Расстояние
|
|
...
Данный параметр отвечает за выбор критерия остановки алгоритма. Предусмотрены следующие методы: - Количество кластеров
Достигнуто указанное в параметре Количество кластеров значение - Расстояние
Достигнуто указанное в параметре Минимальное расстояние значение.
| Количество кластеров | Ручной ввод целочисленного значения Число больше или равно 1 По умолчанию — 5 | Данный параметр задает число кластеров, на которые будет делиться пространство признаков. Действителен при выбранном Критерии остановки Количество кластеров | Минимальное расстояние | Ручной ввод Число больше или равно 0 По умолчанию — 0 | Данный параметр задает минимальное расстояние между кластерами для остановки алгоритма. Действителен при выбранном Критерии остановки Расстояние Для определения значения минимального расстояния можно воспользоваться Дендрограммой в результатах узла. | Стандартизация | Раскрывающийся список со следующими значениями: - Нет
- Стандартное отклонение
- Диапазон
|
|
...
Данный параметр отвечает за выбор метода стандартизации числовых переменных. Стандартизация – преобразование числовых наблюдений с целью приведения их к некоторой общей шкале. Необходимость стандартизации вызвана тем, что разные признаки из обучающего набора могут быть представлены в разных масштабах и изменяться в разных диапазонах, что влияет на выявление некорректных зависимостей моделью. Предусмотрены следующие методы: - Нет.
- Стандартное отклонение – преобразует наблюдения таким образом, чтобы их среднее значение равнялось нулю, а стандартное отклонение равнялось 1.
|
|
...
- Диапазон – линейно преобразует значения переменных в диапазон [0, 1].
|
|
...
| Метрика | Раскрывающийся список со следующими значениями: - Евклидова метрика
- Манхэттенская метрика
- Косинус
|
|
...
Данный параметр отвечает за выбор метрики, которая задает расчет расстояния между наблюдениями. Выбор метрики влияет на форму кластеров, поскольку некоторые элементы могут быть относительно ближе друг к другу по одной метрике, чем по другой. Предусмотрены следующие метрики: - Евклидова метрика
- Манхэттенская метрика
- Косинус
| Критерий объединения | Раскрывающийся список со следующими значениями: - Ward (можно использовать только если в качестве метрики близости наблюдений выбрана Евклидова метрика)
- Average
- Maximum
- Minimum
| Метрика, используемая для объединения кластеров. Предусмотрены следующие метрики близости кластеров: - Ward
минимизирует сумму квадратов разностей во всех кластерах - Average
минимизирует среднее расстояние между всеми наблюдениями пар кластеров. - Maximum
сводит к минимуму максимальное расстояние между наблюдениями пар кластеров - Minimum
минимизирует расстояние между ближайшими наблюдениями пар кластеров
| Seed | Ручной ввод целочисленного значения По умолчанию — 42 | Начальное числовое значение для генератора случайных чисел. Используется для воспроизведения результатов при повторном запуске узла | Размер выборки | Ручной ввод целочисленного значения Значение больше или равно 2 По умолчанию — 1000 | Данный параметр задает размер выборки, которая будет отображена на графике Силуэт в результатах узла | Расстояние между кластерами | Ручной ввод Значение больше или равно 0 По умолчанию — 25 | Данный параметр задает расстояние между кластерами на графике Силуэт в результатах узла | Количество бинов | Ручной ввод целочисленного значения Значение больше или равно 1 По умолчанию — 10 | Данный параметр задает количество бинов, на которое будет делиться количественная переменная на графике с параллельными осями в результатах узла | Переменные, по которым делать оси | Раскрывающийся список с выбором нескольких переменных | Данный параметр задает переменные, которые будут отражены на графике с параллельными осями в результатах узла | Максимальное количество линий | Ручной ввод целочисленного значения Значение больше или равно 1 По умолчанию — 50 | Данный параметр задает максимальное количество линий, которые будут отражены на графике с параллельными осями в результатах узла |
|
Параметры узла «Иерархическая кластеризация»
Результаты выполнения узла:
- Круговая диаграмма с количеством наблюдений по кластерам (Рисунок 121).
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример круговой диаграммы |
---|
|
Image Added |
При наведении курсора мыши на сектор кластера можно узнать количество наблюдений в нем.
- Силуэт – Silhouette Plot (Рисунок 122).
...
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример Silhouette Plot |
---|
|
Image Added |
Значение Silhouette для каждого наблюдения (на графике отображается указанное в параметре параметре Размер выборки число наблюдений) является мерой того, насколько это наблюдение похоже на наблюдения в собственном кластере по сравнению с наблюдениями в других кластерах.
Значение Silhouette находится в диапазоне от -1 до 1. Высокое значение указывает на то, что наблюдение хорошо соответствует собственному кластеру и плохо соответствует другим кластерам.
Если большинство наблюдений имеют низкое или отрицательное значение Silhouette, тогда пользователь должен перестроить кластеризацию с большим или меньшим количеством кластеров.
- График в параллельных координатах (Рисунок 123).
...
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример графика в параллельных координатах |
---|
|
Image Added |
График в параллельных координатах позволяет интерпретировать построенные кластеры.
На данном графике каждой переменной присваивается собственная ось (согласно параметру Переменные, по которым делать оси). Оси располагаются параллельно друг другу, и каждая имеют имеет свою собственную шкалу. Начальная ось отражает кластер, к которому модель отнесла наблюдение. Каждое наблюдение наносится на график в виде линии (параметр параметр Максимальное количество линий), пересекающейся с каждой из осей. Таким образом, пользователь может выявить паттерны и корреляции между разными переменными.
- Дендрограмма кластеризации (Рисунок 124).
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример дендограммы |
---|
|
Image Added |
Дендрограмма показывает близость отдельных наблюдений и кластеров, а также последовательность их объединения. Количество уровней соответствует количеству слияний кластеров. По оси Y расположена шкала, на которой откладывается расстояние между объектами в пространстве признаков.
- Таблица с примером данных (Рисунок 125). Отображаются первые 100 наблюдений.
...
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример таблицы |
---|
|
Image Added |
В результате выполнения узла будет рассчитана новая переменная с результатами кластеризации (переменная Cluster_ID0).
...
- Таблица со статистиками по переменным кластера (Рисунок 126). По каждому кластеру отражены среднее и стандартное отклонение для каждой переменной.
...
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример таблицы со статистиками по переменным кластера |
---|
|
Image Added |