Узел «Кластерный анализ (k-means)» используется для кластеризации набора данных в отдельные группы (кластеры) исходя из выявленных шаблонов во входном наборе данных. Наблюдения группируются таким образом, чтобы они были похожи друг на друга внутри кластера, но различались с наблюдениями из других кластеров.
Алгоритм работы: Модель k-средних определяет начальный набор центроидов для кластеров (исходя из параметров Количество кластеров и Метод инициализации кластеров). Затем каждое наблюдение определяется в кластер с наиболее близким центроидом. Центроиды кластеров обновляются в соответствии с набором наблюдений, назначенным в каждый кластер. Далее итерационно проверяется необходимо ли переназначить наблюдение в другой кластер. Данный процесс продолжается до момента достижения максимального числа итераций (параметр Максимальное количество итераций).
Запуск алгоритма с определением начального набора центроидов происходит ограниченное количество раз (в соответствии с заданным параметром Количество запусков). После выполнения всех запусков выбирается запуск с минимальным критерием инерции (суммой квадратов расстояний между точками и центроидом внутри кластеров).
Список параметров узла представлен в таблице ниже.
Параметр | Возможные значения и ограничения | Описание |
---|---|---|
Название | Ручной ввод | Название узла, которое будет отображаться в интерфейсе |
Описание | Ручной ввод | Описание узла |
Количество кластеров | Ручной ввод целочисленного значения | Задание числа кластеров, на которые будет делиться пространство признаков. |
Seed | Ручной ввод целочисленного значения | Начальное числовое значение для генератора случайных чисел. |
Метод инициализации кластеров | Раскрывающийся список со следующими значениями:
| Данный параметр отвечает за выбор метода инициализации начальных точек кластеров. Предусмотрены следующие методы:
|
Стандартизация | Раскрывающийся список со следующими значениями:
| Данный параметр отвечает за выбор метода стандартизации числовых переменных.
|
Количество запусков | Ручной ввод целочисленного значения | Данный параметр задает число запусков алгоритма с разными начальными центроидами |
Максимальное количество итераций | Ручной ввод целочисленного значения | Данный параметр задает максимальное количество итераций в рамках одного запуска |
Алгоритм K-средних | Раскрывающийся список со следующими значениями:
| Данный параметр отвечает за выбор алгоритма k-средних.
|
Размер выборки | Ручной ввод целочисленного значения | Данный параметр задает размер выборки, которая будет отображена на графике Силуэт в результатах узла |
Расстояние между кластерами | Ручной ввод целочисленного значения | Данный параметр задает расстояние между кластерами на графике Силуэт в результатах узла |
Количество бинов | Ручной ввод целочисленного значения | Данный параметр задает количество бинов, на которое будет делиться количественная переменная на графике с параллельными осями в результатах узла |
Переменные, по которым делать оси | Раскрывающийся список с выбором нескольких переменных | Данный параметр задает переменные, которые будут отражены на графике с параллельными осями в результатах узла |
Максимальное количество линий | Ручной ввод | Данный параметр задает максимальное количество линий, которые будут отображаться на графике с параллельными осями в результатах узла |
Результаты выполнения узла:
- Круговая диаграмма с количеством наблюдений по кластерам.
При наведении курсора мыши на сектор кластера можно узнать количество наблюдений в нем.
- Силуэт – Silhouette Plot
Значение Silhouette для каждого наблюдения (на графике отображается указанное в параметре Размер выборки число наблюдений) является мерой того, насколько это наблюдение похоже на наблюдения в собственном кластере по сравнению с наблюдениями в других кластерах.
Значение Silhouette находится в диапазоне от -1 до 1. Высокое значение указывает на то, что наблюдение хорошо соответствует собственному кластеру и плохо соответствует другим кластерам.
Если большинство наблюдений имеют низкое или отрицательное значение Silhouette, тогда пользователь должен перестроить кластеризацию с большим или меньшим количеством кластеров.
- График в параллельных координатах.
График в параллельных координатах позволяет интерпретировать построенные кластеры.
На данном графике каждой переменной присваивается собственная ось (согласно параметру Переменные, по которым делать оси). Оси располагаются параллельно друг другу, и каждая имеют свою собственную шкалу. Начальная ось отражает кластер, к которому модель отнесла наблюдение. Каждое наблюдение наносится на график в виде линии (параметр Максимальное количество линий), пересекающейся с каждой из осей. Таким образом, пользователь может выявить паттерны и корреляции между разными переменными.
- Таблица с примером данных. Отображаются первые 100 наблюдений.
В результате выполнения узла будет рассчитана новая переменная с результатами кластеризации (переменная Cluster_ID0).
- Таблица с координатами центроидов, где в качестве строк выступают номера кластеров и значения переменных, в которых находятся центроиды этих кластеров.
- Таблица со статистиками по кластерам
- Номер кластера.
- Количество наблюдений.
- Среднеквадратичное расстояние между наблюдениями внутри кластера.
- Сумма расстояний между наблюдениями внутри кластера.
- Расстояние между центроидом и ближайшим наблюдением.
- Расстояние между центроидом и наиболее удаленным наблюдением.
- Расстояние между центроидом и вторым по удаленности наблюдением.
- Расстояние между центроидом и третьим по удаленности наблюдением.
- Ближайший кластер.
- Расстояние до ближайшего центроида.
- Среднее расстояние между центроидом и наблюдениями в кластере.
- Сумма расстояний между наблюдениями и центроидом.
- Таблица со статистиками по переменным кластера. По каждому кластеру отражены среднее и стандартное отклонение для каждой переменной.