Узел «Кластерный анализ (k-means)»

Узел «Кластерный анализ (k-means)» используется для кластеризации набора данных в отдельные группы (кластеры) исходя из выявленных шаблонов во входном наборе данных. Наблюдения группируются таким образом, чтобы они были похожи друг на друга внутри кластера, но различались с наблюдениями из других кластеров.
Алгоритм работы: Модель k-средних определяет начальный набор центроидов для кластеров (исходя из параметров Количество кластеров и Метод инициализации кластеров). Затем каждое наблюдение определяется в кластер с наиболее близким центроидом. Центроиды кластеров обновляются в соответствии с набором наблюдений, назначенным в каждый кластер. Далее итерационно проверяется необходимо ли переназначить наблюдение в другой кластер. Данный процесс продолжается до момента достижения максимального числа итераций (параметр Максимальное количество итераций).

Рисунок 111 — Принцип работы узла «Кластерный анализ (k-means)»
Запуск алгоритма с определением начального набора центроидов происходит ограниченное количество раз (в соответствии с заданным параметром Количество запусков). После выполнения всех запусков выбирается запуск с минимальным критерием инерции (суммой квадратов расстояний между точками и центроидом внутри кластеров).

Рисунок 112 — Принцип работы узла «Кластерный анализ (k-means)»
Список параметров узла представлен в таблице (Таблица 26).
Таблица 26 — Параметры узла «Кластерный анализ (k-means)»

Параметр	Возможные значения и ограничения	Описание
Название	Ручной ввод Ограничений на значение нет	Название узла, которое будет отображаться в интерфейсе
Описание	Ручной ввод Ограничений на значение нет	Описание узла
Количество кластеров	Ручной ввод целочисленного значения По умолчанию — 5	Задание числа кластеров, на которые будет делиться пространство признаков. Для определения количества кластеров можно воспользоваться априорной информацией об исходных данных в разделе Исследования данных при Кластеризации исходного набора данных.
Seed	Ручной ввод целочисленного значения По умолчанию — 42	Начальное числовое значение для генератора случайных чисел. Используется для воспроизведения результатов при повторном запуске узла
Метод инициализации кластеров	Раскрывающийся список со следующими значениями: k-means++ (по умолчанию) Forgy	Данные параметр отвечает за выбор метода инициализации начальных точек кластеров. Предусмотрены следующие методы: k-means++ Идея метода k-means++ состоит в том, чтобы случайным образом выбрать начальные точки, которые находятся как можно дальше друг от друга. Forgy Метод Forgy случайным образом выбирает k наблюдений (по числу заданных кластеров) из набора данных и использует их в качестве начальных значений.
Стандартизация	Раскрывающийся список со следующими значениями: Нет Стандартное отклонение (по умолчанию) Диапазон	Данные параметр отвечает за выбор метода стандартизации числовых переменных. Стандартизация – преобразование числовых наблюдений с целью приведения их к некоторой общей шкале. Необходимость стандартизации вызвана тем, что разные признаки из обучающего набора могут быть представлены в разных масштабах и изменяться в разных диапазонах, что влияет на выявление некорректных зависимостей моделью. Предусмотрены следующие методы: Нет. Стандартное отклонение – преобразует наблюдения таким образом, чтобы их среднее значение равнялось нулю, а стандартное отклонение равнялось 1. <ac:structured-macro ac:name="unmigrated-wiki-markup" ac:schema-version="1" ac:macro-id="c049ca9d-5525-48e0-98b3-4bf75a7345fd"><ac:plain-text-body><![CDATA[* Диапазон – линейно преобразует значения переменных в диапазон [0, 1].	]]></ac:plain-text-body></ac:structured-macro>
Количество запусков	Ручной ввод целочисленного значения По умолчанию — 10	Данный параметр задает число запусков алгоритма с разными начальными центроидами
Максимальное количество итераций	Ручной ввод целочисленного значения По умолчанию — 300	Данный параметр задает максимальное количество итераций в рамках одного запуска
Алгоритм K-средних	Раскрывающийся список со следующими значениями: elkan full	Данные параметр отвечает за выбор алгоритма k-средних. elkan – может быть более эффективным для некоторых наборов данных с четко определенными кластерами за счет использования неравенства треугольника. Однако требует больше памяти full – классический алгоритм
Размер выборки	Ручной ввод целочисленного значения По умолчанию — 1000	Данный параметр задает размер выборки, которая будет отображена на графике Силуэт в результатах узла
Расстояние между кластерами	Ручной ввод целочисленного значения По умолчанию — 25	Данный параметр задает расстояние между кластерами на графике Силуэт в результатах узла
Количество бинов	Ручной ввод целочисленного значения По умолчанию — 10	Данный параметр задает количество бинов, на которое будет делиться количественная переменная на графике с параллельными осями в результатах узла
Переменные, по которым делать оси	Раскрывающийся список с выбором нескольких переменных	Данный параметр задает переменные, которые будут отражены на графике с параллельными осями в результатах узла
Максимальное количество линий	Ручной ввод По умолчанию — 50	Данный параметр задает максимальное количество линий, которые будут отображаться на графике с параллельными осями в результатах узла

Результаты выполнения узла:

Круговая диаграмма с количеством наблюдений по кластерам (Рисунок 113).

Рисунок 113 — Пример Круговой диаграммы с результатами кластеризации
При наведении курсора мыши на сектор кластера можно узнать количество наблюдений в нем.

Силуэт – Silhouette Plot (Рисунок 114)

Рисунок 114 — Пример Silhouette Plot
Значение Silhouette для каждого наблюдения (на графике отображается указанное в параметре Размер выборки число наблюдений) является мерой того, насколько это наблюдение похоже на наблюдения в собственном кластере по сравнению с наблюдениями в других кластерах.
Значение Silhouette находится в диапазоне от -1 до 1. Высокое значение указывает на то, что наблюдение хорошо соответствует собственному кластеру и плохо соответствует другим кластерам.
Если большинство наблюдений имеют низкое или отрицательное значение Silhouette, тогда пользователь должен перестроить кластеризацию с большим или меньшим количеством кластеров.

График в параллельных координатах (Рисунок 115).

Рисунок 115 — Пример графика в параллельных координатах
График в параллельных координатах позволяет интерпретировать построенные кластеры.
На данном графике каждой переменной присваивается собственная ось (согласно параметру Переменные, по которым делать оси). Оси располагаются параллельно друг другу, и каждая имеют свою собственную шкалу. Начальная ось отражает кластер, к которому модель отнесла наблюдение. Каждое наблюдение наносится на график в виде линии (параметр Максимальное количество линий), пересекающейся с каждой из осей. Таким образом, пользователь может выявить паттерны и корреляции между разными переменными.

Таблица с примером данных (Рисунок 116). Отображаются первые 100 наблюдений.

Рисунок 116 — Таблица с примером данных
В результате выполнения узла будет рассчитана новая переменная с результатами кластеризации (переменная Cluster_ID0).

Таблица с координатами центроидов (Рисунок 117), где в качестве строк выступают номера кластеров и значения переменных, в которых находятся центроиды этих кластеров

Рисунок 117 — Пример таблицы с координатами центроидов кластеров

Таблица со статистиками по кластерам (Рисунок 118)
- Номер кластера.
- Количество наблюдений.
- Среднеквадратичное расстояние между наблюдениями внутри кластера.
- Сумма расстояний между наблюдениями внутри кластера.
- Расстояние между центроидом и ближайшим наблюдением.
- Расстояние между центроидом и наиболее удаленным наблюдением.
- Расстояние между центроидом и вторым по удаленности наблюдением.
- Расстояние между центроидом и третьим по удаленности наблюдением.
- Ближайший кластер.
- Расстояние до ближайшего центроида.
- Среднее расстояние между центроидом и наблюдениями в кластере.
- Сумма расстояний между наблюдениями и центроидом.

Рисунок 118 — Пример со статистиками по кластерам

Таблица со статистиками по переменным кластера (Рисунок 119). По каждому кластеру отражены среднее и стандартное отклонение для каждой переменной.

Рисунок 119 — Пример таблицы со статистиками по переменным кластера

Быстрые ссылки

Дерево страниц