Узел «Кластерный анализ (k-means)» используется для кластеризации набора данных в отдельные группы (кластеры) исходя из выявленных шаблонов во входном наборе данных. Наблюдения группируются таким образом, чтобы они были похожи друг на друга внутри кластера, но различались с наблюдениями из других кластеров.
Алгоритм работы: Модель k-средних определяет начальный набор центроидов для кластеров (исходя из параметров Количество кластеров и Метод инициализации кластеров). Затем каждое наблюдение определяется в кластер с наиболее близким центроидом. Центроиды кластеров обновляются в соответствии с набором наблюдений, назначенным в каждый кластер. Далее итерационно проверяется необходимо ли переназначить наблюдение в другой кластер. Данный процесс продолжается до момента достижения максимального числа итераций (параметр Максимальное количество итераций).
...
Список параметров узла представлен в таблице ниже.
Scroll Title |
---|
title-position | top |
---|
title-alignment | right |
---|
title | Параметры узла «Кластерный анализ (k-means)» |
---|
|
Параметр | Возможные значения и ограничения | Описание |
---|
Название | Ручной ввод Ограничений на значение нет | Название узла, которое будет отображаться в интерфейсе | Описание | Ручной ввод Ограничений на значение нет | Описание узла | Количество кластеров | Ручной ввод целочисленного значения По умолчанию — 5 | Задание числа кластеров, на которые будет делиться пространство признаков. Для определения количества кластеров можно воспользоваться априорной информацией об исходных данных в разделе Исследования данных при Кластеризации исходного набора данных. | Seed | Ручной ввод целочисленного значения По умолчанию — 42 | Начальное числовое значение для генератора случайных чисел. Используется для воспроизведения результатов при повторном запуске узла | Метод инициализации кластеров | Раскрывающийся список со следующими значениями: - k-means++ (по умолчанию)
- Forgy
| Данные Данный параметр отвечает за выбор метода инициализации начальных точек кластеров. Предусмотрены следующие методы: - k-means++
Идея метода k-means++ состоит в том, чтобы случайным образом выбрать начальные точки, которые находятся как можно дальше друг от друга. - Forgy
Метод Forgy случайным образом выбирает k наблюдений (по числу заданных кластеров) из набора данных и использует их в качестве начальных значений.
| Стандартизация | Раскрывающийся список со следующими значениями: - Нет
- Стандартное отклонение (по умолчанию)
- Диапазон
| Данные Данный параметр отвечает за выбор метода стандартизации числовых переменных. Стандартизация – преобразование числовых наблюдений с целью приведения их к некоторой общей шкале. Необходимость стандартизации вызвана тем, что разные признаки из обучающего набора могут быть представлены в разных масштабах и изменяться в разных диапазонах, что влияет на выявление некорректных зависимостей моделью. Предусмотрены следующие методы: - Нет.
- Стандартное отклонение – преобразует наблюдения таким образом, чтобы их среднее значение равнялось нулю, а стандартное отклонение равнялось 1.
- Диапазон – линейно преобразует значения переменных в диапазон [0, 1].
| Количество запусков | Ручной ввод целочисленного значения По умолчанию — 10 | Данный параметр задает число запусков алгоритма с разными начальными центроидами | Максимальное количество итераций | Ручной ввод целочисленного значения По умолчанию — 300 | Данный параметр задает максимальное количество итераций в рамках одного запуска | Алгоритм K-средних | Раскрывающийся список со следующими значениями: | Данные Данный параметр отвечает за выбор алгоритма k-средних. - elkan – может быть более эффективным для некоторых наборов данных с четко определенными кластерами за счет использования неравенства треугольника. Однако требует больше памяти
- full – классический алгоритм
| Размер выборки | Ручной ввод целочисленного значения По умолчанию — 1000 | Данный параметр задает размер выборки, которая будет отображена на графике Силуэт в результатах узла | Расстояние между кластерами | Ручной ввод целочисленного значения По умолчанию — 25 | Данный параметр задает расстояние между кластерами на графике Силуэт в результатах узла | Количество бинов | Ручной ввод целочисленного значения По умолчанию — 10 | Данный параметр задает количество бинов, на которое будет делиться количественная переменная на графике с параллельными осями в результатах узла | Переменные, по которым делать оси | Раскрывающийся список с выбором нескольких переменных | Данный параметр задает переменные, которые будут отражены на графике с параллельными осями в результатах узла | Максимальное количество линий | Ручной ввод По умолчанию — 50 | Данный параметр задает максимальное количество линий, которые будут отображаться на графике с параллельными осями в результатах узла |
|
Результаты выполнения узла:
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример Silhouette Plot |
---|
|
|
Значение Silhouette для каждого наблюдения (на графике отображается указанное в параметре Размер выборки число наблюдений) является мерой того, насколько это наблюдение похоже на наблюдения в собственном кластере по сравнению с наблюдениями в других кластерах.
Значение Silhouette находится в диапазоне от -1 до 1. Высокое значение указывает на то, что наблюдение хорошо соответствует собственному кластеру и плохо соответствует другим кластерам.
Если большинство наблюдений имеют низкое или отрицательное значение Silhouette, тогда пользователь должен перестроить кластеризацию с большим или меньшим количеством кластеров.
...
График в параллельных координатах позволяет интерпретировать построенные кластеры.
На данном графике каждой переменной присваивается собственная ось (согласно параметру Переменные, по которым делать оси). Оси располагаются параллельно друг другу, и каждая имеют имеет свою собственную шкалу. Начальная ось отражает кластер, к которому модель отнесла наблюдение. Каждое наблюдение наносится на график в виде линии (параметр параметр Максимальное количество линий), пересекающейся с каждой из осей. Таким образом, пользователь может выявить паттерны и корреляции между разными переменными.
...