Вы просматриваете старую версию данной страницы. Смотрите текущую версию.

Сравнить с текущим просмотр истории страницы

« Предыдущий Версия 4 Текущий »

Узел «Кластерный анализ (k-means)» используется для кластеризации набора данных в отдельные группы (кластеры) исходя из выявленных шаблонов во входном наборе данных. Наблюдения группируются таким образом, чтобы они были похожи друг на друга внутри кластера, но различались с наблюдениями из других кластеров.

Алгоритм работы: Модель k-средних определяет начальный набор центроидов для кластеров (исходя из параметров Количество кластеров и Метод инициализации кластеров). Затем каждое наблюдение определяется в кластер с наиболее близким центроидом. Центроиды кластеров обновляются в соответствии с набором наблюдений, назначенным в каждый кластер. Далее итерационно проверяется необходимо ли переназначить наблюдение в другой кластер. Данный процесс продолжается до момента достижения максимального числа итераций (параметр Максимальное количество итераций).


Принцип работы узла «Кластерный анализ (k-means)»



Запуск алгоритма с определением начального набора центроидов происходит ограниченное количество раз (в соответствии с заданным параметром Количество запусков). После выполнения всех запусков выбирается запуск с минимальным критерием инерции (суммой квадратов расстояний между точками и центроидом внутри кластеров).


Принцип работы узла «Кластерный анализ (k-means)»



Список параметров узла представлен в таблице ниже.


Параметры узла «Кластерный анализ (k-means)»

Параметр

Возможные значения и ограничения

Описание

Название

Ручной ввод
Ограничений на значение нет

Название узла, которое будет отображаться в интерфейсе

Описание

Ручной ввод
Ограничений на значение нет

Описание узла

Количество кластеров

Ручной ввод целочисленного значения
По умолчанию — 5

Задание числа кластеров, на которые будет делиться пространство признаков.
Для определения количества кластеров можно воспользоваться априорной информацией об исходных данных в разделе Исследования данных при Кластеризации исходного набора данных.

Seed

Ручной ввод целочисленного значения
По умолчанию — 42

Начальное числовое значение для генератора случайных чисел.
Используется для воспроизведения результатов при повторном запуске узла

Метод инициализации кластеров

Раскрывающийся список со следующими значениями:

  • k-means++ (по умолчанию)
  • Forgy

Данный параметр отвечает за выбор метода инициализации начальных точек кластеров. Предусмотрены следующие методы:

  • k-means++
    Идея метода k-means++ состоит в том, чтобы случайным образом выбрать начальные точки, которые находятся как можно дальше друг от друга.
  • Forgy
    Метод Forgy случайным образом выбирает k наблюдений (по числу заданных кластеров) из набора данных и использует их в качестве начальных значений.

Стандартизация

Раскрывающийся список со следующими значениями:

  • Нет
  • Стандартное отклонение (по умолчанию)
  • Диапазон

Данный параметр отвечает за выбор метода стандартизации числовых переменных.
Стандартизация – преобразование числовых наблюдений с целью приведения их к некоторой общей шкале. Необходимость стандартизации вызвана тем, что разные признаки из обучающего набора могут быть представлены в разных масштабах и изменяться в разных диапазонах, что влияет на выявление некорректных зависимостей моделью.
Предусмотрены следующие методы:

  • Нет.
  • Стандартное отклонение – преобразует наблюдения таким образом, чтобы их среднее значение равнялось нулю, а стандартное отклонение равнялось 1.
  • Диапазон – линейно преобразует значения переменных в диапазон [0, 1].

Количество запусков

Ручной ввод целочисленного значения
По умолчанию — 10

Данный параметр задает число запусков алгоритма с разными начальными центроидами

Максимальное количество итераций

Ручной ввод целочисленного значения
По умолчанию — 300

Данный параметр задает максимальное количество итераций в рамках одного запуска

Алгоритм K-средних

Раскрывающийся список со следующими значениями:

  • elkan
  • full

Данный параметр отвечает за выбор алгоритма k-средних.

  • elkan – может быть более эффективным для некоторых наборов данных с четко определенными кластерами за счет использования неравенства треугольника. Однако требует больше памяти
  • full – классический алгоритм

Размер выборки

Ручной ввод целочисленного значения
По умолчанию — 1000

Данный параметр задает размер выборки, которая будет отображена на графике Силуэт в результатах узла

Расстояние между кластерами

Ручной ввод целочисленного значения
По умолчанию — 25

Данный параметр задает расстояние между кластерами на графике Силуэт в результатах узла

Количество бинов

Ручной ввод целочисленного значения
По умолчанию — 10

Данный параметр задает количество бинов, на которое будет делиться количественная переменная на графике с параллельными осями в результатах узла

Переменные, по которым делать оси

Раскрывающийся список с выбором нескольких переменных

Данный параметр задает переменные, которые будут отражены на графике с параллельными осями в результатах узла

Максимальное количество линий

Ручной ввод
По умолчанию — 50

Данный параметр задает максимальное количество линий, которые будут отображаться на графике с параллельными осями в результатах узла


Результаты выполнения узла:

  • Круговая диаграмма с количеством наблюдений по кластерам.

Пример Круговой диаграммы с результатами кластеризации


При наведении курсора мыши на сектор кластера можно узнать количество наблюдений в нем.

  • Силуэт – Silhouette Plot


Пример Silhouette Plot


Значение Silhouette для каждого наблюдения (на графике отображается указанное в параметре Размер выборки число наблюдений) является мерой того, насколько это наблюдение похоже на наблюдения в собственном кластере по сравнению с наблюдениями в других кластерах.

Значение Silhouette находится в диапазоне от -1 до 1. Высокое значение указывает на то, что наблюдение хорошо соответствует собственному кластеру и плохо соответствует другим кластерам.

Если большинство наблюдений имеют низкое или отрицательное значение Silhouette, тогда пользователь должен перестроить кластеризацию с большим или меньшим количеством кластеров.

  • График в параллельных координатах.


Пример графика в параллельных координатах


График в параллельных координатах позволяет интерпретировать построенные кластеры.

На данном графике каждой переменной присваивается собственная ось (согласно параметру Переменные, по которым делать оси). Оси располагаются параллельно друг другу, и каждая имеют свою собственную шкалу. Начальная ось отражает кластер, к которому модель отнесла наблюдение. Каждое наблюдение наносится на график в виде линии (параметр Максимальное количество линий), пересекающейся с каждой из осей. Таким образом, пользователь может выявить паттерны и корреляции между разными переменными.

  • Таблица с примером данных. Отображаются первые 100 наблюдений.


Таблица с примером данных


В результате выполнения узла будет рассчитана новая переменная с результатами кластеризации (переменная Cluster_ID0).

  • Таблица с координатами центроидов, где в качестве строк выступают номера кластеров и значения переменных, в которых находятся центроиды этих кластеров.


Пример таблицы с координатами центроидов кластеров


  • Таблица со статистиками по кластерам
    • Номер кластера.
    • Количество наблюдений.
    • Среднеквадратичное расстояние между наблюдениями внутри кластера.
    • Сумма расстояний между наблюдениями внутри кластера.
    • Расстояние между центроидом и ближайшим наблюдением.
    • Расстояние между центроидом и наиболее удаленным наблюдением.
    • Расстояние между центроидом и вторым по удаленности наблюдением.
    • Расстояние между центроидом и третьим по удаленности наблюдением.
    • Ближайший кластер.
    • Расстояние до ближайшего центроида.
    • Среднее расстояние между центроидом и наблюдениями в кластере.
    • Сумма расстояний между наблюдениями и центроидом.


Пример со статистиками по кластерам




  • Таблица со статистиками по переменным кластера. По каждому кластеру отражены среднее и стандартное отклонение для каждой переменной.


Пример таблицы со статистиками по переменным кластера
  • Нет меток