Вы просматриваете старую версию данной страницы. Смотрите текущую версию.

Сравнить с текущим просмотр истории страницы

« Предыдущий Версия 5 Следующий »

Данная вкладка представляет собой список с процедурами кластерного анализа, которые будут рассчитаны в ходе Исследования.


Вкладка «Кластеризация» Мастера настройки


Кластеризация — это разбиение множества объектов на подмножества (кластеры) по заданному критерию.
На этапе исследования полезно получить априорную информацию об исходных данных, чтобы на этапе построения модели k-средних указать параметр, который будет увеличивать ее предсказательную способность.
Для создания новой процедуры кластерного анализа необходимо:

  • Выбрать «Добавить кластер».
  • В открывшемся окне Настройки кластеризации задать параметры (подробнее в таблице ниже).
  • Сохранить параметры.


Окно Настройки кластеризации



Параметры кластеризации

Параметр

Возможные значения и ограничения

Описание

Название

Ручной ввод
Ограничений на значение нет

Название, которое будет отображаться в результатах исследования

Количество кластеров

Ручной ввод целочисленного значения больше 0
По умолчанию — 5

Задание числа кластеров, на которые будет делиться векторное пространство.

Random Seed

Ручной ввод числового значения
По умолчанию — 42

Начальное числовое значение для генератора случайных чисел

Тип инициализации

Раскрывающийся список со следующими значениями:

  • k-means++ (По умолчанию)
  • Forgy
  • Random

Данные параметр отвечает за выбор метода инициализации начальных точек кластеров. Предусмотрены:

  • k-means++
    Идея метода k-means++ состоит в том, чтобы выбрать начальные точки, которые находятся как можно дальше друг от друга.
  • Forgy
    Метод Forgy случайным образом выбирает k наблюдений (по числу заданных кластеров) из набора данных и использует их в качестве начальных значений.
  • Random
    Метод Random сначала случайным образом назначает кластер каждому наблюдению, а затем переходит к этапу обновления, таким образом вычисляя начальное среднее значение как центроид случайно назначенных точек кластера.

Тип стандартизации

Раскрывающийся список со следующими значениями:

  • Не выбрано
  • Стандартное отклонение (По умолчанию)
  • Нормализация

Данный параметр задает тип стандартизации данных. Предусмотрены:

  • Не выбрано
    Не стандартизировать
  • Стандартное отклонение
    Из каждого записи вычитается среднее значение и результат делится на стандартное отклонение
  • Нормализация
    Из каждой записи вычитается минимальное значение и результат делиться на разницу между максимальным и минимальным значением

Подготовить данные

Чекбокс

Выбор данного чекбокса указывает на необходимость подготовить данные

Количество бинов в графике в параллельных координатах

Ручной ввод целочисленного значения
Больше 0
По умолчанию — 10

Данный параметр задает количество бинов, на которое делятся наблюдения для отображения на графике в параллельных координатах

Атрибуты

Список атрибутов, доступных в наборе данных

Выбор атрибутов набора данных для проведения кластерного анализа

  • Нет меток