Кластеризация

Данная вкладка представляет собой список с процедурами кластерного анализа, которые будут рассчитаны в ходе Исследования.

Вкладка «Кластеризация» Мастера настройки

Кластеризация — это разбиение множества объектов на подмножества (кластеры) по заданному критерию.
На этапе исследования полезно получить априорную информацию об исходных данных, чтобы на этапе построения модели k-средних указать параметр, который будет увеличивать ее предсказательную способность.
Для создания новой процедуры кластерного анализа необходимо:

Выбрать «Добавить кластер».
В открывшемся окне Настройки кластеризации задать параметры (подробнее в таблице ниже).
Сохранить параметры.

Окно Настройки кластеризации

Параметры кластеризации

Параметр	Возможные значения и ограничения	Описание
Название	Ручной ввод Ограничений на значение нет	Название, которое будет отображаться в результатах исследования
Количество кластеров	Ручной ввод целочисленного значения больше 0 По умолчанию — 5	Задание числа кластеров, на которые будет делиться векторное пространство.
Random Seed	Ручной ввод числового значения По умолчанию — 42	Начальное числовое значение для генератора случайных чисел
Тип инициализации	Раскрывающийся список со следующими значениями: k-means++ (По умолчанию) Forgy Random	Данные параметр отвечает за выбор метода инициализации начальных точек кластеров. Предусмотрены: k-means++ Идея метода k-means++ состоит в том, чтобы выбрать начальные точки, которые находятся как можно дальше друг от друга. Forgy Метод Forgy случайным образом выбирает k наблюдений (по числу заданных кластеров) из набора данных и использует их в качестве начальных значений. Random Метод Random сначала случайным образом назначает кластер каждому наблюдению, а затем переходит к этапу обновления, таким образом вычисляя начальное среднее значение как центроид случайно назначенных точек кластера.
Тип стандартизации	Раскрывающийся список со следующими значениями: Не выбрано Стандартное отклонение (По умолчанию) Нормализация	Данный параметр задает тип стандартизации данных. Предусмотрены: Не выбрано Не стандартизировать Стандартное отклонение Из каждого записи вычитается среднее значение и результат делится на стандартное отклонение Нормализация Из каждой записи вычитается минимальное значение и результат делиться на разницу между максимальным и минимальным значением
Подготовить данные	Чекбокс	Выбор данного чекбокса указывает на необходимость подготовить данные
Количество бинов в графике в параллельных координатах	Ручной ввод целочисленного значения Больше 0 По умолчанию — 10	Данный параметр задает количество бинов, на которое делятся наблюдения для отображения на графике в параллельных координатах
Атрибуты	Список атрибутов, доступных в наборе данных	Выбор атрибутов набора данных для проведения кластерного анализа

Быстрые ссылки

Дерево страниц