История страницы

...

Кластеризация — это разбиение множества объектов на подмножества (кластеры) по заданному критерию.

На этапе исследования полезно получить априорную информацию об исходных данных, чтобы на этапе построения модели k-средних указать параметр, который будет увеличивать ее предсказательную способность.

Для создания новой процедуры кластерного анализа необходимо:

...

Scroll Title

title-position	top
title-alignment	right
title	Параметры кластеризации

Параметр	Возможные значения и ограничения	Описание
Название	Ручной ввод Ограничений на значение нет	Название, которое будет отображаться в результатах исследования
Количество кластеров	Ручной ввод целочисленного значения больше 0 По умолчанию — 5	Задание числа кластеров, на которые будет делиться векторное пространство.
Random Seed	Ручной ввод числового значения По умолчанию — 42	Начальное числовое значение для генератора случайных чисел
Тип инициализации	Раскрывающийся список со следующими значениями: k-means++ (По умолчанию) Forgy Random	Данные Данный параметр отвечает за выбор метода инициализации начальных точек кластеров. Предусмотрены: k-means++ Идея метода k-means++ состоит в том, чтобы выбрать начальные точки, которые находятся как можно дальше друг от друга. Forgy Метод Forgy случайным образом выбирает k наблюдений (по числу заданных кластеров) из набора данных и использует их в качестве начальных значений. Random Метод Random сначала случайным образом назначает кластер каждому наблюдению, а затем переходит к этапу обновления, таким образом вычисляя начальное среднее значение как центроид случайно назначенных точек кластера.
Тип стандартизации	Раскрывающийся список со следующими значениями: Не выбрано Стандартное отклонение (По умолчанию) Нормализация	Данный параметр задает тип стандартизации данных. Предусмотрены: Не выбрано Не стандартизировать Стандартное отклонение Из каждого каждой записи вычитается среднее значение и результат делится на стандартное отклонение Нормализация Из каждой записи вычитается минимальное значение и результат делиться делится на разницу между максимальным и минимальным значением
Подготовить данные	Чекбокс	Выбор данного чекбокса указывает на необходимость подготовить данные: Заменить пропущенные значения количественной переменной на mean Заменить пропущенные значения категориальной переменной на текстовый None
Количество бинов в графике в параллельных координатах	Ручной ввод целочисленного значения Больше 0 По умолчанию — 10	Данный параметр задает количество бинов, на которое делятся наблюдения для отображения на графике в параллельных координатах
Атрибуты	Список атрибутов, доступных в наборе данных	Выбор атрибутов набора данных для проведения кластерного анализа

Быстрые ссылки

Дерево страниц

Сравнение версий

Старая версия 4

Новая версия Текущий

Ключ