...
Кластеризация — это разбиение множества объектов на подмножества (кластеры) по заданному критерию.
На этапе исследования полезно получить априорную информацию об исходных данных, чтобы на этапе построения модели k-средних указать параметр, который будет увеличивать ее предсказательную способность.
Для создания новой процедуры кластерного анализа необходимо:
...
Scroll Title |
---|
title-position | top |
---|
title-alignment | right |
---|
title | Параметры кластеризации |
---|
|
Параметр | Возможные значения и ограничения | Описание |
---|
Название | Ручной ввод Ограничений на значение нет | Название, которое будет отображаться в результатах исследования | Количество кластеров | Ручной ввод целочисленного значения больше 0 По умолчанию — 5 | Задание числа кластеров, на которые будет делиться векторное пространство. | Random Seed | Ручной ввод числового значения По умолчанию — 42 | Начальное числовое значение для генератора случайных чисел | Тип инициализации | Раскрывающийся список со следующими значениями: - k-means++ (По умолчанию)
- Forgy
- Random
| Данные Данный параметр отвечает за выбор метода инициализации начальных точек кластеров. Предусмотрены: - k-means++
Идея метода k-means++ состоит в том, чтобы выбрать начальные точки, которые находятся как можно дальше друг от друга. - Forgy
Метод Forgy случайным образом выбирает k наблюдений (по числу заданных кластеров) из набора данных и использует их в качестве начальных значений. - Random
Метод Random сначала случайным образом назначает кластер каждому наблюдению, а затем переходит к этапу обновления, таким образом вычисляя начальное среднее значение как центроид случайно назначенных точек кластера.
| Тип стандартизации | Раскрывающийся список со следующими значениями: - Не выбрано
- Стандартное отклонение (По умолчанию)
- Нормализация
| Данный параметр задает тип стандартизации данных. Предусмотрены: - Не выбрано
Не стандартизировать - Стандартное отклонение
Из каждого каждой записи вычитается среднее значение и результат делится на стандартное отклонение - Нормализация
Из каждой записи вычитается минимальное значение и результат делиться делится на разницу между максимальным и минимальным значением
| Подготовить данные | Чекбокс | Выбор данного чекбокса указывает на необходимость подготовить данные: - Заменить пропущенные значения количественной переменной на mean
- Заменить пропущенные значения категориальной переменной на текстовый None
| Количество бинов в графике в параллельных координатах | Ручной ввод целочисленного значения Больше 0 По умолчанию — 10 | Данный параметр задает количество бинов, на которое делятся наблюдения для отображения на графике в параллельных координатах | Атрибуты | Список атрибутов, доступных в наборе данных | Выбор атрибутов набора данных для проведения кластерного анализа |
|