Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

Узел «Профилирование» позволяет исследовать данные с целью выяснения статистических характеристик переменных.

Список параметров узла представлен в таблице (Таблица 21).
Таблица 23 — ниже.


Scroll Title
title-positiontop
title-alignmentright
titleПараметры узла «Веса классов»

Параметр

Возможные значения и ограничения

Описание

Название

Ручной ввод
Ограничений на значение нет

Название узла, которое будет отображаться в интерфейсе

Описание

Ручной ввод
Ограничений на значение нет

Описание узла


Результаты выполнения узла:

  • Таблица с примером данных (Рисунок 107). Отображаются первые 100 наблюдений.

...


...

Scroll Title
title-alignmentcenter
titleТаблица с примером данных

Image Added


  • Профиль данных.

Профиль данных рассчитывается по всему набору данных и по каждой из переменных и зависит от ее типа (для категориальных и количественных переменных разный набор статистик).

Для того, чтобы отобразить статистики по нужной переменной, необходимо выбрать ее в списке (в соответствии с Рисунок 108). Image Removed
Якорь_Ref112858988_Ref112858988Рисунок 108 –


Scroll Title
title-alignmentcenter
titleПример профиля данных

Image Added


Общие статистики

Для всех наблюдений набора данных считается следующий набор статистик (пункт Статистика по набору данных):

...

Категориальные переменные

Для категориальных переменных рассчитывается набор статистик в соответствии с Таблица 24таблицей ниже. Якорь_Ref112860885_Ref112860885Таблица 24 —


Scroll Title
title-alignmentcenter
titleНабор статистик, рассчитываемых для категориальных переменных

Статистика

Описание

Количество уникальных значений

Количество неповторяющихся значений

Процент уникальных значений

Процент уникальных значений от общего количества значений

Количество пропущенных значений

Количество пропущенных значений

Процент пропущенных значений

Процент пропущенных значений от общего количества значений

Максимальная длина

Количество знаков максимального по длине значения

Минимальная длина

Количество знаков минимального по длине значения

Top

3 значения с максимальной частотой

Bottom

3 значения с минимальной частотой


Для удобства интерпретации и анализа также предусмотрено построение Облака слов.

Облако слов (или облако тегов) визуализирует частоту появления значения переменной. Размер облака отражает частоту появления значения. Цветовая гамма не несет в себе смысла и выполняет исключительно эстетическую функцию (Рисунок 109).

Посмотреть Облако слов можно в том же контейнере с профилированием, выбрав в правом верхнем углу иконку Image Removed Image Added . Image Removed
Якорь_Ref112860912_Ref112860912Рисунок 109 —


Scroll Title
title-alignmentcenter
titleПример Облака слов

Image Added

Количественные переменные

Для количественных переменных посчитывается набор статистик в соответствии с Таблица 25таблицей ниже. Якорь_Ref112860953_Ref112860953Таблица 25 —


Scroll Title
title-alignmentcenter
titleНабор статистик, рассчитываемых для количественных переменных

Статистика

Описание

Количество уникальных значений

количество неповторяющихся значений переменной

Процент уникальных значений

процент неповторяющихся значений переменной

Количество пропущенных значений

количество пропущенных значений переменной

Процент пропущенных значений

процент пропущенных значений

Минимальное значение

наименьшее значение переменной

Максимальное значение

наибольшее значение переменной

Среднее значение

сумма всех значений переменной, разделенная на число этих значений

5-я персентиль

это некоторое значение X из данного ряда, которое делит все имеющиеся в нем значения на две группы: 5% значений, которые меньше X, и оставшиеся значения (то есть 95%), которые превышают X.

95-я персентиль

это некоторое значение X из данного ряда, которое делит все имеющиеся в нем значения на две группы: 95% значений, которые меньше X, и оставшиеся значения (то есть 5%), которые превышают X.

1-я квартиль

25-я персентиль

3-я квартиль

75-я персентиль

Медиана

значение, которое делит распределение пополам (его площадь в т.ч.): половина значений больше медианы, половина — не больше.

Межквартильный размах

разница между 3-м и 1-м квартилями

Количество выбросов

Выбросами считаются наблюдения, которые отклоняются от своего математического ожидания более чем на три среднеквадратических отклонения (правило трех сигм).

Коэффициент вариации

величина, равная отношению стандартного (среднеквадратичного) отклонения случайной величины к ее математическому ожиданию. Он применяется для сравнения вариативности одного и того же признака в нескольких совокупностях с различным средним арифметическим.
Если значение коэффициента вариации не превышает 33%, то совокупность считается однородной, а если больше 33%, то — неоднородной.

Коэффициент эксцесса

характеризует меру высоты графика.
Если коэффициент больше нуля, то распределение является более высоким («островершинным») относительно «эталонного» нормального распределения. Если коэффициент ниже нуля, то более низким и пологим.

Медианное абсолютное отклонение

вычисляется как медиана абсолютного значения для каждого значения минус медианное значение группы.
Является статистикой, более устойчивой к выбросам в наборе данных, чем стандартное отклонение

Асимметрия

характеризует меру скошенности графика влево/вправо.
Если коэффициент асимметрии отрицателен, то скос левосторонний. Если коэффициент положителен, то скос правосторонний. И чем коэффициент больше по модулю, тем сильнее скос распределения.

Стандартное отклонение

статистическая характеристика распределения случайной величины, показывающая среднюю степень разброса значений величины относительно математического ожидания.
Большее значение среднеквадратического отклонения показывает больший разброс наблюдаемых значений признака относительно среднего; меньшее значение, соответственно, показывает, что величины в множестве сгруппированы вокруг среднего.

Дисперсия

величина, которая характеризует меру разброса значений случайной величины относительно ее математического ожидания.

Т-статистика

T-статистика — это разница между средним по выборке и гипотетическим средним (предполагаемым равным нулю), деленная на расчетную стандартную ошибку среднего.

Пи-значение

Уровень значимости — вероятность получить T-значение, равное или превышающее то значение, которое мы в действительности рассчитали по имеющимся выборочным данным (при условии, что нулевая гипотеза верна)


Для удобства интерпретации и анализа предусмотрено построение Гистограммы.

Гистограмма визуализирует распределение данных в рамках непрерывного интервала (Рисунок 110). На горизонтальной оси отмечаются интервалы (бины), а на вертикальной оси отмечается частота попаданий наблюдений в каждый интервал. Количество бинов не изменяемо и по умолчанию равно 50.

Посмотреть гистограмму можно в том же контейнере, выбрав в правом верхнем углу иконку Image Removed Image Added . Image Removed
Якорь_Ref112861321_Ref112861321Рисунок 110 — Пример Гистограммы


Scroll Title
title-alignmentcenter
titleПример Гистограммы

Image Added