Узел «Профилирование» позволяет исследовать данные с целью выяснения статистических характеристик переменных.
Список параметров узла представлен в таблице (Таблица 21).
Таблица 23 — ниже.
Scroll Title |
---|
title-position | top |
---|
title-alignment | right |
---|
title | Параметры узла «Веса классов» |
---|
|
Параметр | Возможные значения и ограничения | Описание |
---|
Название | Ручной ввод Ограничений на значение нет | Название узла, которое будет отображаться в интерфейсе | Описание | Ручной ввод Ограничений на значение нет | Описание узла |
|
Результаты выполнения узла:
- Таблица с примером данных (Рисунок 107). Отображаются первые 100 наблюдений.
...
...
Scroll Title |
---|
title-alignment | center |
---|
title | Таблица с примером данных |
---|
|
Image Added |
Профиль данных рассчитывается по всему набору данных и по каждой из переменных и зависит от ее типа (для категориальных и количественных переменных разный набор статистик).
Для того, чтобы отобразить статистики по нужной переменной, необходимо выбрать ее в списке (в соответствии с Рисунок 108). Image Removed
Якорь |
---|
_Ref112858988 | _Ref112858988 | Рисунок 108 –
Scroll Title |
---|
title-alignment | center |
---|
title | Пример профиля данных |
---|
|
Image Added |
Общие статистики
Для всех наблюдений набора данных считается следующий набор статистик (пункт Статистика по набору данных):
...
Категориальные переменные
Для категориальных переменных рассчитывается набор статистик в соответствии с Таблица 24таблицей ниже.
Якорь |
---|
_Ref112860885 | _Ref112860885 | Таблица 24 —
Scroll Title |
---|
title-alignment | center |
---|
title | Набор статистик, рассчитываемых для категориальных переменных |
---|
|
Статистика | Описание |
---|
Количество уникальных значений | Количество неповторяющихся значений | Процент уникальных значений | Процент уникальных значений от общего количества значений | Количество пропущенных значений | Количество пропущенных значений | Процент пропущенных значений | Процент пропущенных значений от общего количества значений | Максимальная длина | Количество знаков максимального по длине значения | Минимальная длина | Количество знаков минимального по длине значения | Top | 3 значения с максимальной частотой | Bottom | 3 значения с минимальной частотой |
|
Для удобства интерпретации и анализа также предусмотрено построение Облака слов.
Облако слов (или облако тегов) визуализирует частоту появления значения переменной. Размер облака отражает частоту появления значения. Цветовая гамма не несет в себе смысла и выполняет исключительно эстетическую функцию (Рисунок 109).
Посмотреть Облако слов можно в том же контейнере с профилированием, выбрав в правом верхнем углу иконку Image Removed Image Added . Image Removed
Якорь |
---|
_Ref112860912 | _Ref112860912 | Рисунок 109 — Scroll Title |
---|
title-alignment | center |
---|
title | Пример Облака слов |
---|
|
Image Added |
Количественные переменные
Для количественных переменных посчитывается набор статистик в соответствии с Таблица 25таблицей ниже. Якорь |
---|
_Ref112860953 | _Ref112860953 | Таблица 25 —
Scroll Title |
---|
title-alignment | center |
---|
title | Набор статистик, рассчитываемых для количественных переменных |
---|
|
Статистика | Описание |
---|
Количество уникальных значений | количество неповторяющихся значений переменной | Процент уникальных значений | процент неповторяющихся значений переменной | Количество пропущенных значений | количество пропущенных значений переменной | Процент пропущенных значений | процент пропущенных значений | Минимальное значение | наименьшее значение переменной | Максимальное значение | наибольшее значение переменной | Среднее значение | сумма всех значений переменной, разделенная на число этих значений | 5-я персентиль | это некоторое значение X из данного ряда, которое делит все имеющиеся в нем значения на две группы: 5% значений, которые меньше X, и оставшиеся значения (то есть 95%), которые превышают X. | 95-я персентиль | это некоторое значение X из данного ряда, которое делит все имеющиеся в нем значения на две группы: 95% значений, которые меньше X, и оставшиеся значения (то есть 5%), которые превышают X. | 1-я квартиль | 25-я персентиль | 3-я квартиль | 75-я персентиль | Медиана | значение, которое делит распределение пополам (его площадь в т.ч.): половина значений больше медианы, половина — не больше. | Межквартильный размах | разница между 3-м и 1-м квартилями | Количество выбросов | Выбросами считаются наблюдения, которые отклоняются от своего математического ожидания более чем на три среднеквадратических отклонения (правило трех сигм). | Коэффициент вариации | величина, равная отношению стандартного (среднеквадратичного) отклонения случайной величины к ее математическому ожиданию. Он применяется для сравнения вариативности одного и того же признака в нескольких совокупностях с различным средним арифметическим. Если значение коэффициента вариации не превышает 33%, то совокупность считается однородной, а если больше 33%, то — неоднородной. | Коэффициент эксцесса | характеризует меру высоты графика. Если коэффициент больше нуля, то распределение является более высоким («островершинным») относительно «эталонного» нормального распределения. Если коэффициент ниже нуля, то более низким и пологим. | Медианное абсолютное отклонение | вычисляется как медиана абсолютного значения для каждого значения минус медианное значение группы. Является статистикой, более устойчивой к выбросам в наборе данных, чем стандартное отклонение | Асимметрия | характеризует меру скошенности графика влево/вправо. Если коэффициент асимметрии отрицателен, то скос левосторонний. Если коэффициент положителен, то скос правосторонний. И чем коэффициент больше по модулю, тем сильнее скос распределения. | Стандартное отклонение | статистическая характеристика распределения случайной величины, показывающая среднюю степень разброса значений величины относительно математического ожидания. Большее значение среднеквадратического отклонения показывает больший разброс наблюдаемых значений признака относительно среднего; меньшее значение, соответственно, показывает, что величины в множестве сгруппированы вокруг среднего. | Дисперсия | величина, которая характеризует меру разброса значений случайной величины относительно ее математического ожидания. | Т-статистика | T-статистика — это разница между средним по выборке и гипотетическим средним (предполагаемым равным нулю), деленная на расчетную стандартную ошибку среднего. | Пи-значение | Уровень значимости — вероятность получить T-значение, равное или превышающее то значение, которое мы в действительности рассчитали по имеющимся выборочным данным (при условии, что нулевая гипотеза верна) |
|
Для удобства интерпретации и анализа предусмотрено построение Гистограммы.
Гистограмма визуализирует распределение данных в рамках непрерывного интервала (Рисунок 110). На горизонтальной оси отмечаются интервалы (бины), а на вертикальной оси отмечается частота попаданий наблюдений в каждый интервал. Количество бинов не изменяемо и по умолчанию равно 50.
Посмотреть гистограмму можно в том же контейнере, выбрав в правом верхнем углу иконку Image Removed Image Added . Image Removed
Якорь |
---|
_Ref112861321 | _Ref112861321 | Рисунок 110 — Пример Гистограммы
Scroll Title |
---|
title-alignment | center |
---|
title | Пример Гистограммы |
---|
|
Image Added |