Узел «Профилирование»

Узел «Профилирование» позволяет исследовать данные с целью выяснения статистических характеристик переменных.
Список параметров узла представлен в таблице (Таблица 21).
Таблица 23 — Параметры узла «Веса классов»

Параметр	Возможные значения и ограничения	Описание
Название	Ручной ввод Ограничений на значение нет	Название узла, которое будет отображаться в интерфейсе
Описание	Ручной ввод Ограничений на значение нет	Описание узла

Результаты выполнения узла:

Таблица с примером данных (Рисунок 107). Отображаются первые 100 наблюдений.

Рисунок 107 – Таблица с примером данных

Профиль данных.

Профиль данных рассчитывается по всему набору данных и по каждой из переменных и зависит от ее типа (для категориальных и количественных переменных разный набор статистик).
Для того, чтобы отобразить статистики по нужной переменной, необходимо выбрать ее в списке (в соответствии с Рисунок 108).

Рисунок 108 – Пример профиля данных
Общие статистики
Для всех наблюдений набора данных считается следующий набор статистик (пункт Статистика по набору данных):

Количество значений.
Количество уникальных значений.
Процент уникальных значений (в процентах).
Количество дублирующих строк.
Процент дублирующих строк (в процентах).

Категориальные переменные
Для категориальных переменных рассчитывается набор статистик в соответствии с Таблица 24.
Таблица 24 — Набор статистик, рассчитываемых для категориальных переменных

Статистика	Описание
Количество уникальных значений	Количество неповторяющихся значений
Процент уникальных значений	Процент уникальных значений от общего количества значений
Количество пропущенных значений	Количество пропущенных значений
Процент пропущенных значений	Процент пропущенных значений от общего количества значений
Максимальная длина	Количество знаков максимального по длине значения
Минимальная длина	Количество знаков минимального по длине значения
Top	3 значения с максимальной частотой
Bottom	3 значения с минимальной частотой

Для удобства интерпретации и анализа также предусмотрено построение Облака слов.
Облако слов (или облако тегов) визуализирует частоту появления значения переменной. Размер облака отражает частоту появления значения. Цветовая гамма не несет в себе смысла и выполняет исключительно эстетическую функцию (Рисунок 109).
Посмотреть Облако слов можно в том же контейнере с профилированием, выбрав в правом верхнем углу иконку .

Рисунок 109 — Пример Облака слов
Количественные переменные
Для количественных переменных посчитывается набор статистик в соответствии с Таблица 25.
Таблица 25 — Набор статистик, рассчитываемых для количественных переменных

Статистика	Описание
Количество уникальных значений	количество неповторяющихся значений переменной
Процент уникальных значений	процент неповторяющихся значений переменной
Количество пропущенных значений	количество пропущенных значений переменной
Процент пропущенных значений	процент пропущенных значений
Минимальное значение	наименьшее значение переменной
Максимальное значение	наибольшее значение переменной
Среднее значение	сумма всех значений переменной, разделенная на число этих значений
5-я персентиль	это некоторое значение X из данного ряда, которое делит все имеющиеся в нем значения на две группы: 5% значений, которые меньше X, и оставшиеся значения (то есть 95%), которые превышают X.
95-я персентиль	это некоторое значение X из данного ряда, которое делит все имеющиеся в нем значения на две группы: 95% значений, которые меньше X, и оставшиеся значения (то есть 5%), которые превышают X.
1-я квартиль	25-я персентиль
3-я квартиль	75-я персентиль
Медиана	значение, которое делит распределение пополам (его площадь в т.ч.): половина значений больше медианы, половина — не больше.
Межквартильный размах	разница между 3-м и 1-м квартилями
Количество выбросов	Выбросами считаются наблюдения, которые отклоняются от своего математического ожидания более чем на три среднеквадратических отклонения (правило трех сигм).
Коэффициент вариации	величина, равная отношению стандартного (среднеквадратичного) отклонения случайной величины к ее математическому ожиданию. Он применяется для сравнения вариативности одного и того же признака в нескольких совокупностях с различным средним арифметическим. Если значение коэффициента вариации не превышает 33%, то совокупность считается однородной, а если больше 33%, то — неоднородной.
Коэффициент эксцесса	характеризует меру высоты графика. Если коэффициент больше нуля, то распределение является более высоким («островершинным») относительно «эталонного» нормального распределения. Если коэффициент ниже нуля, то более низким и пологим.
Медианное абсолютное отклонение	вычисляется как медиана абсолютного значения для каждого значения минус медианное значение группы. Является статистикой, более устойчивой к выбросам в наборе данных, чем стандартное отклонение
Асимметрия	характеризует меру скошенности графика влево/вправо. Если коэффициент асимметрии отрицателен, то скос левосторонний. Если коэффициент положителен, то скос правосторонний. И чем коэффициент больше по модулю, тем сильнее скос распределения.
Стандартное отклонение	статистическая характеристика распределения случайной величины, показывающая среднюю степень разброса значений величины относительно математического ожидания. Большее значение среднеквадратического отклонения показывает больший разброс наблюдаемых значений признака относительно среднего; меньшее значение, соответственно, показывает, что величины в множестве сгруппированы вокруг среднего.
Дисперсия	величина, которая характеризует меру разброса значений случайной величины относительно ее математического ожидания.
Т-статистика	T-статистика — это разница между средним по выборке и гипотетическим средним (предполагаемым равным нулю), деленная на расчетную стандартную ошибку среднего.
Пи-значение	Уровень значимости — вероятность получить T-значение, равное или превышающее то значение, которое мы в действительности рассчитали по имеющимся выборочным данным (при условии, что нулевая гипотеза верна)

Для удобства интерпретации и анализа предусмотрено построение Гистограммы.
Гистограмма визуализирует распределение данных в рамках непрерывного интервала (Рисунок 110). На горизонтальной оси отмечаются интервалы (бины), а на вертикальной оси отмечается частота попаданий наблюдений в каждый интервал. Количество бинов не изменяемо и по умолчанию равно 50.
Посмотреть гистограмму можно в том же контейнере, выбрав в правом верхнем углу иконку .

Рисунок 110 — Пример Гистограммы

Быстрые ссылки

Дерево страниц