Для количественных переменных считается набор статистик в соответствии с таблицей ниже.

Набор статистик, рассчитываемых для количественных переменных

Статистика

Описание

Количество уникальных значений

количество неповторяющихся значений переменной

Процент уникальных значений

процент неповторяющихся значений переменной

Количество пропущенных значений

количество пропущенных значений переменной

Процент пропущенных значений

процент пропущенных значений

Минимальное значение

наименьшее значение переменной

Максимальное значение

наибольшее значение переменной

Среднее значение

сумма всех значений переменной, разделенная на число этих значений

5-я персентиль

это некоторое значение X из данного ряда, которое делит все имеющиеся в нем значения на две группы: 5% значений, которые меньше X, и оставшиеся значения (то есть 95%), которые превышают X.

95-я персентиль

это некоторое значение X из данного ряда, которое делит все имеющиеся в нем значения на две группы: 95% значений, которые меньше X, и оставшиеся значения (то есть 5%), которые превышают X.

1-я квартиль

25-я персентиль

3-я квартиль

75-я персентиль

Медиана

значение, которое делит распределение пополам (его площадь в т.ч.): половина значений больше медианы, половина — не больше.

Межквартильный размах

разница между 3-м и 1-м квартилями

Количество выбросов

Выбросами считаются наблюдения, которые отклоняются от своего математического ожидания более чем на три среднеквадратических отклонения (правило трех сигм).

Коэффициент вариации

величина, равная отношению стандартного (среднеквадратичного) отклонения случайной величины к ее математическому ожиданию. Он применяется для сравнения вариативности одного и того же признака в нескольких совокупностях с различным средним арифметическим.
Если значение коэффициента вариации не превышает 33%, то совокупность считается однородной, а если больше 33%, то — неоднородной.

Коэффициент эксцесса

характеризует меру высоты графика.
Если коэффициент больше нуля, то распределение является более высоким («островершинным») относительно «эталонного» нормального распределения. Если коэффициент ниже нуля, то более низким и пологим.

Медианное абсолютное отклонение

вычисляется как медиана абсолютного значения для каждого значения минус медианное значение группы.
Является статистикой, более устойчивой к выбросам в наборе данных, чем стандартное отклонение

Асимметрия

характеризует меру скошенности графика влево/вправо.
Если коэффициент асимметрии отрицателен, то скос левосторонний. Если коэффициент положителен, то скос правосторонний. И чем коэффициент больше по модулю, тем сильнее скос распределения.

Стандартное отклонение

статистическая характеристика распределения случайной величины, показывающая среднюю степень разброса значений величины относительно математического ожидания.
Большее значение среднеквадратического отклонения показывает больший разброс наблюдаемых значений признака относительно среднего; меньшее значение, соответственно, показывает, что величины в множестве сгруппированы вокруг среднего.

Дисперсия

величина, которая характеризует меру разброса значений случайной величины относительно ее математического ожидания.

Т-статистика

T-статистика — это разница между средним по выборке и гипотетическим средним (предполагаемым равным нулю), деленная на расчетную стандартную ошибку среднего.

Пи-значение

Уровень значимости — вероятность получить T-значение, равное или превышающее то значение, которое мы в действительности рассчитали по имеющимся выборочным данным (при условии, что нулевая гипотеза верна)

Для удобства интерпретации и анализа предусмотрено построение Гистограммы.

Гистограмма визуализирует распределение данных в рамках непрерывного интервала. Каждая полоса представляет в табличной форме частотность за определенный бин. Количество бинов не изменяемо и по умолчанию равно 50.
Посмотреть гистограмму можно в том же контейнере, выбрав в правом верхнем углу иконку .

Пример Гистограммы


  • Нет меток