Для количественных переменных посчитывается набор статистик в соответствии с таблицей (Таблица 4).
Таблица 4 — Набор статистик, рассчитываемых для количественных переменных
Статистика |
Описание |
---|---|
Количество уникальных значений |
количество неповторяющихся значений переменной |
Процент уникальных значений |
процент неповторяющихся значений переменной |
Количество пропущенных значений |
количество пропущенных значений переменной |
Процент пропущенных значений |
процент пропущенных значений |
Минимальное значение |
наименьшее значение переменной |
Максимальное значение |
наибольшее значение переменной |
Среднее значение |
сумма всех значений переменной, разделенная на число этих значений |
5-я персентиль |
это некоторое значение X из данного ряда, которое делит все имеющиеся в нем значения на две группы: 5% значений, которые меньше X, и оставшиеся значения (то есть 95%), которые превышают X. |
95-я персентиль |
это некоторое значение X из данного ряда, которое делит все имеющиеся в нем значения на две группы: 95% значений, которые меньше X, и оставшиеся значения (то есть 5%), которые превышают X. |
1-я квартиль |
25-я персентиль |
3-я квартиль |
75-я персентиль |
Медиана |
значение, которое делит распределение пополам (его площадь в т.ч.): половина значений больше медианы, половина — не больше. |
Межквартильный размах |
разница между 3-м и 1-м квартилями |
Количество выбросов |
Выбросами считаются наблюдения, которые отклоняются от своего математического ожидания более чем на три среднеквадратических отклонения (правило трех сигм). |
Коэффициент вариации |
величина, равная отношению стандартного (среднеквадратичного) отклонения случайной величины к ее математическому ожиданию. Он применяется для сравнения вариативности одного и того же признака в нескольких совокупностях с различным средним арифметическим. |
Коэффициент эксцесса |
характеризует меру высоты графика. |
Медианное абсолютное отклонение |
вычисляется как медиана абсолютного значения для каждого значения минус медианное значение группы. |
Асимметрия |
характеризует меру скошенности графика влево/вправо. |
Стандартное отклонение |
статистическая характеристика распределения случайной величины, показывающая среднюю степень разброса значений величины относительно математического ожидания. |
Дисперсия |
величина, которая характеризует меру разброса значений случайной величины относительно ее математического ожидания. |
Т-статистика |
T-статистика — это разница между средним по выборке и гипотетическим средним (предполагаемым равным нулю), деленная на расчетную стандартную ошибку среднего. |
Пи-значение |
Уровень значимости — вероятность получить T-значение, равное или превышающее то значение, которое мы в действительности рассчитали по имеющимся выборочным данным (при условии, что нулевая гипотеза верна) |
Для удобства интерпретации и анализа предусмотрено построение Гистограммы.
Гистограмма визуализирует распределение данных в рамках непрерывного интервала (Рисунок 43). Каждая полоса представляет в табличной форме частотность за определенный бин. Количество бинов не изменяемо и по умолчанию равно 50.
Посмотреть гистограмму можно в том же контейнере, выбрав в правом верхнем углу иконку .
Рисунок 43 — Пример Гистограммы