Узел «Профилирование» позволяет исследовать данные с целью выяснения статистических характеристик переменных.
Список параметров узла представлен в таблице ниже.
Параметр | Возможные значения и ограничения | Описание |
---|---|---|
Название | Ручной ввод | Название узла, которое будет отображаться в интерфейсе |
Описание | Ручной ввод | Описание узла |
Результаты выполнения узла:
- Таблица с примером данных. Отображаются первые 100 наблюдений.
- Профиль данных.
Профиль данных рассчитывается по всему набору данных и по каждой из переменных и зависит от ее типа (для категориальных и количественных переменных разный набор статистик).
Для того, чтобы отобразить статистики по нужной переменной, необходимо выбрать ее в списке.
Общие статистики
Для всех наблюдений набора данных считается следующий набор статистик (пункт Статистика по набору данных):
- Количество значений.
- Количество уникальных значений.
- Процент уникальных значений (в процентах).
- Количество дублирующих строк.
- Процент дублирующих строк (в процентах).
Категориальные переменные
Для категориальных переменных рассчитывается набор статистик в соответствии с таблицей ниже.
Статистика | Описание |
---|---|
Количество уникальных значений | Количество неповторяющихся значений |
Процент уникальных значений | Процент уникальных значений от общего количества значений |
Количество пропущенных значений | Количество пропущенных значений |
Процент пропущенных значений | Процент пропущенных значений от общего количества значений |
Максимальная длина | Количество знаков максимального по длине значения |
Минимальная длина | Количество знаков минимального по длине значения |
Top | 3 значения с максимальной частотой |
Bottom | 3 значения с минимальной частотой |
Для удобства интерпретации и анализа также предусмотрено построение Облака слов.
Облако слов (или облако тегов) визуализирует частоту появления значения переменной. Размер облака отражает частоту появления значения. Цветовая гамма не несет в себе смысла и выполняет исключительно эстетическую функцию.
Посмотреть Облако слов можно в том же контейнере с профилированием, выбрав в правом верхнем углу иконку .
Количественные переменные
Для количественных переменных посчитывается набор статистик в соответствии с таблицей ниже.
Статистика | Описание |
---|---|
Количество уникальных значений | количество неповторяющихся значений переменной |
Процент уникальных значений | процент неповторяющихся значений переменной |
Количество пропущенных значений | количество пропущенных значений переменной |
Процент пропущенных значений | процент пропущенных значений |
Минимальное значение | наименьшее значение переменной |
Максимальное значение | наибольшее значение переменной |
Среднее значение | сумма всех значений переменной, разделенная на число этих значений |
5-я персентиль | это некоторое значение X из данного ряда, которое делит все имеющиеся в нем значения на две группы: 5% значений, которые меньше X, и оставшиеся значения (то есть 95%), которые превышают X. |
95-я персентиль | это некоторое значение X из данного ряда, которое делит все имеющиеся в нем значения на две группы: 95% значений, которые меньше X, и оставшиеся значения (то есть 5%), которые превышают X. |
1-я квартиль | 25-я персентиль |
3-я квартиль | 75-я персентиль |
Медиана | значение, которое делит распределение пополам (его площадь в т.ч.): половина значений больше медианы, половина — не больше. |
Межквартильный размах | разница между 3-м и 1-м квартилями |
Количество выбросов | Выбросами считаются наблюдения, которые отклоняются от своего математического ожидания более чем на три среднеквадратических отклонения (правило трех сигм). |
Коэффициент вариации | величина, равная отношению стандартного (среднеквадратичного) отклонения случайной величины к ее математическому ожиданию. Он применяется для сравнения вариативности одного и того же признака в нескольких совокупностях с различным средним арифметическим. |
Коэффициент эксцесса | характеризует меру высоты графика. |
Медианное абсолютное отклонение | вычисляется как медиана абсолютного значения для каждого значения минус медианное значение группы. |
Асимметрия | характеризует меру скошенности графика влево/вправо. |
Стандартное отклонение | статистическая характеристика распределения случайной величины, показывающая среднюю степень разброса значений величины относительно математического ожидания. |
Дисперсия | величина, которая характеризует меру разброса значений случайной величины относительно ее математического ожидания. |
Т-статистика | T-статистика — это разница между средним по выборке и гипотетическим средним (предполагаемым равным нулю), деленная на расчетную стандартную ошибку среднего. |
Пи-значение | Уровень значимости — вероятность получить T-значение, равное или превышающее то значение, которое мы в действительности рассчитали по имеющимся выборочным данным (при условии, что нулевая гипотеза верна) |
Для удобства интерпретации и анализа предусмотрено построение Гистограммы.
Гистограмма визуализирует распределение данных в рамках непрерывного интервала. На горизонтальной оси отмечаются интервалы (бины), а на вертикальной оси отмечается частота попаданий наблюдений в каждый интервал. Количество бинов не изменяемо и по умолчанию равно 50.
Посмотреть гистограмму можно в том же контейнере, выбрав в правом верхнем углу иконку .