Узел «Профилирование» позволяет исследовать данные с целью выяснения статистических характеристик переменных.
Список параметров узла представлен в таблице (Таблица 21).
Таблица 23 — Параметры узла «Веса классов»
Параметр |
Возможные значения и ограничения |
Описание |
---|---|---|
Название |
Ручной ввод |
Название узла, которое будет отображаться в интерфейсе |
Описание |
Ручной ввод |
Описание узла |
Результаты выполнения узла:
- Таблица с примером данных (Рисунок 107). Отображаются первые 100 наблюдений.
Рисунок 107 – Таблица с примером данных
- Профиль данных.
Профиль данных рассчитывается по всему набору данных и по каждой из переменных и зависит от ее типа (для категориальных и количественных переменных разный набор статистик).
Для того, чтобы отобразить статистики по нужной переменной, необходимо выбрать ее в списке (в соответствии с Рисунок 108).
Рисунок 108 – Пример профиля данных
Общие статистики
Для всех наблюдений набора данных считается следующий набор статистик (пункт Статистика по набору данных):
- Количество значений.
- Количество уникальных значений.
- Процент уникальных значений (в процентах).
- Количество дублирующих строк.
- Процент дублирующих строк (в процентах).
Категориальные переменные
Для категориальных переменных рассчитывается набор статистик в соответствии с Таблица 24.
Таблица 24 — Набор статистик, рассчитываемых для категориальных переменных
Статистика |
Описание |
---|---|
Количество уникальных значений |
Количество неповторяющихся значений |
Процент уникальных значений |
Процент уникальных значений от общего количества значений |
Количество пропущенных значений |
Количество пропущенных значений |
Процент пропущенных значений |
Процент пропущенных значений от общего количества значений |
Максимальная длина |
Количество знаков максимального по длине значения |
Минимальная длина |
Количество знаков минимального по длине значения |
Top |
3 значения с максимальной частотой |
Bottom |
3 значения с минимальной частотой |
Для удобства интерпретации и анализа также предусмотрено построение Облака слов.
Облако слов (или облако тегов) визуализирует частоту появления значения переменной. Размер облака отражает частоту появления значения. Цветовая гамма не несет в себе смысла и выполняет исключительно эстетическую функцию (Рисунок 109).
Посмотреть Облако слов можно в том же контейнере с профилированием, выбрав в правом верхнем углу иконку .
Рисунок 109 — Пример Облака слов
Количественные переменные
Для количественных переменных посчитывается набор статистик в соответствии с Таблица 25.
Таблица 25 — Набор статистик, рассчитываемых для количественных переменных
Статистика |
Описание |
---|---|
Количество уникальных значений |
количество неповторяющихся значений переменной |
Процент уникальных значений |
процент неповторяющихся значений переменной |
Количество пропущенных значений |
количество пропущенных значений переменной |
Процент пропущенных значений |
процент пропущенных значений |
Минимальное значение |
наименьшее значение переменной |
Максимальное значение |
наибольшее значение переменной |
Среднее значение |
сумма всех значений переменной, разделенная на число этих значений |
5-я персентиль |
это некоторое значение X из данного ряда, которое делит все имеющиеся в нем значения на две группы: 5% значений, которые меньше X, и оставшиеся значения (то есть 95%), которые превышают X. |
95-я персентиль |
это некоторое значение X из данного ряда, которое делит все имеющиеся в нем значения на две группы: 95% значений, которые меньше X, и оставшиеся значения (то есть 5%), которые превышают X. |
1-я квартиль |
25-я персентиль |
3-я квартиль |
75-я персентиль |
Медиана |
значение, которое делит распределение пополам (его площадь в т.ч.): половина значений больше медианы, половина — не больше. |
Межквартильный размах |
разница между 3-м и 1-м квартилями |
Количество выбросов |
Выбросами считаются наблюдения, которые отклоняются от своего математического ожидания более чем на три среднеквадратических отклонения (правило трех сигм). |
Коэффициент вариации |
величина, равная отношению стандартного (среднеквадратичного) отклонения случайной величины к ее математическому ожиданию. Он применяется для сравнения вариативности одного и того же признака в нескольких совокупностях с различным средним арифметическим. |
Коэффициент эксцесса |
характеризует меру высоты графика. |
Медианное абсолютное отклонение |
вычисляется как медиана абсолютного значения для каждого значения минус медианное значение группы. |
Асимметрия |
характеризует меру скошенности графика влево/вправо. |
Стандартное отклонение |
статистическая характеристика распределения случайной величины, показывающая среднюю степень разброса значений величины относительно математического ожидания. |
Дисперсия |
величина, которая характеризует меру разброса значений случайной величины относительно ее математического ожидания. |
Т-статистика |
T-статистика — это разница между средним по выборке и гипотетическим средним (предполагаемым равным нулю), деленная на расчетную стандартную ошибку среднего. |
Пи-значение |
Уровень значимости — вероятность получить T-значение, равное или превышающее то значение, которое мы в действительности рассчитали по имеющимся выборочным данным (при условии, что нулевая гипотеза верна) |
Для удобства интерпретации и анализа предусмотрено построение Гистограммы.
Гистограмма визуализирует распределение данных в рамках непрерывного интервала (Рисунок 110). На горизонтальной оси отмечаются интервалы (бины), а на вертикальной оси отмечается частота попаданий наблюдений в каждый интервал. Количество бинов не изменяемо и по умолчанию равно 50.
Посмотреть гистограмму можно в том же контейнере, выбрав в правом верхнем углу иконку .
Рисунок 110 — Пример Гистограммы