Для категориальных переменных посчитывается набор статистик в соответствии с таблицей (Таблица 3).
Таблица 3 — Набор статистик, рассчитываемых для категориальных переменных
Статистика |
Описание |
---|---|
Количество уникальных значений |
Количество неповторяющихся значений |
Процент уникальных значений |
Процент уникальных значений от общего количества значений |
Количество пропущенных значений |
Количество пропущенных значений |
Процент пропущенных значений |
Процент пропущенных значений от общего количества значений |
Максимальная длина |
Количество знаков максимального по длине значения |
Минимальная длина |
Количество знаков минимального по длине значения |
Top |
3 значения с максимальной частотой |
Bottom |
3 значения с минимальной частотой |
Для удобства интерпретации и анализа также предусмотрено построение Облака слов.
Облако слов (или облако тегов) демонстрирует частотность появления значения переменной. Размер облака отражает частоту появления значения. Цветовая гамма не несет в себе дополнительного смысла и выполняет исключительно эстетическую функцию (Рисунок 42).
Посмотреть Облако слов можно в том же контейнере с профилированием, выбрав в правом верхнем углу иконку .
Рисунок 42 — Пример Облака слов