Для категориальных переменных посчитывается набор статистик в соответствии с таблицей ниже.
Набор статистик, рассчитываемых для категориальных переменных
Статистика | Описание |
---|---|
Количество уникальных значений | Количество неповторяющихся значений |
Процент уникальных значений | Процент уникальных значений от общего количества значений |
Количество пропущенных значений | Количество пропущенных значений |
Процент пропущенных значений | Процент пропущенных значений от общего количества значений |
Максимальная длина | Количество знаков максимального по длине значения |
Минимальная длина | Количество знаков минимального по длине значения |
Top | 3 значения с максимальной частотой |
Bottom | 3 значения с минимальной частотой |
Для удобства интерпретации и анализа также предусмотрено построение Облака слов.
Облако слов (или облако тегов) демонстрирует частотность появления значения переменной. Размер облака отражает частоту появления значения. Цветовая гамма не несет в себе дополнительного смысла и выполняет исключительно эстетическую функцию.
Посмотреть Облако слов можно в том же контейнере с профилированием, выбрав в правом верхнем углу иконку .