...
Scroll Title |
---|
title-position | top |
---|
title-alignment | right |
---|
title | Параметры узла «Веса классов» |
---|
|
Параметр | Возможные значения и ограничения | Описание |
---|
Название | Ручной ввод Ограничений на значение нет | Название узла, которое будет отображаться в интерфейсе | Описание | Ручной ввод Ограничений на значение нет | Описание узла |
|
Результаты выполнения узла:
- Таблица с примером данных. Отображаются первые 100 наблюдений.
...
Scroll Title |
---|
title-alignment | center |
---|
title | Таблица с примером данных |
---|
|
|
Профиль данных рассчитывается по всему набору данных и по каждой из переменных и зависит от ее типа (для категориальных и количественных переменных разный набор статистик).
Для того, чтобы отобразить статистики по нужной переменной, необходимо выбрать ее в списке.
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример профиля данных |
---|
|
|
Общие статистики
Для всех наблюдений набора данных считается следующий набор статистик (пункт Статистика по набору данных):
...
Категориальные переменные
Для категориальных переменных рассчитывается набор статистик в соответствии с таблицей ниже.
Scroll Title |
---|
title-alignment | center |
---|
title | Набор статистик, рассчитываемых для категориальных переменных |
---|
|
Статистика | Описание |
---|
Количество уникальных значений | Количество неповторяющихся значений | Процент уникальных значений | Процент уникальных значений от общего количества значений | Количество пропущенных значений | Количество пропущенных значений | Процент пропущенных значений | Процент пропущенных значений от общего количества значений | Максимальная длина | Количество знаков максимального по длине значения | Минимальная длина | Количество знаков минимального по длине значения | Top | 3 значения с максимальной частотой | Bottom | 3 значения с минимальной частотой |
|
Для удобства интерпретации и анализа также предусмотрено построение Облака слов.
Облако слов (или облако тегов) визуализирует частоту появления значения переменной. Размер облака отражает частоту появления значения. Цветовая гамма не несет в себе смысла и выполняет исключительно эстетическую функцию.
Посмотреть Облако слов можно в том же контейнере с профилированием, выбрав в правом верхнем углу иконку .
...
Количественные переменные
Для количественных переменных посчитывается набор статистик в соответствии с таблицей ниже.
...
Scroll Title |
---|
title-alignment | center |
---|
title | Набор статистик, рассчитываемых для количественных переменных |
---|
|
Статистика | Описание |
---|
Количество уникальных значений | количество неповторяющихся значений переменной | Процент уникальных значений | процент неповторяющихся значений переменной | Количество пропущенных значений | количество пропущенных значений переменной | Процент пропущенных значений | процент пропущенных значений | Минимальное значение | наименьшее значение переменной | Максимальное значение | наибольшее значение переменной | Среднее значение | сумма всех значений переменной, разделенная на число этих значений | 5-я персентиль | это некоторое значение X из данного ряда, которое делит все имеющиеся в нем значения на две группы: 5% значений, которые меньше X, и оставшиеся значения (то есть 95%), которые превышают X. | 95-я персентиль | это некоторое значение X из данного ряда, которое делит все имеющиеся в нем значения на две группы: 95% значений, которые меньше X, и оставшиеся значения (то есть 5%), которые превышают X. | 1-я квартиль | 25-я персентиль | 3-я квартиль | 75-я персентиль | Медиана | значение, которое делит распределение пополам (его площадь в т.ч.): половина значений больше медианы, половина — не больше. | Межквартильный размах | разница между 3-м и 1-м квартилями | Количество выбросов | Выбросами считаются наблюдения, которые отклоняются от своего математического ожидания более чем на три среднеквадратических отклонения (правило трех сигм). | Коэффициент вариации | величина, равная отношению стандартного (среднеквадратичного) отклонения случайной величины к ее математическому ожиданию. Он применяется для сравнения вариативности одного и того же признака в нескольких совокупностях с различным средним арифметическим. Если значение коэффициента вариации не превышает 33%, то совокупность считается однородной, а если больше 33%, то — неоднородной. | Коэффициент эксцесса | характеризует меру высоты графика. Если коэффициент больше нуля, то распределение является более высоким («островершинным») относительно «эталонного» нормального распределения. Если коэффициент ниже нуля, то более низким и пологим. | Медианное абсолютное отклонение | вычисляется как медиана абсолютного значения для каждого значения минус медианное значение группы. Является статистикой, более устойчивой к выбросам в наборе данных, чем стандартное отклонение | Асимметрия | характеризует меру скошенности графика влево/вправо. Если коэффициент асимметрии отрицателен, то скос левосторонний. Если коэффициент положителен, то скос правосторонний. И чем коэффициент больше по модулю, тем сильнее скос распределения. | Стандартное отклонение | статистическая характеристика распределения случайной величины, показывающая среднюю степень разброса значений величины относительно математического ожидания. Большее значение среднеквадратического отклонения показывает больший разброс наблюдаемых значений признака относительно среднего; меньшее значение, соответственно, показывает, что величины в множестве сгруппированы вокруг среднего. | Дисперсия | величина, которая характеризует меру разброса значений случайной величины относительно ее математического ожидания. | Т-статистика | T-статистика — это разница между средним по выборке и гипотетическим средним (предполагаемым равным нулю), деленная на расчетную стандартную ошибку среднего. | Пи-значение | Уровень значимости — вероятность получить T-значение, равное или превышающее то значение, которое мы в действительности рассчитали по имеющимся выборочным данным (при условии, что нулевая гипотеза верна) |
|
Для удобства интерпретации и анализа предусмотрено построение Гистограммы.
Гистограмма визуализирует распределение данных в рамках непрерывного интервала. На горизонтальной оси отмечаются интервалы (бины), а на вертикальной оси отмечается частота попаданий наблюдений в каждый интервал. Количество бинов не изменяемо и по умолчанию равно 50.
Посмотреть гистограмму можно в том же контейнере, выбрав в правом верхнем углу иконку .
...
Scroll Title |
---|
title-alignment | center |
---|
title | Пример Гистограммы |
---|
|
Image Modified |