С помощью ассоциативных правил можно узнать, какие признаки объектов чаще всего встречаются совместно. Другими словами, ассоциативные правила определяют наиболее популярные ассоциации (связи) объектов друг с другом.
Ассоциативные правила можно применять в самых различных сферах для решения ряда практических задач. Например, с помощью ассоциативных правил можно определить, какие товары обычно покупают вместе, какие медицинские симптомы являются характерными для того или иного заболевания, определить закономерности участия компаний в госзакупках, выявить предпочтения сотрудников в выборе коллег для совместной работы и многое другое.
Работу ассоциативных правил можно проиллюстрировать на примере закупки товаров. Допустим, имеется 10 заказчиков (элементы левой размерности), которые покупают товары (элементы верхней размерности). В данном случае товары — это объекты, которые мы и будем анализировать на ассоциации:
Мы можем выполнить расчет ассоциативных правил по всем товарам (см. рисунок выше) или выбрать только товары с интересующей нас популярностью. Популярность объекта показывает отношение количества случаев связи этого объекта с элементами левой размерности к количеству всех элементов левой размерности. Иными словами, популярность объекта выражает процент элементов левой размерности, которые связаны с объектом. Например, если мы хотим выбрать товары, которые покупают хотя бы 4 заказчика из 10, мы должны установить 40% как минимальное значение популярности объектов:
Примечание
После того как минимальная популярность задана, система отбирает объекты, удовлетворяющие этому условию. В нашем примере таких объектов получается четыре — арматура, свинец, палладий и латунь. Затем система составляет все сочетания этих четырех объектов — пары, тройки и т. д. Количество этих сочетаний равно n! (где n=4). Для каждого сочетания товаров будут проверены все заказчики и вычислены ассоциативные правила.
Полученные в результате расчета ассоциативные правила отображаются в виде строк таблицы. В каждой строке в столбце «Состав» указывается объект, который анализируется на ассоциации («объект-условие»), а затем через стрелку
справа от него указывается связанный с ним объект («объект-следствие»). Если объектов-следствий или объектов-условий несколько, они указываются через запятую. На рисунке выше мы видим следующие правила:- Если заказчик покупает свинец, то в 85,71% случаев он покупает и арматуру.
- Если заказчик покупает латунь, то в 100% случаев он покупает и свинец.
- Если заказчик покупает свинец, то в 71,43% случаев он покупает и латунь.
- Если заказчик покупает латунь и свинец, то в 80% случаев он покупает и арматуру и т. д.
Справа от столбца «Состав» в таблице есть три столбца со значениями поддержки, достоверности и лифта.
Поддержка для правила выражает то же, что и популярность для объекта, то есть процент элементов левой размерности, связанных со всеми объектами правила. Значения поддержки для рассчитанных правил не могут быть меньше заданного значения популярности. Так, на рисунке выше столбец «Поддержка, %» показывает, какой процент заказчиков приобретает товары, соответствующие объектам правила.
Достоверность выражает отношение количества случаев одновременного присутствия объекта-условия и объекта-следствия к количеству случаев присутствия объекта-условия. На рисунке выше значение столбца «Достоверность, %» для правила в третьей строке показывает отношение поддержки этого правила («свинец
арматура») к поддержке объекта «свинец».Лифт показывает отношение поддержки всего правила к произведению поддержки объекта-условия и поддержки объекта-следствия. Например, значение столбца «Лифт» для правила в третьей строке на рисунке показывает отношение поддержки этого правила («свинец
арматура») к произведению поддержки объекта «свинец» и поддержки объекта «арматура». Если значение в столбце «Лифт» больше единицы, такое правило считается значимым.Для строк, содержащих всего один объект, рассчитывается только поддержка, а в столбцах «Достоверность, %» и «Лифт» указываются нулевые значения.