polina

Статья «Основные задачи интеллектуального анализа данных и области их применения»

Материал опубликован 11 October 2018 в группе

296

1844

Интеллектуальный анализ данных или Data Mining, получил такое название совмещая в себе два определения: поиск ценной информации в базе данных (data) и добыча горной руды (mining). Оба процесса требуют либо фильтрования большого числа сырого материала, либо разумного исследования и поиска разыскиваемых ценностей.
Data Mining зачастую переводится как добыча данных, извлечение сведений, раскопка информации, средства поиска закономерностей, получение знаний, раскопка знаний в базе данных, «промывание» сведений.
Целью интеллектуального анализа данных является обнаружение неявных закономерностей в наборах данных. Данное понятие появилось в 1978 году, а как научное направление начало стремительно совершенствоваться в 90-х годах XX века, что было обусловлено обширным распространением технологий автоматизированного обрабатывания данных и накоплением в компьютерных системах огромных объемов сведений. И не смотря на то, что имеющиеся технологические процессы позволяли быстро отыскать в базе данных необходимую информацию, этого во многих случаях было уже не достаточно. Появилась необходимость поиска связей между отдельными событиями среди больших объемов сведений, для чего потребовалась математическая статистика, теории баз данных, теории искусственного интеллекта и ряда иных сфер.
В процессе выполнения интеллектуального анализа данных ведется изучение большого количества объектов (или вариантов). В основном, его можно представить в виде таблицы, любая строчка которой соответствует одному из вариантов, а в столбиках находятся значения параметров, его определяющих. Зависимая переменная – параметр, его значение рассматриваем как как зависящее от других параметров (независимых переменных). Непосредственно данную взаимозависимость и следует определить, с помощью использования методов интеллектуального анализа данных.
Рассмотрим основные задачи интеллектуального анализа данных.
1. Задача классификации и регрессии.
Классификация и регрессия являются одними из самых важных задач анализа данных. Их объединение не случайно, поскольку в самой постановке задач много общего.
Задача классификации заключается в том, что для каждого варианта определяется группа или вид, которому он принадлежит.Эта задача считается самой простой и одновременно самой решаемой задачей интеллектуального анализа данных.
Суть задачи классификации заключается в том, что бы создать модель, которая применяет прогнозирующие атрибуты в качестве входных характеристик и приобретает роль зависимого атрибута. Процесс классификации состоит в разбиении большого количества объектов на классы согласно конкретному аспекту.
Следует выделить, что для решения задачи необходимо, чтобы множество классов было известно предварительно и было бы конечным и счетным.
Цель регрессии схожа с целью классификации, однако в процессе ее решения производится поиск шаблонов с целью установления числового значения. Другими словами, предсказываемый параметр здесь, как правило, число из непрерывного диапазона.
Задачи классификации и регрессии проявляются почти во всех сферах человеческой деятельности. Например:
В банковском деле классификация, или по-другому систематизация, используется для решения задач скоринга, установления кредитного рейтинга клиентов с целью минимизации рисков при выдаче кредитов или же раскрытия аферы с кредитными карточками.
В розничной торговле классификация может применяться с целью выделения групп потребителей с определенными предпочтениями, что даст возможность наиболее полно удовлетворять потребности и гибко реагировать на его изменения, прогнозировать состояние рынков.
В биомедицине с поддержкой классификации и регрессии возможно диагностировать болезни на основе наблюдаемых симптомов (жар, состав крови, аллергические реакции и другие), прогнозировать итоги лечения [3,4].
В примерах, в основном, упоминалась задача классификации; что касается регрессии, то она используется при решении тех же задач, но в другой постановке. К примеру, возьмем банковскую сферу. При определении кредитного рейтинга все клиенты банка распределяются по трем классам: высокий, средний и низкий. В случае постановки этой задачи как регрессионной,то в качестве выходной переменно выбираем оценку вероятности возврата кредита. Как и вероятность любого события, она будет изменяться от 0 до 1. Высокая вероятность возврата (0,8-1) соответствует высокому кредитному рейтингу, низкая вероятность (0,1-0,3) низкому, промежуточные значения (0,3-0,7) среднему. При обеих постановках задачи сохраняется главная цель – минимизирование рисков при кредитовании.
2. Задача прогнозирования.
Прогнозирование является одной из самых востребованных задач бизнес - аналитики.
Методы прогнозирования разделяют на три большие группы – формализованные, эвристические и комплексные. Рассмотрим каждую из них:
Формализованные методы дают возможность получать в качестве прогнозов количественные показатели, описывающие состояние определенного объекта или процесса. Минусом данного метода является то, что для прогноза они могут применять только исторические данные, находящиеся в пределах эволюционного цикла формирования объекта или процесса. По этой причине такой метод пригоден лишь для оперативных и кратковременных прогнозов.
Эвристические методы базируются на использовании оценок специалистов (экспертов). Специалист (эксперт, группа экспертов) опираясь на свои знания в предметной области и практический опыт и навык, способен прогнозировать качественные перемены в поведении исследуемого объекта или процесса. Данные способы могут быть полезны в тех случаях, когда поведение объектов и процессов, для которых необходимо предоставить прогноз, характеризуется большой степенью неравномерности. Эвристические методы чаще применяются для среднесрочных и перспективных прогнозов.
Комплексное прогнозирование использует комбинацию формализованного подхода с экспертными оценками, что в определенных вариантах дает возможность достичь лучшего итога.
3. Задача кластеризации
Кластеризация – одна из задач DataMining, а кластер – группа похожих объектов. Кластеризация нужна для разбиения совокупности объектов на схожие категории (классы). Если данные выборки представить как точки в признаковом пространстве, то задача кластеризации сводится к определению «сгущений точек».
Цели кластеризации: поиск существующих структур, облегчение анализа, изучение данных, прогнозирование и обнаружение аномалий.
Кластеризация считается схематичной операцией, она не делает никаких статистических выводов, однако предоставляет возможность осуществить разведочный анализ и исследовать «структуру данных».
Кластеризацию применяют, когда отсутствуют априорные данные относительно классов, к которым можно отнести объекты исследуемого набора данных, или когда количество объектов велико, что может существенно затруднять их ручной анализ.
4. Задача определения взаимосвязей или задача ассоциативных правил.
Ассоциативные правила показывают взаимосвязь между наборами предметов, соответствующими условию и следствию. Данная взаимосвязь характеризуется двумя показателями: поддержкой (support)и достоверностью (confidence).
Задачами данного способа являются изучение взаимной связи между событиями, которые совершаются совместно, а так же в определение часто встречающихся наборов объектов среди множества подобных наборов.
5. Анализ последовательностей.
Целью данного анализа является обнаружение закономерностей в последовательностях событий. Такие сведения дают возможность, например, предупредить сбой в работе информационной системы, получив сигнал о наступлении события, часто предшествующего сбою подобного типа. Другой пример использования - анализ последовательности переходов по страницам пользователей web-сайтов.
В данном анализе ищутся часто встречающиеся последовательности. То есть, в какой очередности приобретаются товары или услуги, или через какой промежуток времени после приобретения товара/услуги «А», потребитель наиболее предрасположен купить товар/услугу «Б». Другими словами, это сведения по одному и тому же потребителю, но взятые из разных транзакций.
Методы Data Мining имеет смысл применять только для достаточно больших баз данных. В каждой конкретной области исследований существует свой критерий достаточного размера базы данных.