Лабораторная работа №9 Классификация Кластерный и дискриминантный анализы
|
Лабораторная работа №9 Классификация Кластерный и дискриминантный анализы |
Жученко Ю. М., Ковалев А. А., Игнатенко В. А, |
|
Лабораторная работа №9 Классификация. Кластерный и дискриминантный анализы Краткие сведения из теории
Классификациейназывают разделение рассматриваемой совокупности объектов или явлений на однородные в определенном смысле группы.
Различают классификацию при наличии обучающих выборок(дискриминантный анализ) и классификациюбез обучения. К классификациибез обученияотносят методы автоматическойклассификации (кластерный анализ).
Кластерный анализ
Общий вопрос, задаваемый исследователями во многих областях, состоит в том, как организовать наблюдаемые данные в наглядные структуры.
Простейший пример
Представьте, что у нас есть несколько фруктов:
Как разбить их на группы, объединив похожие плоды? Самый очевидный способ — отделить груши от яблок:
Но, с другой стороны, можно сгруппировать фрукты по цветам:
Но можно сформировать больше групп, основываясь на цвете и на типе фрукта:
А если появится новый, неопознанный фрукт?
В какую группу его отнести? Или выделить под него новую группу?
В научных исследованиях задачи возникают куда более сложные и трудоемкие нежели, чем в выше приведенном примере. При наличии огромных массивов разнородных данных осуществить подобное разделение на группы (классифицировать объекты) – непростая задача.
Кластерным анализомназываются разнообразные формализованные процедуры построения классификаций объектов. Лидирующей в развитии кластерного анализа наукой является биология
Другими словами, задача кластерного анализа состоит в разбиении исходной совокупности объектов на группы схожих, близких между собой объектов. Эти группы называют кластерами.
Предмет кластерного анализа(от англ. «cluster» — гроздь, пучок, группа) был сформулирован в 1939 г. психологом Робертом Трионом. «Классиками» кластерного анализа являются американские систематики Роберт Сокэл и Питер Снит. Одно из важнейших их достижений в этой области — книга «Начала численной таксономии», выпущенная в 1963 году. В соответствии с основной идеей авторов, классификация должна строится не на смешении плохо формализованных суждений о сходстве и родстве объектов, а на результатах формализованной обработки результатов математического вычисления сходства/отличий классифицируемых объектов. Для выполнения этой задачи нужны были соответствующие процедуры, разработкой которых и занялись авторы.
Еще пример, биологи ставят цель разбить животных на различные виды, чтобы содержательно описать различия между ними. В соответствии с современной системой, принятой в биологии, человек принадлежит к приматам, млекопитающим, амниотам, позвоночным и животным. Заметьте, что в этой классификации, чем выше уровень агрегации, тем меньше сходства между членами в соответствующем классе. Человек имеет больше сходства с другими приматами (т.е. с обезьянами), чем с "отдаленными" членами семейства млекопитающих (например, собаками) и т.д.
Кластерный анализ позволяет из множества всех объектов выделить группы объектов, похожих по определенным признакам
Основные этапы кластерного анализа таковы:
Выбор сравнимых друг с другом объектов;
Выбор множества признаков (характеристик), по которому будет проводиться сравнение, и описание объектов по этим признакам;
Вычисление меры сходства между объектами (или меры различия объектов) в соответствии с избранной метрикой;
Группировка объектов в кластеры с помощью той или иной процедуры объединения;
Проверка применимости полученного кластерного решения (проверка построенной модели).