Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладной статистический анализ в горном деле (Многомерная математическая статистика)

..pdf
Скачиваний:
9
Добавлен:
12.11.2023
Размер:
11.62 Mб
Скачать

ших и уменьшению малых значений факторных нагрузок (табл. 5.6, а). В результате для каждого фактора в отдельности формируется простая структура;

квартимакс критерий – факторная сложность переменной, пропорциональна числу факторов, связанных с ней (табл. 5.6, в);

эквимакс – метод вращения, объединяющий методы «варимакс», упрощающий факторы, и «квартимакс», упрощающий переменные (табл. 5.6, г). Минимизируется число переменных с большими факторными нагрузками и число факторов, необходимых для объяснения переменной.

Таблица 5.6

Факторные нагрузки после вращения: а – варимакс; б – биквартимакс; в – квартимакс; г – эквимакс

а

б

 

 

 

 

в

г

Из неортогональных методов вращения популярными являются следующие:

– облимин – метод косоугольного (неортогонального) вращения. Самое косоугольное решение соответствует дельте,

141

равной нулю (по умолчанию). По мере того как дельта отклоняется в отрицательную сторону, факторы становятся более ортогональными;

промакс-вращениекосоугольное вращение в предположении, что факторы могут коррелировать между собой. Оно производится быстрее, чем вращение типа прямой облимин, поэтому оно полезно для больших наборов данных.

При косоугольном вращении сначала идентифицируются кластеры переменных (с факторными нагрузками, близкими к единице, и малыми перекрестными нагрузками) и инициируется вращение оси в этих кластерах.

5.4.3. Дисперсия, коэффициенты корреляции признаков и их составляющие

При выполнении регрессионного анализа мы вычисляли коэффициенты уравнения регрессии. Для нормированных данных эти коэффициенты показывают вес каждого аргумента, воздействующего на результат, количественную оценку воздействия данного аргумента на функцию. При рассмотрении дисперсионного анализа в парном регрессионном анализе [33] отмечалось, что всю сумму квадратов отклонений функции Y возможно разделить на компоненты:

SSy = SSx + SSe,

где SSy – общая сумма квадратов отклонений зависимой переменной Y; SSx – объяснённая влиянием аргумента X сумма квадратов отклонений. Её ещё именуют факторной дисперсией, в этом случае понимая под фактором независимую переменную (аргумент); SSe – необъяснённая сумма квадратов отклонений, или сумма квадратов остатков.

Соотношение этих сумм квадратов существенно влияет на качество уравнения регрессии. Факторный анализ предлагает иной подход к исследованию структуры взаимодействия переменных. Этот подход основан на представлении о комплексном характере изучаемого явления, выражающемся, в частности, во взаимосвязях и взаимообусловленности отдельных переменных.

142

Ранее было озвучено, что основной посыл факторного анализа заключается в том, что корреляционные связи между большим количеством наблюдаемых переменных можно объяснить существованием меньшего числа латентных переменных, или факторов, называемых общими (скрытыми) факторами. В факторном анализе используется одно важное свойство коэффициента корреляции, на основе которого составляются оценки характеристик. Квадрат корреляции (он именуется коэффициентом детерминации) показывает, какая часть дисперсии (вариативности) признака является общей для двух переменных. Например, переменная Z с координатой X имеют корреляцию 0,71, тогда детерминация составляет 0,71 ∙ 0,71 = 0,50. А это значит, 50 % дисперсии одной переменной объясняется вариацией другой переменной.

В факторном анализе имеются некоторые особенности использования дисперсии. Так, полная дисперсия σ2 переменной Хi может быть разбита на три основных компонента:

общая дисперсия – часть полной дисперсии, которая

коррелирует с общими латентными факторами Fi и является общей для ряда переменных;

специфичная дисперсия – часть полной дисперсии, которая присуща только этой переменной (т.е. обусловлена некими

ееиндивидуальными характеристиками);

дисперсия, обусловленная ошибкой, – оставшаяся часть полной дисперсии, которая является случайной, вызванной ошибками в процессе выборки или неточностью инструментов наблюдения.

Общая и специфичная дисперсия в сумме образуют так называемую надежную дисперсию.

Согласно терминологии теории дисперсии, одну из основных задач факторного анализа можно определить как исследование полной дисперсии для определения числа и видов «общих дисперсий», которые обусловливают корреляции в данной совокупности переменных (считается, что общая дисперсия каждой переменной состоит из нескольких некоррелированных частей, соответствующих каждому фактору).

143

Исходные переменные в факторном анализе предварительно нормируются. Тогда их среднее равно нулю, а дисперсия равна единице. Об этом свидетельствуют и первые два столбца табл. 5.1. С учётом этого можно записать

2Xm 1.

Рассмотрим, из чего складывается эта дисперсия. Согласно принятой модели дисперсию признаков можно разложить на три составляющие [48; 78] – дисперсию, обусловленную общими факторами Fk, дисперсию, обусловленную характерными факторами U, и дисперсию, обусловленную погрешностями измерения признаков.

5.4.4. Общность

Нажмём кнопку «Общности» (см. рис. 5.5) и выведем таблицу вкладов каждого фактора в исходную переменную. В таблице общностей (табл. 5.7) по каждой переменной выводятся веса факторов. Например, по переменной НО наибольшие веса имеют 4-й и 5-й факторы. В последнем столбце выводимой таблицы будет напечатан множественный коэффициент детерминации R2. Дополнительно к нему в выведенную таблицу добавлена колонка «характерность», рассчитанная по выражению (1 – R2).

Таблица 5.7

Расчёт значений общности переменных в факторном анализе

Рассмотрим, как был рассчитан коэффициент детерминации R2. Для этого в программе Statistica перейдём к разделу

144

«Множественная регрессия» и зададим вывод уравнения множественной регрессии для нерастворимого остатка вида НО = f(KCl, MgCl2, ..., POWER). Результаты расчётов выведены на рис. 5.12, где имеется нескорректированный коэффициент детерминации R2 = 0,913446. Именно он и печатается в последнем столбце таблицы общностей. Этот коэффициент показывает величину дисперсии (в данном примере зависимой переменной НО), объясняемую уравнением регрессии, в которое входят все переменные, исключая зависимую (рис. 5.12).

Рис. 5.12. Результаты вычисления множественной регрессии

С другой стороны, он показывает вклад каждой переменной в интегрированную степень влияния переменной НО на все основные факторы (см. табл. 5.7). Чем больше эта величина, тем важнее становится исходная переменная и, наоборот, невысокая величина R2 свидетельствует о её незначительном вкладе в результаты факторного анализа. Например, переменная НО имеет высокие нагрузки по каждому фактору за исключением первого, поэтому у неё значительная величина R2. А у переменной POWER только на пятый фактор имеется высокая нагрузка, равная 0,7495, на четвёртый фактор она менее значительна и составляет величину 0,6325, на остальные факторы она крайне мала. Соответственно и детерминация у этой переменной низкая R2 = 0,183. Таким образом, по величине детерминации также можно делать выводы о важности или ненужности исходных переменных для факторного анализа.

145

Следовательно, общность является квадратом множественной корреляции переменной как зависимой и использующей остальные исходные переменные как независимые. Общность (вычисляемая как детерминация) показывает долю дисперсии в данной переменной, объясняемой совместно всеми факторами, и может интерпретироваться как надежность этого индикатора. В целом общности показывают, для каких измерявшихся переменных факторный анализ работает лучше, а для каких – хуже всего.

Низкие значения общности ряда переменных показывают, что они мало связаны друг с другом. Вместе с тем общности должны ещё содействовать интерпретации факторов. Даже низкое значение общности переменной наделяет её смыслом и повышает её значимость, если данный пункт вносит вклад в хорошо определенный фактор. Критической является не столько величина коэффициента общности у входной переменной, сколько целесообразность сочетания её с другими переменными фактора, особенно если эта переменная играет значимую роль в интерпретации данного фактора.

Ранее указывалось, что в факторном анализе предполагается объяснение не всей дисперсии варьирующих элементарных признаков, а только некоторой ее части. В силу этого утверждения полученная матрица факторного отображения представляет только объясненную часть дисперсии – общность. Кроме того, остается необъясненная часть дисперсии, именуемая характер-

ностью ( d 2j ). Именно она и рассчитана в последнем столбце

табл. 5.7. Полное разложение дисперсии в факторном анализе, в зависимости от возможностей применяемых методов, можно представить в виде следующей схемы связей дисперсионных показателей.

Общность – доля дисперсии, объясненная действием общих факторов:

h2j a2j1 a2j 2 a2jm или h2j 1 d 2j .

146

Характерность – доля дисперсии, не объясненной действием общих факторов: d 2j 1 h2j b2j l2j .

Специфичность – доля дисперсии, обусловленной специфичной вариабельностъю анализируемого признака X j :

b2j d 2j l2j .

Ненадежность – доля дисперсии, обусловленной несовершенством измерений (ошибками измерений): l2j 1 h2j b2j .

Надежность – доля дисперсии характерного фактора без измерений ошибки: c2j h2j b2j 1 l2j .

Чаще всего в факторном анализе вычисляются общность и характерность. Если имеется возможность провести анализ погрешностей наблюдений, то появляются варианты вычислений надёжности и специфичности.

Отбор структуры. Не все анализируемые переменные вносят весомый вклад в ФА, да и количество факторов не должно быть большим. Под структурой понимается выбор числа латентных факторов и оптимальное количество наиболее влиятельных исходных переменных. Число выделяемых факторов может быть определено исследователем на основании его собственного усмотрения относительно достаточного уровня объясненной дисперсии. Выбор определяется целями и задачами анализа. Число факторов в таком случае определяется исходя из формы графика каменистой осыпи. Точка же графика, с которой наблюдается плавное убывание значений дисперсии (по виду – «каменистая осыпь»), указывает на действительное число факторов.

Выбор и сокращение переменных для анализа может начинаться с исследования таблицы общностей (см. табл. 5.7). В нашем примере минимальный вклад в факторный анализ несёт мощность пласта POWER, следующие переменные – CaSO4 и координата Y с коэффициентами детерминации – немногим более 0,3. Их можно убрать из анализа. При этом может уменьшиться и число собственных значений. После пересчёта получа-

147

ем таблицу собственных значений (правая часть табл. 5.8) и общностей (табл. 5.10). В ходе анализа задано четыре фактора (левая часть табл. 5.8), но у последнего собственное значение меньше единицы, и программа его отсеяла. Программой выделено всего три основных фактора (и собственных значения) с объясняемой дисперсией 80,2 %.

Таблица 5.8

Пересчёт собственных значений факторов POWER, CaSO4, Y после удаления одной переменной

После оптимизации переменных факторные нагрузки каждой из них стали примерно одинаковыми (левая часть табл. 5.9). Самый низкий вклад имеет координата X и компонент KCL. Причём хлористый калий на первый фактор практически не оказывает влияние, для второго фактора его вес слабый, а на третий фактор воздействует существенно. Низкий вклад имеет и магний хлористый MgCl2, значимым он стал после вращения факторов. Причём, если координата Х имеет величину детерминации, меньшую, чем у хлористого магния, вклад в два первых фактора после вращения у этой переменной выше, чем аналогичный вес компонента NaCl (см. табл. 5.9, 5.10).

Факторные нагрузки, рассчитанные без вращения, не показывают реального вклада хлористого натрия ни в один фактор. После вращения факторов величины нагрузок увеличились (см. табл. 5.9). При этом становится легче интерпретировать факторы. Важность этой операции продиктована тем, что существует не один, а множество вариантов матрицы факторных нагрузок, в равной степени объясняющих связи переменных. Необходимо выбрать такое решение, которое проще интерпретировать содержательно. Таковым считается матрица нагрузок, в которой значения каждой переменной по каждому фактору мак-

148

симизированы или минимизированы (приближены к единице или нулю).

Первый фактор до вращения имел значимую нагрузку от высотной отметки пласта UP_BORDER, нагрузка остальных переменных также существенна, но незначима. Роль переменных для первого фактора меняется после вращения матриц. Значимым становится хлорид магния, координата Х. Выросла нагрузка от высотной отметки. Первый фактор включает переменные в плоскости X и UP_BORDER, поэтому его можно обозначить как вклад геопространства. Значимую нагрузку от хлорида магния в этом факторе объясняет наличие проб в зоне замещения сильвинитового пласта карналлитом. Зона имеет простирание вдоль координатной оси Х.

Таблица 5.9

Пересчёт факторных нагрузок после удаления переменных: слева – до вращения, справа – после вращения

Таблица 5.10

Пересчёт общности значений факторов

149

Второй фактор имеет две значимые переменные – НО и GDA, связанные с вероятностью появления газодинамических явлений. Третий фактор – химические компоненты пласта – хлористый калий и хлористый натрий.

Из табл. 5.7 видно, что большей характерностью обладают химические компоненты, а переменные, отражающие газодинамический фактор, имеют большую общность. Пространственный фактор имеет примерно одинаковую общность и характерность.

Выполнение проверок. Ещё одним способом проверки количества выделенных факторов является вычисление корреляционной матрицы. Она будет близка к исходной, если факторы выделены правильно. Такая матрица именуется воспроизведенной корреляционной матрицей, она может выводиться соответствующей кнопкой в окне в табл. 5.11. Для того чтобы определить, насколько эта матрица отличается от исходной корреляционной матрицы (с которой начинался анализ), можно вычислить разность между ними. Полученная матрица называется матрицей остаточных корреляций. В идеальном случае её значения должны быть близки к нулю. Остаточная матрица может указать на «несогласие» и на то, что рассматриваемые коэффициенты корреляции не могут быть получены с достаточной точностью на основе имеющихся факторов.

Итак, исходная матрица представлена в верхней части табл. 5.11. Воспроизведенная матрица (без учёта значений на главной диагонали) должна снять значительную долю исходных корреляций, только в этом случае можно факторный анализ признать удачным. Напротив, если остались высокие значения в матрице остаточных корреляций, это свидетельствует о низком вкладе соответствующей переменной в ФА.

В выведенной матрице остаточных корреляций максимальное значение составляет 0,27. Эта зависимость MgCl2 от координаты X. Ранее отмечалось, анализируемые пробы отобраны по сильвинитовому пласту, у которого основной полезный компонент KCl, а MgCl2 содержится в незначительной концентрации. Но встречаются участки, где сильвинит замещается карналлитом, где отмечается высокое содержание хлористого маг-

150

Соседние файлы в папке книги