Корреляционная матрица для факторного анализа. Подготовка данных

💖 Нравится? Поделись с друзьями ссылкой

Познакомившись с понятиями факторной нагрузки и области совместных изменений, можно пойти дальше, снова привлекая для изложения аппарат матриц, элементами которых на этот раз будут коэффициенты корреляции.

Матрица коэффициентов корреляции, полученных, как правило, экспериментальным путем, называется матрицей корреляции, или корреляционной матрицей.

Элементы этой матрицы являются коэффициентами корреляции между всеми переменными данной совокупности.

Если мы имеем, например, набор, состоящий из тестов, то число коэффициентов корреляции, полученных экспериментальным путем, составит

Эти коэффициенты заполняют половину матрицы, находящуюся по одну сторону ее главной диагонали. По другую сторону находятся, очевидно, те же коэффициенты, так как и т. д. Поэтому корреляционная матрица симметрична.

Схема 3.2. Полная матрица корреляции

На диагонали этой матрицы находятся единицы, поскольку корреляция каждой переменной с самой собой равна +1.

Матрица корреляции, у которой элементы главной диагонали равны 1, называется «полной матрицей» корреляции (схема 3.2) и обозначается

Необходимо отметить, что, помещая на главной диагонали единицы, или корреляции каждой переменной с самой собой, мы учитываем полную дисперсию каждой переменной, представленной в матрице. Тем самым принимается во внимание влияние не только общих, но и специфичных факторов.

Наоборот, если на главной диагонали корреляционной матрицы находятся элементы соответствующие общностям и относящиеся лишь к общей дисперсии переменных, то учитывается влияние только общих факторов, элиминируется влияние специфичных факторов и ошибок, т. е. отбрасываются специфичность и дисперсия ошибок.

Матрица корреляции, в которой элементы главной диагонали соответствуют общностям, называется редуцированной и обозначается R (схема 3.3).

Схема 3.3. Редуцированная матрица корреляции

Выше уже говорилось о факторной нагрузке, или наполнении данной переменной конкретным фактором. При этом подчеркивалось, что факторная нагрузка имеет вид коэффициента корреляции между данной переменной и данным фактором.

Матрица, столбцы которой состоят из нагрузок данного фактора применительно ко всем переменным данной совокупности, а строки - из факторных нагрузок данной переменной, называется матрицей факторов, или факторной матрицей. Здесь также можно говорить о полной и редуцированной факторной матрице. Элементы полной факторной матрицы соответствуют полной единичной дисперсии каждой переменной из данной совокупности. Если нагрузки на общие факторы обозначить через с, а нагрузки специфичных факторов - через и, то полную факторную матрицу можно представить в следующем виде:

Схема 3.4. Полная факторная матрица для четырех переменных

Показанная здесь факторная матрица состоит из двух частей Первая часть содержит элементы, относящиеся к четырем переменным и трем общим факторам, причем предполагается, что все они относятся ко всем переменным. Это не есть необходимое условие, так как некоторые элементы первой части матрицы могут быть равными нулю, а это значит, что некоторые факторы относятся не ко всем переменным. Элементы первой части матрицы - это нагрузки общих факторов (например, элемент показывает нагрузку второго общего фактора при первой переменной).

Во второй части матрицы мы видим 4 нагрузки характерных факторов, по одной в каждой строке, что соответствует их характерности. Каждый из этих факторов относится лишь к одной переменной. Все другие элементы этой части матрицы равны нулю. Характерные факторы можно, очевидно, разбить на специфичные и обусловленные ошибками.

Столбец факторной матрицы характеризует фактор и его влияние на все переменные. Строка характеризует переменную и, ее наполненность различными факторами, иначе говоря, факторную структуру переменной.

При анализе только первой части матрицы мы имеем дело с факторной матрицей, показывающей общую дисперсию каждой переменной. Эта часть матрицы называется редуцированной и обозначается F. Эта матрица не учитывает нагрузки характерных факторов и не принимает во внимание специфичной дисперсии. Напомним, что в соответствии со сказанным выше об общих дисперсиях и факторных нагрузках, представляющих собой квадратные корни из общих дисперсий, сумма квадратов элементов каждой строки редуцированной факторной матрицы F равна общности данной переменной

Соответственно сумма квадратов всех элементов строки полной матрицы факторов равна , или полной дисперсии данной переменной.

Так как в факторном анализе основное внимание уделяется общим факторам, то мы в дальнейшем будем использовать главным образом редуцированную корреляционную и редуцированную факторную матрицу.


Если проводить факторный анализ как полагается, а не удовлтеоряться установками по умолчанию ("маленьким джиффи", как с насмешкой обозвали стандартный джентльменский набор методологи), предпочитаемым методом извлечения факторов является или метод максимального правдоподобия, или обобщенный метод наименьших квадратов. Вот тут-то нас может ожидать неприятность: процедура выдает сообщение об ошибке: correlation matrix is not positive definite. Что это означает, отчего случается и как бороться с проблемой?
Дело в том, что в процессе факторизации процедура выполняет поиск так называемой обратной матрицы по отношению к корреляционной. Здесь существует аналогия с привычными действительными числами: умножив число на обратное к нему число, мы должны получить единицу (например, 4 и 0.25). Однако для некоторых чисел обратных к ним не существует -- ноль невозможно умножить на что-то, что даст в итоге единицу. С матрицами та же история. Матрица, умноженная на обратную к ней матрицу, дает единичную матрицу (единицы стоят по диагонали, а все другие значения нулевые). Однако для некоторых матриц не существует обратных, а значит, провести для таких случаев факторный анализ становится невозможным. Выяснить данный факт можно при помощи особого числа, называющегося определителем (детерминантом). Если оно для матрицы стремится к нулю или отрицательное, то мы столкнулись с проблемой.
Каковы же причины этой ситуации? Чаще всего она возникает вследствие существования линейной зависимости между переменными. Звучит странно, поскольку именно такие зависимости мы ведь и ищем, используя многомерные методы. Однако, в случае, когда такие зависимости перестают быть вероятностными, становятся жестко детерминированными, алгоритмы многомерного анализа дают сбой. Рассмотрим следующий пример. Пусть у нас имеется такой набор данных:
data list free / V1 to V3. begin data. 1 2 3 2 1 2 3 5 4 4 4 5 5 3 1 end data. compute V4 = V1 + V2 + V3.
Последняя переменная представляет собой точную сумму первых трех. Когда возникает подобная ситуация в реальном исследовании? Когда мы включаем в набор переменных сырые баллы по субтестам и тесту в целом; когда количество переменных намного больше числа испытуемых (особенно если переменные сильно коррелируют или имеют ограниченный набор значений). В этом случае точные линейные зависимости могут возникать случайно. Часто зависимости являются артефактом процедуры измерения -- например, если подсчитываются проценты внутри наблюдений (скажем, процент высказываний определенного типа), используется метод ранжирования или распределения постоянной суммы, вводятся каие-то гораничения на выбор альтернатив и т.п. Как видим, вполне распространенные ситуации.
Если при проведении факторного анализа в SPSS вышеприведенного массива заказать вывод детерминанта и обратной корреляционной матрицы, то пакет сообщит о проблеме.
Как выявить группу переменных, которые создают мультиколлинеарность? Оказывается, старый добрый метод главных компонент, невзирая на линейную зависимость, продолжает работать и что-то выдает на-гора. Если увидите, что общности какой-то из переменных приближаются к 0.90-0.99, а собственные числа некоторых факторов становятся очень маленькими (или даже отрицательными), это нехороший знак. Закажите вдобавок вращение варимакс и посмотрите, какая группа переменных попала вместе с подозреваемой в преступной связи товаркой. Обычно и нагрузка ее на это фактор является необычно большой (0.99, к примеру). Если этот набор переменных небольшой, содержательно разнородный, исключена возможность артефактной линейной зависимости и выборка достаточно большая, то обнаружение такой связи можно считатьб не менее ценным результатом. Можно такую группу покрутить в регрессионном анализе: ту переменную, которая показала наибольшую нагрузку, сделать зависимой, а все остальные попробовать в качестве предикторов. R, т.е. коэффициент множественной корреляции, должен в этом случае быть равным 1. Если линейная связь очень запущенная, то регрессия молча выбросит еще какие-то из предикторов, смотрите внимательно, чего не хватает. Заказав дополнительно вывод диагностики мультиколлинеарности, можно в конце концов нащупать злополучный набор, образующий точную линейную зависимость.
Ну и, наконец, еще нресколько более мелких причин того, что корреляционная матрица не является положительно определенной. Это, во-первых, присутствие большого количества неответов. Иногда, чтобы использовать максимум имеющейся информации, исследователь заказывает обработку пропусков попарным способом. В итоге может получиться настолько "нелогичная" матрица связи, что модели факторного анализа она окажется не по зубам. Во-вторых, если вы решили факторизовать корреляционную матрицу, приведенную в литературе, вы можете столкнуться с негативным влиянием округления чисел.

Дисперсионный анализ факторов

Факторная матрица

Переменная Фактор А Фактор Б

Как видно из матрицы, факторные нагрузки (или веса) А и Б для различных потребительских требований значительно отличаются. Факторная нагрузка А для требования Т 1 соответствует тесноте связи, характеризующейся коэффициентом корреляции, равным 0,83, т.е. хорошая (тесная) зависимость. Факторная нагрузка Б для того же требования дает r k = 0,3, что соответствует слабой тесноте связи. Как и предполагалось, фактор Б очень хоро­шо коррелируется с потребительскими требованиями Т 2 , Т 4 и Т 6 .

Учитывая, что факторные нагрузки как А, так и Б влияют на не относящиеся в их группу потребительские требования с теснотой связи не более 0,4 (т.е. слабо), можно считать, что представленная выше матрица интеркорреляций определяется двумя независимыми факторами, которые в свою очередь определяют шесть потребительских требований (за исключением Т 7).

Переменную Т 7 можно было выделить в самостоятельный фактор, так как ни с одним потребительским требованием она не имеет значимой корреляционной нагрузки (более 0,4). Но, на наш взгляд, этого не следует делать, так как фактор «дверь не должна ржаветь» не имеет непосредственного отношения к потребительским требованиям по конструкции двери.

Таким образом, при утверждении технического задания на проектирование конструкции дверей автомобиля именно названия полученных факторов будут вписаны как потребительские требования, по которым необходимо найти конструктивное решение в виде инженерных характеристик.

Укажем на одно принципиально важное свойство коэффициента корреляции между переменными: возведенный в квадрат, он показывает, какая часть дисперсии (разброса) признака является общей для двух переменных, насколько сильно эти переменные перекрываются. Так, например, если две переменные Т 1 и Т 3 с корреляцией 0,8 перекрываются со степенью 0,64 (0,8 2), то это означает, что 64% дисперсий той и другой переменной являются общими, т.е. совпадают. Можно также сказать, что общность этих переменных равна 64%.

Напомним, что факторные нагрузки в факторной матрице являются тоже коэффициентами корреляции, но между факторами и переменными (потребительскими требованиями).

Переменная Фактор А Фактор Б

Поэтому возведенная в квадрат факторная нагрузка (дисперсия) характеризует степень общности (или перекрытия) данной переменной и данного фактора. Определим степень перекрытия (дисперсию D) обоих факторов с переменной (потребительским требованием) Т 1 . Для этого необходимо вычислить сумму квадратов весов факторов с первой переменной, т.е. 0,83 х 0,83 + 0,3 х 0,3 = 0,70. Таким образом, общность переменной Т 1 с обоими факторами составляет 70%. Это достаточно значимое перекрытие.


В то же время низкая общность может свидетельствовать о том, что переменная измеряет или отражает нечто, качественно отличающеёся от других переменных, включенных в анализ. Это подразумевает, что данная переменная не совмещается с факторами по одной из причин: либо она измеряет другое понятие (как, например, переменная Т 7), либо имеет большую ошибку измерения, либо существуют искажающие дисперсию признаки.

Следует отметить, что значимость каждого фактора также определяется величиной дисперсии между переменными и факторной нагрузкой (весом). Для того чтобы вычислить собственное значение фактора, нужно найти в каждом столбце факторной матрицы сумму квадратов факторной нагрузки для каждой переменной. Таким образом, например, дисперсия фактора А (D А) составит 2,42 (0,83 х 0,83 + 0,3 х 0,3 + 0,83 х 0,83 + 0,4 х 0,4 + 0,8 х 0,8 + 0,35 х 0,35). Расчет значимости фактора Б показал, что D Б = 2,64, т.е. значимость фактора Б выше, чем фактора А.

Если собственное значение фактора разделить на число переменных (в нашем примере их семь), то полученная величина покажет, какую долю дисперсии (или объем информации) γ в исходной корреляционной матрице составит этот фактор. Для фактора А γ ~ 0,34 (34%), а для фактора Б - γ = 0,38 (38%). Просуммировав результаты, получим 72%. Таким образом, два фактора, будучи объединены, заполняют только 72% дисперсии показателей исходной матрицы. Это означает, что в результате факторизации часть информации в исходной матрице была принесена в жертву построения двухфакторной модели. В результате упущено 28% информации, которая могла бы восстановиться, если бы была принята шестифакторная модель.

Где же допущена ошибка, учитывая, что все рассмотренные пере­менные, имеющие отношение к требованиям по конструкции двери, учтены? Наиболее вероятно, что значения коэффициентов корреляции переменных, относящихся к одному фактору, несколько занижены. С учетом проведенного анализа можно было бы вернуться к формированию иных значений коэффициентов корреляции в матрице интеркорреляций (см. табл. 2.2).

На практике часто сталкиваются с такой ситуацией, при которой число независимых факторов достаточно велико, чтобы их все учесть в решении проблемы или с технической или экономической точки зрения. Существует ряд способов по ограничению числа факторов. Наиболее известный из них - анализ Парето. При этом отбираются те факторы (по мере уменьшения значимости), которые попадают в 80-85%-ную границу их суммарной значимости.

Факторный анализ можно использовать при реализации метода структурирования функции качества (QFD), широко применяемого за рубежом при формировании технического задания на новое изделие.

Национальный исследовательский ядерный университет «МИФИ»
Факультет бизнес-информатики и управления
комплексными системами
Кафедра экономики и менеджмента
в промышленности (№ 71)
Математические и инструментальные методы обработки
статистической информации
Киреев В.С.,
к.т.н., доцент
Email:
Москва, 2017
1

Нормализация

Десятичное масштабирование
Минимаксная нормализация
Нормализация с помощью стандартного преобразования
Нормализация с помощью поэлементных преобразований
2

Десятичное масштабирование

Vi
"
Vi k , max (Vi) 1
10
"
3

Минимаксная нормализация

Vi
Vi min (Vi)
"
i
max (Vi) min (Vi)
i
i
4

Нормализация с помощью стандартного отклонения

Vi
"
V
V
Vi V
V
- выборочное
среднее
- выборочное среднее квадратическое
отклонение
5

Нормализация с помощью поэлементных преобразований

Vi f Vi
"
Vi 1
"
log Vi
, Vi log Vi
"
Vi exp Vi
"
Vi Vi , Vi 1 y
Vi
"
y
"
6

Факторный анализ

(ФА) представляет собой совокупность методов, которые на
основе реально существующих связей анализируемых признаков, связей самих
наблюдаемых объектов, позволяют выявлять скрытые (неявные, латентные)
обобщающие характеристики организационной структуры и механизма развития
изучаемых явлений, процессов.
Методы факторного анализа в исследовательской практике применяются главным
образом с целью сжатия информации, получения небольшого числа обобщающих
признаков, объясняющих вариативность (дисперсию) элементарных признаков (Rтехника факторного анализа) или вариативность наблюдаемых объектов (Q-техника
факторного анализа).
Алгоритмы факторного анализа основываются на использовании редуцированной
матрицы парных корреляций (ковариаций). Редуцированная матрица – это матрица, на
главной диагонали которой расположены не единицы (оценки) полной корреляции или
оценки полной дисперсии, а их редуцированные, несколько уменьшенные величины. При
этом постулируется, что в результате анализа будет объяснена не вся дисперсия
изучаемых признаков (объектов), а ее некоторая часть, обычно большая. Оставшаяся
необъясненная часть дисперсии - это характерность, возникающая из-за специфичности
наблюдаемых объектов, или ошибок, допускаемых при регистрации явлений, процессов,
т.е. ненадежности вводных данных.
7

Классификация методов ФА

8

Метод главных компонент

(МГК) применяется для снижения размерности
пространства наблюдаемых векторов, не приводя к существенной потере
информативности. Предпосылкой МГК является нормальный закон распределения
многомерных векторов. В МГК линейные комбинации случайных величин определяются
характеристическими
векторами
ковариационной
матрицы.
Главные
компоненты представляют собой ортогональную систему координат, в которой дисперсии
компонент характеризуют их статистические свойства. МГК не относят к ФА, хотя он имеет
схожий алгоритм и решает схожие аналитические задачи. Его главное отличие
заключается в том, что обработке подлежит не редуцированная, а обычная матрица
парных корреляций, ковариаций, на главной диагонали которой расположены единицы.
Пусть дан исходный набор векторов X линейного пространства Lk. Применение
метода главных компонент позволяет перейти к базису пространства Lm (m≤k), такому
что: первая компонента (первый вектор базиса) соответствует направлению, вдоль
которого дисперсия векторов исходного набора максимальна. Направление второй
компоненты (второго вектора базиса) выбрано таким образом, чтобы дисперсия исходных
векторов вдоль него была максимальной при условии ортогональности первому вектору
базиса. Аналогично определяются остальные векторы базиса. В результате, направления
векторов базиса выбраны так, чтобы максимизировать дисперсию исходного набора
вдоль первых компонент, называемых главными компонентами (или главными
осями).Получается, что основная изменчивость векторов исходного набора векторов
представлена несколькими первыми компонентами, и появляется возможность, отбросив
менее существенные компоненты, перейти к пространству меньшей размерности.
9

10. Метод главных компонент. Схема

10

11. Метод главных компонент. Матрица счетов

Матрица счетов T дает нам проекции исходных образцов (J –мерных
векторов
x1,…,xI)
на
подпространство
главных
компонент
(A-мерное).
Строки t1,…,tI матрицы T – это координаты образцов в новой системе координат.
Столбцы t1,…,tA матрицы T – ортогональны и представляют проекции всех образцов на
одну новую координатную ось.
При исследовании данных методом PCA, особое внимание уделяется графикам
счетов. Они несут в себе информацию, полезную для понимания того, как устроены
данные. На графике счетов каждый образец изображается в координатах (ti, tj), чаще всего
– (t1, t2), обозначаемых PC1 и PC2. Близость двух точек означает их схожесть, т.е.
положительную корреляцию. Точки, расположенные под прямым углом, являются
некоррелироваными, а расположенные диаметрально противоположно – имеют
отрицательную корреляцию.
11

12. Метод главных компонент. Матрица нагрузок

Матрица нагрузок P – это матрица перехода из исходного пространства
переменных x1, …xJ (J-мерного) в пространство главных компонент (A-мерное). Каждая
строка матрицы P состоит из коэффициентов, связывающих переменные t и x.
Например, a-я строка – это проекция всех переменных x1, …xJ на a-ю ось главных
компонент. Каждый столбец P – это проекция соответствующей переменной xj на новую
систему координат.
График нагрузок применяется для исследования роли переменных. На этом
графике каждая переменная xj отображается точкой в координатах (pi, pj), например
(p1, p2). Анализируя его аналогично графику счетов, можно понять, какие переменные
связаны, а какие независимы. Совместное исследование парных графиков счетов и
нагрузок, также может дать много полезной информации о данных.
12

13. Особенности метода главных компонент

В основе метода главных компонент лежат следующие допущения:
допущение о том, что размерность данных может быть эффективно понижена
путем линейного преобразования;
допущение о том, что больше всего информации несут те направления, в которых
дисперсия входных данных максимальна.
Можно легко видеть, что эти условия далеко не всегда выполняются. Например,
если точки входного множества располагаются на поверхности гиперсферы, то никакое
линейное преобразование не сможет понизить размерность (но с этим легко справится
нелинейное преобразование, опирающееся на расстояние от точки до центра сферы).
Это недостаток в равной мере свойственен всем линейным алгоритмам и может быть
преодолен за счет использования дополнительных фиктивных переменных, являющихся
нелинейными функциями от элементов набора входных данных (т.н. kernel trick).
Второй недостаток метода главных компонент состоит в том, что направления,
максимизирующие дисперсию, далеко не всегда максимизируют информативность.
Например, переменная с максимальной дисперсией может не нести почти никакой
информации, в то время как переменная с минимальной дисперсией позволяет
полностью разделить классы. Метод главных компонент в данном случае отдаст
предпочтение первой (менее информативной) переменной. Вся дополнительная
информация, связанная с вектором (например, принадлежность образа к одному из
классов), игнорируется.
13

14. Пример данных для МГК

К. Эсбенсен. Анализ многомерных данных, сокр. пер. с англ. под
ред. О. Родионовой, Из-во ИПХФ РАН, 2005
14

15. Пример данных для МГК. Обозначения

Height
Рост: в сантиметрах
Weight
Вес: в килограммах
Hair
Волосы: короткие: –1, или длинные:
+1
Shoes
Обувь: размер по европейскому
стандарту
Age
Возраст: в годах
Income
Доход: в тысячах евро в год
Beer
Пиво: потребление в литрах в год
Wine
Вино: потребление в литрах в год
Sex
Пол: мужской: –1, или женский: +1
Strength
Сила: индекс, основанный на
проверке физических способностей
Region
Регион: север: –1, или юг: +1
IQ
Коэффициент интеллекта,
измеряемый по стандартному тесту
15

16. Матрица счетов

16

17. Матрица нагрузок

17

18. Объекты выборки в пространстве новых компонент

Женщины (F) обозначены кружками ● и ●, а
мужчины (M) – квадратами ■ и ■. Север (N)
представлен голубым ■, а юг (S) – красным
цветом ●.
Размер и цвет символов отражает доход – чем
больше и светлее, тем он больше. Числа
представляют возраст
18

19. Исходные переменные в пространстве новых компонент

19

20. График «каменистой осыпи» (scree plot)

20

21. Метод главных факторов

В парадигме метода главных факторов задача снижения размерности признакового
пространства выглядит так, что n признаков можно объяснить с помощью меньшего
количества m-латентных признаков - общих факторов, где m< исходными признаками и введёнными общими факторами (линейными комбинациями)
учитывают с помощью так называемых характерных факторов.
Конечная цель статистического исследования, проводимого с привлечением
аппарата факторного анализа, как правило, состоит в выявлении и интерпретации
латентных общих факторов с одновременным стремлением минимизировать как их
число, так и степень зависимости от своих специфических остаточных случайных
компонент.
Каждый признак
является результатом
воздействия m гипотетических общих и
одного характерного факторов:
X 1 a11 f1 a12 f 2 a1m f m d1V1
X a f a f a f d V
2
21 1
22 2
2m m
2
X n a n1 f1 a n 2 f 2 a nm f m d nVn
21

22. Вращение факторов

Вращение - это способ превращения факторов, полученных на предыдущем этапе,
в более осмысленные. Вращение делится на:
графическое (проведение осей, не применяется при более чем двухмерном
анализе),
аналитическое (выбирается некий критерий вращения, различают ортогональное и
косоугольное) и
матрично-приближенное (вращение состоит в приближении к некой заданной
целевой матрице).
Результатом вращения является вторичная структура факторов. Первичная
факторная структура (состоящая из первичных нагрузок (полученных на предыдущем
этапе) - это, фактически, проекции точек на ортогональные оси координат. Очевидно, что
если проекции будут нулевыми, то структура будет проще. А проекции будут нулевыми,
если точка лежит на какой-то оси. Таким образом, можно считать вращение переходом от
одной системы координат к другой при известных координатах в одной системе(
первичные факторы) и итеративно подбираемых координатах в другой системе
(вторичные факторы). При получении вторичной структуры стремятся перейти к такой
системе координат, чтобы провести через точки (объекты) как можно больше осей, чтобы
как можно больше проекции (и соответственно нагрузок) были нулевыми. При этом могут
сниматься ограничения ортогональности и убывания значимости от первого к последнему
факторам, характерные для первичной структуры.
22

23. Ортогональное вращение

подразумевает, что мы будем вращать факторы, но не
будем нарушать их ортогональности друг другу. Ортогональное вращение
подразумевает умножение исходной матрицы первичных нагрузок на ортогональную
матрицу R(такую матрицу, что
V=BR
Алгоритм ортогонального вращения в общем случае таков:
0. B - матрица первичных факторов.
1.
Ищем
ортогональную
матрицу
RT
размера
2*2
для
двух
столбцов(факторов) bi и bj матрицы B такую, что критерий для матрицы
R максимален.
2.
Заменяем столбцы bi и bj на столбцы
3.
Проверяем, все ли столбцы перебрали. Если нет, то переход на 1.
4.
Проверяем, что критерий для всей матрицы вырос. Если да, то переход на 1. Если
нет, то конец алгоритма.
.
23

24. Варимаксное вращение

Этот критерий использует формализацию
дисперсию квадратов нагрузок переменной:
сложности
фактора
через
Тогда критерий в общем виде можно записать как:
При этом, факторные нагрузки могут нормироваться для избавления от
влияния отдельных переменных.
24

25. Квартимаксное вращение

Формализуем понятие факторной сложности q i-ой переменной через
дисперсию квадратов факторных нагрузок факторов:
где r - число столбцов факторной матрицы, bij - факторная нагрузка j-го
фактора на i-ю переменную, - среднее значение. Критерий квартимакс старается
максимизировать сложность всей совокупности переменных, чтобы достичь
легкости интерпретации факторов (стремится облегчить описание столбцов):
Учитывая, что
- константа (сумма собственных чисел матрицы
ковариации) и раскрыв среднее значение (а также учтя, что степенная функция
растет пропорционально аргументу), получим окончательный вид критерия для
максимизации:
25

26. Критерии определения числа факторов

Главной проблемой факторного анализа является выделение и интерпретация
главных факторов. При отборе компонент исследователь обычно сталкивается с
существенными трудностями, так как не существует однозначного критерия выделения
факторов, и потому здесь неизбежен субъективизм интерпретаций результатов.
Существует несколько часто употребляемых критериев определения числа факторов.
Некоторые из них являются альтернативными по отношению к другим, а часть этих
критериев можно использовать вместе, чтобы один дополнял другой:
Критерий Кайзера или критерий собственных чисел. Этот критерий предложен
Кайзером, и является, вероятно, наиболее широко используемым. Отбираются только
факторы с собственными значениями равными или большими 1. Это означает, что если
фактор не выделяет дисперсию, эквивалентную, по крайней мере, дисперсии одной
переменной, то он опускается.
Критерий каменистой осыпи (англ. scree) или критерий отсеивания. Он является
графическим методом, впервые предложенным психологом Кэттелом. Собственные
значения возможно изобразить в виде простого графика. Кэттел предложил найти такое
место на графике, где убывание собственных значений слева направо максимально
замедляется. Предполагается, что справа от этой точки находится только
«факториальная осыпь» - «осыпь» является геологическим термином, обозначающим
обломки горных пород, скапливающиеся в нижней части скалистого склона.
26

27. Критерии определения числа факторов. Продолжение

Критерий значимости. Он особенно эффективен, когда модель генеральной
совокупности известна и отсутствуют второстепенные факторы. Но критерий непригоден
для поиска изменений в модели и реализуем только в факторном анализе по методу
наименьших квадратов или максимального правдоподобия.
Критерий доли воспроизводимой дисперсии. Факторы ранжируются по доле
детерминируемой дисперсии, когда процент дисперсии оказывается несущественным,
выделение следует остановить. Желательно, чтобы выделенные факторы объясняли
более 80 % разброса. Недостатки критерия: во-первых, субъективность выделения, вовторых, специфика данных может быть такова, что все главные факторы не смогут
совокупно объяснить желательного процента разброса. Поэтому главные факторы
должны вместе объяснять не меньше 50,1 % дисперсии.
Критерий интерпретируемости и инвариантности. Данный критерий сочетает
статистическую точность с субъективными интересами. Согласно ему, главные факторы
можно выделять до тех пор, пока будет возможна их ясная интерпретация. Она, в свою
очередь, зависит от величины факторных нагрузок, то есть если в факторе есть хотя бы
одна сильная нагрузка, он может быть интерпретирован. Возможен и обратный вариант -
если сильные нагрузки имеются, однако интерпретация затруднительна, от этой
компоненты предпочтительно отказаться.
27

28. Пример использования МГК

Пусть
имеются
следующие
показатели
экономической
деятельности
предприятия: трудоемкость (x1), удельный вес покупных изделий в продукции (x2),
коэффициент сменности оборудования (x3), удельный вес рабочих в составе предприятия
(x4), премии и вознаграждения на одного работника (x5), рентабельность (y). Линейная
регрессионная модель имеет вид:
y = b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4 + b5*x5
x1
x2
x3
x4
x5
y
0,51
0,2
1,47
0,72
0,67
9,8
0,36
0,64
1,27
0,7
0,98
13,2
0,23
0,42
1,51
0,66
1,16
17,3
0,26
0,27
1,46
0,69
0,54
7,1
0,27
0,37
1,27
0,71
1,23
11,5
0,29
0,38
1,43
0,73
0,78
12,1
0,01
0,35
1,5
0,65
1,16
15,2
0,02
0,42
1,35
0,82
2,44
31,3
0,18
0,32
1,41
0,8
1,06
11,6
0,25
0,33
1,47
0,83
2,13
30,1
28

29. Пример использования МГК

Построение регрессионной модели в статистическом пакете показывает,
коэффициент X4 не значим (p-Value > α = 5%) , и его можно исключить из модели.
что
После исключения X4 снова запускается процесс построения модели.
29

30. Пример использования МГК

Критерий Кайзера для МГК показывает, что можно оставить 2 компоненты, объясняющие
около 80% исходной дисперсии.
Для выделенных компонент можно построить уравнения в исходной системе координат:
U1 = 0,41*x1 - 0,57*x2 + 0,49*x3 - 0,52*x5
U2 = 0,61*x1 + 0,38*x2 - 0,53*x3 - 0,44*x5
30

31. Пример использования МГК

Теперь можно построить в новых компонентах новую регрессионную модель:
y = 15,92 - 3,74*U1 - 3,87*U2
31

32. Метод сингулярного разложения (SVD)

Beltrami и Jordan считаются основателями теории сингулярного
разложения. Beltrami – за то, что он первым опубликовал работу о
сингулярном разложении, а Jordan – за элегантность и полноту своей
работы. Работа Beltrami появилась в журнале “Journal of Mathematics for
the Use of the Students of the Italian Universities” в 1873 году, основная
цель которой заключалась в том, чтобы ознакомить студентов с
билинейными формами.Суть метода в разложении матрицы A размера n
x m с рангом d = rank (M) <= min(n,m) в произведение матриц меньшего
ранга:
A =UDVT,
где матрицы U размера n x d и V размера m x d состоят из
ортонормальных столбцов, являющихся собственными векторами при
ненулевых собственных значениях матриц AAT и ATA соответственно и
UTU = V TV = I , а D размера d x d - диагональная матрица с
положительными диагональными элементами, отсортированными в
порядке убывания. Столбцы матрицы U представляют собой,
ортонормальный базис пространства столбцов матрицы A, а столбцы
матрицы V – ортонормальный базис пространства строк матрицы A.
32

33. Метод сингулярного разложения (SVD)

Важным свойством SVD-разложения является тот факт, что если
для k только из k наибольших диагональных элементов, а также
оставить в матрицах U и V только k первых столбцов, то матрица
Ak=UkDkVkT
будет являться лучшей аппроксимацией матрицы A относительно
нормы Фробениуса среди всех матриц с рангом k.
Это усечение во-первых уменьшает размерность векторного
пространства, снижает требования хранения и вычислительные
требования к модели.
Во-вторых, отбрасывая малые сингулярные числа, малые
искажения в результате шума в данных удаляются, оставляя
только самые сильные эффекты и тенденции в этой модели.

В общем случае для объяснения корреляционной матрицы потребуется не один, а несколько факторов. Каждый фактор характеризуется столбцом, каждая переменная - строкойматрицы . Фактор называется генеральным, если все его нагрузки значительно отличаются от нуля и он имеет нагрузки от всех переменных. Генеральный фактор имеет нагрузки от всех переменных и схематически такой фактор изображен на рис.1. столбцом .Фактор называется общим , если хотя бы две его нагрузки значительно отличаются от нуля. Столбцы , на рис. 1. представляют такие общие факторы. Они имеют нагрузки от более чем двух переменных. Если у фактора только одна нагрузка, значительно отличающаяся от нуля, то он называется характерным фактором (см. столбцы на рис. 1. ) Каждый такой фактор представляет только одну переменную. Решающее значение в факторном анализе имеют общие факторы. Если общие факторы установлены, то характерные факторы получаются автоматически. Число высоких нагрузок переменной на общие факторы называется сложностью . Например, переменная на рис.1. имеет сложность 2, а переменная - три.

Рис. 1. Схематическое изображение факторного отображения. Крестик означает высокую факторную нагрузку.

Итак, построим модель

, (4)

где - ненаблюдаемые факторы m < k ,

Наблюдаемые переменные (исходные признаки),

Факторные нагрузки,

Случайная ошибка связанная только с с нулевым средним и дисперсией :

И - некорpелированы,

Некоррелированные случайные величины с нулевым средним и единичной дисперсией .

(5)

Здесь - i -ая общность представляющая собой часть дисперсии , обусловленная факторами, - часть дисперсии , обусловленная ошибкой. В матричной записи факторная модель примет вид:

(6)

где - матрица нагрузок, - вектор факторов, - вектор ошибок.

Корреляции между переменными, выраженные факторами, можно вывести следующим образом:

где - диагональная матрица порядка , содержащая дисперсии ошибок[i]. Основное условие: - диагональная, - неотрицательно определенная матрица. Дополнительным условием единственности решения является диагональность матрицы .

Имеется множество методов решения факторного уравнения. Наиболее ранним методом факторного анализа является метод главных факторов , в котором методика анализа главных компонент используется применительно к редуцированной корреляционной матрице с общностями на главной диагонали. Для оценки общностей обычно пользуются коэффициентом множественной корреляции между соответствующей переменной и совокупностью остальных переменных.

Факторный анализ проводится исходя из характеристического уравнения, как и в анализе главных компонент:

(8)

Решая которое, получают собственные числа λ i и матрицу нормированных (характеристических) векторов V, и затем находят матрицу факторного отображения:

Для получения оценок общностей и факторных нагрузок используется эмпирический итеративный алгоритм, который сходится к истинным оценкам параметров. Сущность алгоритма сводится к следующему: первоначальные оценки факторных нагрузок определяются с помощью метода главных факторов. На основании корреляционной матрицы R формально определяются оценки главных компонент и общих факторов:

(9)

где - соответствующее собственное значение матрицы R;

Исходные данные (вектор-столбцы);

Коэффициенты при общих факторах;

Главные компоненты (вектор-столбцы).

Оценками факторных нагрузок служат величины

Оценки общностей получаются как

На следующей итерации модифицируется матрица R - вместо элементов главной диагонали подставляются оценки общностей, полученные на предыдущей итерации; на основании модифицированной матрицы R с помощью вычислительной схемы компонентного анализа повторяется расчет главных компонент (которые не являются таковыми с точки зрения компонентного анализа), ищутся оценки главных факторов, факторных нагрузок, общностей, специфичностей. Факторный анализ можно считать законченным, когда на двух соседних итерациях оценки общностей меняются слабо.

Примечание. Преобразования матрицы R могут нарушать положительную определенность матрицы R + и, как следствие, некоторые собственные значения R + могут быть отрицательными.

Рассказать друзьям