Основные задачи многомерного статистического анализа

Курсовая работа: Многомерный статистический анализ в системе SPSS

Исходная информация в социально-экономических исследованиях представляется чаще всего в виде набора объектов, каждый из которых характеризуется рядом признаков (показателей). Поскольку число таких объектов и признаков может достигать десятков и сотен, и визуальный анализ этих данных малоэффективен, то возникают задачи уменьшения, концентрации исходных данных, выявления структуры и взаимосвязи между ними на основе построения обобщенных характеристик множества признаков и множества объектов. Такие задачи могут решиться методами многомерного статистического анализа.

Многомерный статистический анализ — раздел математической статистики, посвященный математическим методам, направленным на выявление характера и структуры взаимосвязей между компонентами исследуемого многомерного признака и предназначенным для получения научных и практических выводов.

Основное внимание в многомерном статистическом анализе уделяется математическим методам построения оптимальных планов сбора, систематизации и обработки данных, направленным на выявление характера и структуры взаимосвязей между компонентами исследуемого многомерного признака и предназначенным для получения научных и практических выводов.

Исходным массивом многомерных данных для проведения многомерного анализа обычно служат результаты измерения компонент многомерного признака для каждого из объектов исследуемой совокупности, т.е. последовательность многомерных наблюдений. Многомерный признак чаще всего интерпретируется как величина случайная, а последовательность наблюдений как выборка из генеральной совокупности. В этом случае выбор метода обработки исходных статистических данных производится на основе тех или иных допущений относительно природы закона распределения изучаемого многомерного признака.

По содержанию многомерный статистический анализ может быть условно разбит на три основных подраздела:

1. Многомерный статистический анализ многомерных распределений и их основных характеристик охватывает ситуации, когда обрабатываемые наблюдения имеют вероятностную природу, т.е. интерпретируются как выборка из соответствующей генеральной совокупности. К основным задачам этого подраздела относятся: оценивание статистическое исследуемых многомерных распределений и их основных параметров; исследование свойств используемых статистических оценок; исследование распределений вероятностей для ряда статистик, с помощью которых строятся статистические критерии проверки различных гипотез о вероятностной природе анализируемых многомерных данных.

2. Многомерный статистический анализ характера и структуры взаимосвязей компонент исследуемого многомерного признака объединяет понятия и результаты, присущие таким методам и моделям, как регрессионный анализ, дисперсионный анализ, ковариационный анализ, факторный анализ и т.д. Методы, принадлежащие к этой группе, включают как алгоритмы, основанные на предположении о вероятностной природе данных, так и методы, не укладывающиеся в рамки какой-либо вероятностной модели (последние чаще относят к методам анализа данных).

3.Многомерный статистический анализ геометрической структуры исследуемой совокупности многомерных наблюдений объединяет понятия и результаты, свойственные таким моделям и методам, как дискриминантный анализ, кластерный анализ, многомерное шкалирование. Узловым для этих моделей является понятие расстояния, либо меры близости между анализируемыми элементами как точками некоторого пространства. При этом анализироваться могут как объекты (как точки, задаваемые в признаковом пространстве), так и признаки (как точки, задаваемые в объектном пространстве).

Прикладное значение многомерного статистического анализа состоит в основном в решении следующих трех задач:

· задача статистического исследования зависимостей между рассматриваемыми показателями;

· задача классификации элементов (объектов или признаков);

· задача снижения размерности рассматриваемого признакового пространства и отбора наиболее информативных признаков.

Множественный регрессионный анализ предназначен для построения модели, позволяющей по значениям независимых переменных получать оценки значений зависимой переменной.

Логистическая регрессия для решения задачи классификации. Это разновидность множественной регрессии, назначение которой состоит в анализе связи между несколькими независимыми переменными и зависимой переменной.

Факторный анализ занимается определением относительно небольшого числа скрытых (латентных) факторов, изменчивостью которых объясняется изменчивость всех наблюдаемых показателей. Факторный анализ направлен на снижение размерности рассматриваемой задачи.

Кластерный и дискриминантный анализ предназначены для разделения совокупностей объектов на классы, в каждый из которых должны входить объекты в определенном смысле однородные или близкие. При кластерном анализе заранее неизвестно, сколько получится групп объектов и какого они будут объема. Дискриминантный анализ разделяет объекты по уже существующим классам.

Глава 1. Множественный регрессионный анализ

Задание: Исследование рынка жилья в Орле (Советский и Северный районы).

В таблице приведены данные по цене квартир в Орле и по различным факторам, ее обусловливающим:

Источник



МНОГОМЕ́РНЫЙ СТАТИСТИ́ЧЕСКИЙ АНА́ЛИЗ

МНОГОМЕ́РНЫЙ СТАТИСТИ́ЧЕСКИЙ АНА́ЛИЗ, раз­дел ма­те­ма­ти­че­ской ста­ти­сти­ки, по­свя­щён­ный ма­те­ма­тич. ме­то­дам по­строе­ния оп­ти­маль­ных пла­нов сбо­ра, сис­те­ма­ти­за­ции, об­ра­бот­ки и ин­тер­пре­та­ции мно­го­мер­ных ста­ти­стич. дан­ных. Эти ме­то­ды пред­на­зна­че­ны пре­ж­де все­го для вы­яв­ле­ния ха­рак­те­ра и струк­ту­ры взаи­мо­свя­зей ме­ж­ду ком­по­нен­та­ми ис­сле­дуе­мо­го мно­го­мер­но­го при­зна­ка и ис­поль­зу­ют­ся для по­лу­че­ния тео­ре­тич. и прак­тич. вы­во­дов. Под мно­го­мер­ным при­зна­ком по­ни­ма­ет­ся $p$-мер­ный век­тор $x=(x_1,x_2. x_p)$ по­ка­за­те­лей (пе­ре­мен­ных) $x_1,x_2. x_p$, сре­ди ко­то­рых мо­гут быть ко­ли­че­ст­вен­ные, т. е. из­ме­ряю­щие в оп­ре­де­лён­ной шка­ле сте­пень про­яв­ле­ния изу­чае­мо­го свой­ст­ва объ­ек­та; по­ряд­ко­вые (или ор­ди­наль­ные), т. е. по­зво­ляю­щие упо­ря­до­чи­вать ана­ли­зи­руе­мые объ­ек­ты по сте­пе­ни про­яв­ле­ния в них изу­чае­мо­го свой­ст­ва; клас­си­фи­ка­ци­он­ные (или но­ми­наль­ные), т. е. по­зво­ляю­щие раз­би­вать ис­сле­дуе­мую со­во­куп­ность объ­ек­тов на од­но­род­ные (по ана­ли­зи­руе­мо­му свой­ст­ву) клас­сы. Ре­зуль­та­ты из­ме­ре­ния этих по­ка­за­те­лей на ка­ж­дом из ана­ли­зи­руе­мых объ­ек­тов ис­сле­дуе­мой со­во­куп­но­сти об­ра­зу­ют по­сле­до­ва­тель­ность мно­го­мер­ных на­блю­де­ний, или ис­ход­ный мас­сив мно­го­мер­ных дан­ных, ко­то­рый ис­поль­зу­ет­ся для про­ве­де­ния М. с. а. В зна­чит. час­ти М. с. а. рас­смат­ри­ва­ют­ся си­туа­ции, в ко­то­рых ис­сле­ду­е­мый мно­го­мер­ный при­знак ин­тер­пре­ти­ру­ет­ся как мно­го­мер­ная слу­чай­ная ве­ли­чи­на и ана­ли­зи­руе­мая по­сле­до­ва­тель­ность мно­го­мер­ных на­блю­де­ний – как вы­бор­ка из со­во­куп­но­сти ге­не­раль­ной. В этом слу­чае вы­бор ме­то­дов об­ра­бот­ки ис­ход­ных ста­ти­стич. дан­ных и ана­лиз их свойств про­из­во­дят­ся на ос­но­ве тех или иных до­пу­ще­ний от­но­си­тель­но при­ро­ды мно­го­мер­но­го (со­вме­ст­но­го) за­ко­на рас­пре­де­ле­ния ве­ро­ят­но­стей.

По со­дер­жа­нию в М. с. а. вы­де­ля­ют 3 осн. раз­де­ла: М. с. а. мно­го­мер­ных рас­пре­де­ле­ний, М. с. а. струк­ту­ры и ха­рак­те­ра взаи­мо­свя­зей ме­ж­ду ком­по­нен­та­ми ис­сле­дуе­мо­го мно­го­мер­но­го при­зна­ка, М. с. а. гео­мет­рич. струк­ту­ры ис­сле­дуе­мой со­во­куп­но­сти мно­го­мер­ных на­блю­де­ний.

Многомерный статистический анализ многомерных распределений

ох­ва­ты­ва­ет лишь си­туа­ции, в ко­то­рых об­ра­ба­ты­ва­е­мые на­блю­де­ния име­ют ве­ро­ят­но­ст­ную при­ро­ду, т. е. ин­тер­пре­ти­ру­ют­ся как вы­бор­ка из не­ко­то­рой ге­не­раль­ной со­во­куп­но­сти. К осн. за­да­чам это­го раз­де­ла от­но­сят­ся: ста­ти­стич. оце­ни­ва­ние ис­сле­дуе­мых мно­го­мер­ных рас­пре­де­ле­ний и их чи­сло­вых ха­рак­те­ри­стик; ис­сле­до­ва­ние свойств ис­поль­зуе­мых ста­ти­сти­че­ских оце­нок; ис­сле­до­ва­ние рас­пре­де­ле­ний ве­ро­ят­но­стей для ста­ти­стик, с по­мо­щью ко­то­рых стро­ят­ся ста­ти­стич. кри­те­рии про­вер­ки ги­по­тез о ве­ро­ят­но­ст­ной при­ро­де ана­ли­зи­руе­мых мно­го­мер­ных дан­ных.

Многомерный статистический анализ структуры и характера взаимосвязей компонент исследуемого многомерного признака

вклю­ча­ет в се­бя по­ня­тия и резуль­та­ты та­ких ме­то­дов и мо­де­лей М. с. а., как рег­рес­си­он­ный ана­лиз, дис­пер­си­он­ный ана­лиз, фак­тор­ный ана­лиз, ана­лиз мно­го­мер­ных вре­мен­ны́х ря­дов [под мно­го­мер­ным вре­мен­ны́м ря­дом по­ни­ма­ет­ся по­сле­до­ва­тель­ность на­блю­де­ний мно­го­мер­ных при­зна­ков ($x_1,x_2. x_p$), про­из­ве­дён­ных во вре­ме­ни].

Многомерный статистический анализ геометрической структуры исследуемой совокупности многомерных наблюдений

объ­е­ди­ня­ет в се­бе по­ня­тия и ре­зуль­та­ты та­ких мо­де­лей и схем, как дис­кри­ми­нант­ный ана­лиз, ана­лиз сме­сей ве­ро­ят­но­ст­ных рас­пре­де­ле­ний, кла­стер­ный ана­лиз, мно­го­мер­ное шка­ли­ро­ва­ние. Осн. по­ня­ти­ем во всех этих мо­де­лях и схе­мах яв­ля­ет­ся по­ня­тие рас­стоя­ния (ме­ры бли­зо­сти, ме­ры сход­ст­ва) ме­ж­ду ана­ли­зи­руе­мы­ми эле­мен­та­ми.

Ме­то­ды и ре­зуль­та­ты дис­кри­ми­нант­но­го ана­ли­за на­прав­ле­ны на ре­ше­ние сле­дую­щей за­да­чи. Из­вест­но о су­ще­ст­во­ва­нии оп­ре­де­лён­но­го чис­ла $k⩾2$ ге­не­раль­ных со­во­куп­но­стей и име­ет­ся по од­ной вы­бор­ке из ка­ж­дой со­во­куп­но­сти (обу­ча­ю­щие вы­бор­ки). Тре­бу­ет­ся по­стро­ить ос­но­ван­ное на имею­щих­ся обу­чаю­щих вы­бор­ках наи­луч­шее (в оп­ре­де­лён­ном смыс­ле) клас­си­фи­ци­рую­щее пра­ви­ло, по­зво­ляю­щее при­пи­сать но­вый элемент (на­блю­де­ние) к сво­ей ге­не­раль­ной со­во­куп­но­сти, ко­гда за­ра­нее не­из­вест­но, к ка­кой из со­во­куп­но­стей этот эле­мент при­над­ле­жит.

За­да­ча ана­ли­за сме­сей ве­ро­ят­но­ст­ных рас­пре­де­ле­ний ча­ще все­го воз­ни­ка­ет в свя­зи с ис­сле­до­ва­ни­ем «гео­мет­ри­че­ской струк­ту­ры» рас­смат­ри­вае­мой со­во­куп­но­сти. При этом пред­по­ла­га­ет­ся, что рас­пре­де­ле­ние об­щей ге­не­раль­ной со­во­куп­но­сти, из ко­то­рой из­вле­че­на ана­ли­зи­руе­мая вы­бор­ка, опи­сы­ва­ет­ся сме­сью рас­пре­де­ле­ний ви­да $$P(x)=\sum_^kπ_rP_r(x|θ_r),$$ где $r$ – но­мер не­ко­то­рой од­но­род­ной со­во­куп­но­сти, ха­рак­те­ри­зую­щей­ся ве­ро­ят­но­ст­ным рас­пре­де­ле­ни­ем $P_r(x|θ_r)$, за­ви­ся­щим от па­ра­мет­ра $θ_r, π_r$ – ап­ри­ор­ная ве­ро­ят­ность (удель­ный вес эле­мен­тов) $r$-го клас­са в об­щей ге­не­раль­ной со­во­куп­но­сти. За­да­ча со­сто­ит в ста­ти­стич. оце­ни­ва­нии не­из­вест­ных па­ра­мет­ров $θ_r, π_r, r=1. k$. Это, в ча­ст­но­сти, по­зво­ля­ет све­сти за­да­чу клас­си­фи­ка­ции эле­мен­тов к схе­ме дис­кри­ми­нант­но­го ана­ли­за, хо­тя в дан­ном слу­чае от­сут­ст­ву­ют обу­чаю­щие вы­бор­ки.

Ме­то­ды и ре­зуль­та­ты кла­стер­но­го ана­ли­за (клас­си­фи­ка­ция, рас­по­зна­ва­ние об­ра­зов «без учи­те­ля») на­прав­ле­ны на ре­ше­ние сле­дую­щей за­да­чи. Гео­мет­рич. струк­ту­ра ана­ли­зи­руе­мой со­во­куп­но­сти эле­мен­тов за­да­на ли­бо ко­ор­ди­на­та­ми со­от­вет­ст­вую­щих то­чек, ли­бо на­бо­ром гео­мет­рич. ха­рак­те­ри­стик их вза­им­но­го рас­по­ло­же­ния, напр. мат­ри­цей по­пар­ных рас­стоя­ний. Тре­бу­ет­ся раз­бить ис­сле­ду­е­мую со­во­куп­ность эле­мен­тов на срав­ни­тель­но не­боль­шое (за­ра­нее из­вест­ное или нет) чис­ло клас­сов так, что­бы эле­мен­ты од­но­го клас­са на­хо­ди­лись на не­боль­шом рас­стоя­нии друг от дру­га, в то вре­мя как раз­ные клас­сы бы­ли бы по воз­мож­но­сти дос­та­точ­но уда­ле­ны один от дру­го­го.

Читайте также:  Какие анализы крови надо сдать женщине

За­да­ча мно­го­мер­но­го шка­ли­ро­ва­ния от­но­сит­ся к си­туа­ции, ко­гда ис­сле­дуе­мая со­во­куп­ность эле­мен­тов за­да­на с по­мо­щью мат­ри­цы по­пар­ных рас­стоя­ний, и за­клю­ча­ет­ся в при­пи­сы­ва­нии ка­ж­до­му из эле­мен­тов за­дан­но­го чис­ла ко­ор­ди­нат та­ким об­ра­зом, что­бы струк­ту­ра по­пар­ных рас­стоя­ний ме­ж­ду эле­мен­та­ми, из­ме­рен­ных с по­мо­щью этих вспо­мо­га­тель­ных ко­ор­ди­нат, в сред­нем наи­ме­нее от­ли­ча­лась бы от за­дан­ной.

При­клад­ное на­зна­че­ние М. с. а. со­сто­ит в осн. в изу­че­нии сле­дую­щих про­блем.

Проблема статистического исследования зависимостей

ме­ж­ду ана­ли­зи­руе­мы­ми по­ка­за­те­ля­ми. Пред­по­ла­га­ет­ся, что ис­сле­дуе­мый на­бор ста­ти­сти­че­ски ре­ги­ст­ри­руе­мых по­ка­за­те­лей $x$ раз­бит, ис­хо­дя из со­дер­жа­тель­но­го смыс­ла этих по­ка­за­те­лей и окон­ча­тель­ных це­лей ис­сле­до­ва­ния, на $q$-мер­ный под­век­тор $x^<(1)>$ пред­ска­зы­вае­мых (за­ви­си­мых) пе­ре­мен­ных и $(p–q)$-мер­ный под­век­тор $x^<(2)>$ пред­ска­зы­ваю­щих (не­за­ви­си­мых) пе­ре­мен­ных. Про­бле­ма со­сто­ит в оп­ре­де­ле­нии на ос­но­ва­нии имею­щих­ся на­блю­де­ний та­кой $q$-мер­ной век­тор­ной функ­ции $f(x^<(2)>)$ из клас­са до­пус­ти­мых ре­ше­ний $F$, ко­то­рая да­ва­ла бы наи­луч­шую (в оп­ре­де­лён­ном смыс­ле) ап­прок­си­ма­цию по­ве­де­ния под­век­то­ра по­ка­за­те­лей $x^<(1)>$.

Проблема классификации элементов

(объ­ек­тов или по­ка­за­те­лей) в об­щей по­ста­нов­ке за­клю­ча­ет­ся в том, что­бы всю ана­ли­зи­руе­мую со­во­куп­ность эле­мен­тов раз­бить на срав­ни­тель­но не­боль­шое чис­ло од­но­род­ных (в оп­ре­де­лён­ном смыс­ле) групп. В за­ви­си­мо­сти от при­ро­ды ап­ри­ор­ной ин­фор­ма­ции и кон­крет­но­го ви­да функ­цио­на­ла, за­даю­ще­го кри­те­рий ка­че­ст­ва клас­си­фи­ка­ции, при­хо­дят к тем или иным схе­мам дис­кри­ми­нант­но­го ана­ли­за, кла­стер­но­го ана­ли­за, ана­ли­за сме­сей рас­пре­де­ле­ний.

Проблема снижения размерности

ис­сле­дуе­мо­го фак­тор­но­го про­стран­ст­ва и от­бо­ра наи­бо­лее ин­фор­ма­тив­ных по­ка­за­те­лей за­клю­ча­ет­ся в оп­ре­де­ле­нии та­ко­го на­бо­ра по­ка­за­те­лей $Z=(z_1,z_2. z_m)$ из клас­са до­пус­ти­мых пре­об­ра­зо­ва­ний $Z(x)$ ис­ход­ных по­ка­за­те­лей $x=(x_1,x_2. x_p)$, где $m$ зна­чи­тель­но мень­ше $p$, на ко­то­ром дос­ти­га­ет­ся мак­си­мум не­ко­то­рой за­дан­ной ме­ры ин­фор­ма­тив­но­сти $m$-мер­ной сис­те­мы при­зна­ков. Кон­кре­ти­за­ция функ­цио­на­ла, за­даю­ще­го эту ме­ру ин­фор­ма­тив­но­сти, при­во­дит, в ча­ст­но­сти, к разл. схе­мам фак­тор­но­го ана­ли­за или ме­то­дам от­бо­ра наи­бо­лее ин­фор­ма­тив­ных по­ка­за­те­лей в схе­мах ста­ти­стич. ис­сле­до­ва­ния за­ви­си­мо­стей и дис­кри­ми­нант­но­го ана­ли­за.

Осн. ма­те­ма­тич. ме­то­ды М. с. а. вклю­ча­ют ме­то­ды тео­рии ве­ро­ят­но­стей, тео­рии сис­тем ли­ней­ных урав­не­ний и тео­рии мат­риц, а так­же не­ко­то­рые оп­ти­ми­за­ци­он­ные ал­го­рит­мы. М. с. а. при­ме­ня­ет­ся в разл. ста­ти­стич. и эко­но­мет­рич. ис­сле­до­ва­ни­ях.

Источник

Понятие «многомерный анализ данных»

Фундамент статистики как науки составляют эмпирические наблюдения за окружающим нас миром.

Одномерный статистический анализ представляет частный случай многомерного.

Практически все задачи одномерного анализа ставятся и решаются в предположении того, что в природе существует так называемый гауссовский закон распределения данных.

Регрессионный анализ

Основной целью регрессионного анализа является определение наличия и характера связи между переменными (в простейшем случае строится зависимость y(x) исходя из примерной формы кривой). Несколько лет назад американский Институт стратегического планирования провел исследование «Маркетинговая стратегия и уровень прибыли», в котором рассматривалось влияние наиболее значимых переменных на уровень прибыли компании. Выяснилось, что график зависимости рентабельности – у, от доли рынка – х, выглядит следующим образом (рис. 1):

Рис. 1. График зависимости рентабельности от доли рынка

Невооруженным взглядом видно, что это прямая, однако точные ее пара- метры помогает установить регрессионный анализ. Регрессионный анализ широко используется в офисном пакете Excel, который предоставляет возможность исследовать не только линейные, но и другие, более сложные зависимости (в Excel это называется построением линий трендов).

Регрессионный анализ – метод установления аналитического выражениястохастической зависимости между исследуемыми признаками. Уравнение регрессии показывает, как в среднем изменяется y при изменении любого из xi, и имеет вид: y=f(x1, x2,…,xn), где y – зависимая переменная (всегда одна); xi – независимые переменные (факторы) (их может быть несколько).

В ходе регрессионного анализа решаются две основные задачи: построение уравнения регрессии, т.е. нахождение вида зависимости между результатным показателем и независимыми факторами x1, x2,…, xn; оценка значимости полученного уравнения, т.е. определение того, насколько выбранные факторные признаки объясняют вариацию признака y.

Применяется регрессионный анализ главным образом для планирования, а также для разработки нормативной базы. В отличие от корреляционного анализа, который только отвечает на вопрос, существует ли связь между анализируемыми признаками, регрессионный анализ дает и ее формализованное выражение.

Кроме того, если корреляционный анализ изучает любую взаимосвязь факторов, то регрессионный – одностороннюю зависимость, т.е. связь, показывающую, каким образом изменение факторных признаков влияет на признак результативный.

Задача на использование методов корреляционного и регрессионного анализа.

Наибольшим спросом в торговых точках города, реализующих молочную продукцию, пользуется молоко «Лето», выпускаемое в пакетах объемом 1 л. Цены за единицу этого товара в разных торговых точках варьируют. Известно, что реализация этого продукта вносит существенный вклад в общую выручку торговых точек. Возможно, она влияет и на величину прибыли предприятий торговли. Так ли это – установите с помощью анализа.

Корреляционный анализ

Корреляционный анализ позволяет судить о том, насколько похоже ведут себя разные переменные. В самом общем виде принятие гипотезы о наличии корреляции означает, что изменение значения переменной А произойдет одновременно с пропорциональным изменением значения Б: если обе переменные растут, то корреляция положительная; если одна переменная растет, а вторая уменьшается – корреляция отрицательная. При изучении корреляций стараются установить, существует ли какая- то связь между двумя показателями в одной выборке (например, между ростом и весом детей или между уровнем IQ и школьной успеваемостью) либо между двумя различными выборками (например, при сравнении пар близнецов), и если эта связь существует, то сопровождается ли увеличение одного показателя возрастанием (положительная корреляция) или уменьшением (отрицательная корреляция) другого.

Корреляционный анализ – метод установления связи и измерения ее тесноты между наблюдениями, которые можно считать случайными и выбранными из совокупности, распределенной по многомерному нормальному закону. Корреляционной связью называется такая статистическая связь, при которой различным значениям одной переменной соответствуют разные средние значения другой. Основной особенностью корреляционного анализа следует признать то, что он устанавливает лишь факт наличия связи и степени ее тесноты, не вскрывая причин. В статистике теснота связи может определяться с помощью различных коэффициентов (Пирсона, коэффициента ассоциации и т.д.), чаще используется линейный коэффициент корреляции между факторами x и y:

Значения коэффициента корреляции изменяются в интервале [-1; +1]. Значение r = –1 свидетельствует о наличии жестко детерминированной обратно пропорциональной связи между факторами; r =+1 соответствует жестко детерминированной связи с прямо пропорциональной зависимостью факторов. Другие значения коэффициента корреляции свидетельствуют о наличии стохастической связи, причем, чем ближе к единице, тем связь теснее. При , <0,3 связь можно считать слабой; при — связь средней тесноты; — тесная.

Практическая реализация корреляционного анализа включает следующие этапы:

1) постановка задачи и выбор признаков;

2) сбор информации и ее первичная обработка (группировки, исключение аномальных наблюдений, проверка нормальности одномерного распределения);

3) предварительная характеристика взаимосвязей (аналитические группировки, графики);

4) устранение мультиколлинеарности (взаимозависимости факторов) и уточнение набора показателей путем расчета парных коэффициентов корреляции;

5) исследование факторной зависимости и проверка ее значимости;

6) оценка результатов анализа и подготовка рекомендаций по их практическому использованию.

Факторный анализ рассмотрен более подробно ввиду более широкого его использования.

Понятие «многомерный анализ данных»

Роль математических методов в любой области знания (не только в психологии) — представление эмпирических данных в пригодном для интерпретации виде, поиск смысла в исходной эмпирической информации.

Наследов А. Д. вводит понятие эмпирической математической модели (ЭММ), которые идентичны мыслительным операциям. Эти модели он называет описательными, так как они представляют данные, полученные в исследовании, в удобном для интерпретации виде.

Предлагаемая ниже классификация методов анализа данных проведена по двум основаниям: отсутствию или наличию независимых переменных, а также по типу зависимых и независимых переменных, которые могут быть качественными или количественными.
В регрессионном анализе
наиболее явно виден функциональный характер модели анализа данных. Задача регрессионного анализа прямо формулируется как задача поиска функциональной зависимости Y от X, причем задача поиска формы связи не менее важна, чем вопросы статистической значимости полученных результатов. Наиболее широко применяется модель множественного линейного регрессионного анализа, позволяющая получать аналитически все стандартные статистические оценки.
Задачей дисперсионного анализаявляется установление связи между независимыми качественными переменными и зависимыми количественными. Однако поскольку функциональная структура связи очень проста — отклики представляются как линейные комбинации бинарных переменных — уровней факторов, то основное внимание в дисперсионном анализе уделяется вопросам статистической значимости влияния отдельных факторов.
Если отклики Y качественные, то для анализа используется группа методов, известная под общим названием распознавания образов. Наиболее используемым методом распознавания в случае количественных факторов является дискриминантный анализ. Примерами методов распознавания, ориентированных на случай качественных факторов, могут служить сегментационный анализ и метод обобщенного портрета.
Целью дискриминантного анализа является получение правила, позволяющего на основе наблюденных значений количественных независимых переменных X предсказывать значение качественной переменной Y, указывающей на принадлежность наблюдения к одному из заданных классов.
Сегментационный анализ состоит в последовательном разбиении совокупности наблюдений с целью получения, в конечном итоге, групп, максимально однородных по классовому составу.
Случай отсутствия зависимых переменных предполагает, что все анализируемые переменные в некотором смысле равноправны, и мы принимаем их за отклики (для простоты будем считать их количественными), значения которых определяются какими-то нам неизвестными факторами. Примерами могут служить морфологические или генетические характеристики растений, животных или людей, принадлежащих определенному таксону или обитающих на определенной территории. Задача анализа состоит в поиске этих неизвестных факторов. Выбор метода решения зависит от того, считаем ли мы искомые факторы качественными или количественными.

Читайте также:  Анализ стихотворения Цветаевой 8220 Два солнца стынут о Господи пощади 8230 8221

Для поиска качественных факторов используется группа методов, известная под названием кластерный анализ, среди которых наиболее часто используется так называемый агломеративно-иерархический метод, основанный на последовательном объединении многомерных наблюдений сначала в мелкие, а затем во все более и более крупные группы. Результатом кластерного анализа является разбиение всей совокупности наблюдений на классы. Полученной классификации соответствует качественная переменная (или несколько переменных, если используются несколько классификаций разной степени дробности или пересекающиеся классификации), категориями которой служат номера классов. Именно эта переменная (или переменные) и будет искомым качественным фактором. Найдя такой фактор (классифицирующую переменную), мы получаем возможность объяснять сходство или различие в значениях откликов для разных наблюдений принадлежностью их к одному или к разным классам.
Если же неизвестные факторы ищутся в форме количественных переменных, то используются методы факторного анализа. В этом случае задача состоит в представлении имеющихся откликов, Y, в виде линейных комбинаций неизвестных количественных факторов, X . С практической точки зрения применение этого метода оправдано, если удается с достаточной степенью приближения выразить большое количество откликов через малое число факторов. Одним из наиболее часто используемых методов этого класса является метод главных компонент, основанный на ортогональном проектировании исходного многомерного пространства в пространство меньшей размерности, в котором точки-наблюдения имеют наибольший разброс. Метод позволяет записать исходные данные в более компактном виде с сохранением максимума содержащейся в них информации и даже представить их графически на плоскости для случая двух факторов.
Следует еще раз подчеркнуть, что основным является деление методов анализа на те, в которых переменные делятся на зависимые и независимые (анализ связи), и те, в которых такого деления нет (анализ факторов). Дальнейшее деление методов по типу откликов и факторов довольно относительно. Дело в том, что уровни качественных факторов можно рассматривать как бинарные переменные, которые, в свою очередь, можно считать количественными переменными со значениями 0 и 1. С другой стороны, непрерывную шкалу значений количественной переменной можно категоризовать и рассматривать эту переменную как качественную. Во всяком случае, такого рода преобразования приходится делать вынужденно, когда по типу различаются не только факторы и отклики, но и разные переменные среди факторов или среди откликов.

Факторный анализ

Суть факторного анализа, состоит в том, чтобы имея большое число параметров, выделить малое число макропараметров, которыми и будут определяться различия между измеряемыми параметрами. Это позволит оптимизировать структуру анализируемых данных. Применение факторного анализа преследует две цели: сокращение числа переменных; классификация данных.

Факторный анализ довольно полезен на практике. Приведем несколько примеров.

Перед вами стоит задача исследовать имидж компании. Клиенту предлагается оценить данную компанию по целому ряду критериев, общее число которых может превышать несколько десятков. Применение факторного анализа в данном случае позволяет снизить общее количество переменных путем распределения их в обобщенные пучки факторов, например, «материальные условия компании», «взаимодействие с персоналом», «удобство обслуживания». Еще одним случаем применения данного метода может служить составление социально-психологических портретов потребителей. Респонденту необходимо выразить степень своего согласия/несогласия с перечнем высказываний о стиле жизни. В итоге, можно выделить, например, целевые группы потребителей: «новаторы», «прогрессисты» и «консерваторы».

Актуальным примером исследования в сфере банковского дела, может послужить, изучение уровня доверия клиента к банку, которое можно описать следующими факторами: — надежность сделок (включающий такие параметры, как сохранность средств, возможность беспрепятственного их перевода); — обслуживание клиентов (профессионализм сотрудников, их благожелательность) и — качество обслуживания (точность выполнение операций, отсутствие ошибок) и др.

Кластерный анализ Кластерный анализ (от англ. сluster – сгусток, пучок, гроздь) – это один из способов классификации объектов. Он позволяет рассматривать достаточно большой объем информации, сжимая его и делая компактными и наглядными. Термин «кластерный анализ» был введен в 1939 году английским ученым Р. Трионом, предложившим соответствующий метод, который сводился к поиску групп с тесно коррелирующим признаком в каждой из них. Целью кластерного анализа является выделение сравнительно небольшого числа групп объектов, как можно более схожих между собой внутри группы, и как можно более отличающихся в разных группах. В настоящее время разработано достаточно большое число алгоритмов кластерного анализа. Однако, попробуем объяснить его суть, не прибегая к строгому теоретизированию. Допустим, вы планируете провести опрос потребителей, (а все потребители разные), и вам, соответственно, необходимы различные стратегии для их привлечения. Для решения данной задачи мы предлагаем сегментировать клиентов, прибегнув к методу кластеризации.

Для этого выполняем следующие шаги:

формируем выборку и проводим опрос клиентов, определяем переменные (характеристики), по которым будем оценивать респондентов в выборке, вычисляем значения меры сходства и различия между ответами респондентов, выбираем метод кластеризации (т.е. правила объединения респондентов в группы), определяем оптимальное число кластеров (групп) в результате получаем таблицу следующего содержания:

Информация, представленная в таблице, позволяет нам составить портрет клиентов каждого кластера, которые впоследствии необходимо учитывать при составлении стратегии успешного продвижения продукта на рынке.

Кластерный анализ хорошо зарекомендовал себя, и на сегодняшний день применяется в различных прикладных областях. В социологии: разделение респондентов на различные социально-демографические группы. В маркетинге: сегментация рынка по группам потребителей, группировка конкурентов по факторам конкурентоспособности. В менеджменте: выделение групп сотрудников с разным уровнем мотивации, выявление мотивирующих/демотивирующих факторов в организации, классификация конкурентоспособных отраслей и поставщиков, и др. В медицине — классификация симптомов, признаков заболеваний, пациентов, препаратов для успешной терапии. А также психиатрии, биологии, экологии, информатике и т.д.

Источник

Многомерный статистический анализ: сущность и виды

Имеются данные о выпуске продукции группой предприятий по месяцам (млн. руб.):

Январь 23,2 Июль 28,4
Февраль 19,1 Август 24,1
Март 22,3 Сентябрь 26,3
Апрель 25,1 Октябрь 29,1
Май 24,5 Ноябрь 30,3
Июнь 27,3 Декабрь 26,5

Для выявления общей тенденции роста выпуска продукции произведем укрупнение интервалов. Для этой цели исходные (месячные) данные о выработке продукции объединяем в квартальные и получаем показатели выпуска продукции группой предприятий по кварталам:

В результате укрупнения интервалов общая тенденция роста выпуска продукции данной группой предприятий выступает отчетливо:

64,5 < 76,9 < 78,8 < 85,9.

Выявление общей тенденции ряда динамики можно произвести также путем сглаживания ряда динамики с помощью метода скользящей средней. Сущность этого приема состоит в том, что по исходным уровням ряда (эмпирическим данным) определяют расчетные (теоретические) уровни. При этом посредством осреднения эмпирических данных индивидуальные колебания погашаются, и общая тенденция развития явления выражается в виде некоторой плавной линии (теоретические уровни).

Читайте также:  Результат анализа мочи расшифровка эритроциты

Основное условие применения этого метода состоит в вычислении звеньев подвижной (скользящей) средней из такого числа уровней ряда, которое соответствует длительности наблюдаемых в ряду динамики циклов.

Недостатком способа сглаживания рядов динамики является то, что полученные средние не дают теоретических закономерностей (моделей) рядов, в основе которых лежала бы математически выраженная закономерность и это позволяло бы не только выполнить анализ, но и прогнозировать динамику ряда на будущее.

Значительно более совершенным приемом изучения общей тенденции в рядах динамики является аналитическое выравнивание. При изучении общей тенденции методом аналитического выравнивания исходят из того, что изменения уровней ряда динамики могут быть с той или иной степенью точности приближения выражены усреднённо с помощью определенных математических функций. Путем теоретического анализа выявляется характер развития явления, и на этой основе выбирается то или иное математическое выражение типа изменения явления: по прямой, по параболе второго порядка, показательной (логарифмической) кривой и т.п.

Очевидно, что уровни временных рядов формируются под совокупным влиянием множества длительно и кратковременно действующих факторов, в т.ч. различного рода случайностей. Изменение условий развития явления приводит к более или менее интенсивной смене самих факторов, к изменению силы и результативности их воздействия и, в конечном счете, к вариации уровня изучаемого явления во времени.

Многомерный статистический анализ — раздел статистики математической, посвященный математическим методам, направленным на выявление характера и структуры взаимосвязей между компонентами исследуемого многомерного признака и предназначенным для получения научных и практических выводов. Исходным массивом многомерных данных для проведения такого анализа обычно служат результаты измерения компонент многомерного признака для каждого из объектов исследуемой совокупности, т.е. последовательность многомерных наблюдений. Многомерный признак чаще всего интерпретируется как многомерная величина случайная, а последовательность многомерных наблюдений — как выборка из генеральной совокупности. В этом случае выбор метода обработки исходных статистических данных производится на основе тех или иных допущений относительно природы закона распределения изучаемого многомерного признака.

По содержанию многомерный статистический анализ может быть условно разбит на три основных подраздела:

1. Анализ многомерных распределений и их основных характеристик охватывает ситуации, когда обрабатываемые наблюдения имеют вероятностную природу, т.е. интерпретируются как выборка из соответствующей генеральной совокупности. К основным задачам этого подраздела относятся: оценивание статистическое исследуемых многомерных распределений и их основных параметров; исследование свойств используемых статистических оценок; исследование распределений вероятностей для ряда статистик, с помощью которых строятся статистические критерии проверки различных гипотез о вероятностной природе анализируемых многомерных данных.
2. Анализ характера и структуры взаимосвязей компонент исследуемого многомерного признака объединяет понятия и результаты, присущие таким методам и моделям, как анализ регрессионный, анализ дисперсионный, анализ ковариационнй, анализ факторный, анализ латентно-структурный, анализ логлинейный, поиск взаимодействий. Методы, принадлежащие к этой группе, включают как алгоритмы, основанные на предположении о вероятностной природе данных, так и методы, не укладывающиеся в рамки какой-либо вероятностной модели (последние чаще относят к методам анализа данных).

3. Анализ геометрической структуры исследуемой совокупности многомерных наблюдений объединяет понятия и результаты, свойственные таким моделям и методам, как анализ дискриминантный, анализ кластерный, шкалирование многомерное. Узловым для этих моделей является понятие расстояния, либо меры близости между анализируемыми элементами как точками некоторого пространства. При этом анализироваться могут как объекты (как точки, задаваемые в признаковом пространстве), так и признаки (как точки, задаваемые в объектном пространстве).

Прикладное значение многомерного статистического анализа состоит в основном в обслуживании следующих трех проблем:

— проблемы статистического исследования зависимостей между рассматриваемыми показателями;

Источник

Курсовая работа: Многомерный статистический анализ в системе SPSS

Исходная информация в социально-экономических исследованиях представляется чаще всего в виде набора объектов, каждый из которых характеризуется рядом признаков (показателей). Поскольку число таких объектов и признаков может достигать десятков и сотен, и визуальный анализ этих данных малоэффективен, то возникают задачи уменьшения, концентрации исходных данных, выявления структуры и взаимосвязи между ними на основе построения обобщенных характеристик множества признаков и множества объектов. Такие задачи могут решиться методами многомерного статистического анализа.

Многомерный статистический анализ — раздел математической статистики, посвященный математическим методам, направленным на выявление характера и структуры взаимосвязей между компонентами исследуемого многомерного признака и предназначенным для получения научных и практических выводов.

Основное внимание в многомерном статистическом анализе уделяется математическим методам построения оптимальных планов сбора, систематизации и обработки данных, направленным на выявление характера и структуры взаимосвязей между компонентами исследуемого многомерного признака и предназначенным для получения научных и практических выводов.

Исходным массивом многомерных данных для проведения многомерного анализа обычно служат результаты измерения компонент многомерного признака для каждого из объектов исследуемой совокупности, т.е. последовательность многомерных наблюдений. Многомерный признак чаще всего интерпретируется как величина случайная, а последовательность наблюдений как выборка из генеральной совокупности. В этом случае выбор метода обработки исходных статистических данных производится на основе тех или иных допущений относительно природы закона распределения изучаемого многомерного признака.

По содержанию многомерный статистический анализ может быть условно разбит на три основных подраздела:

1. Многомерный статистический анализ многомерных распределений и их основных характеристик охватывает ситуации, когда обрабатываемые наблюдения имеют вероятностную природу, т.е. интерпретируются как выборка из соответствующей генеральной совокупности. К основным задачам этого подраздела относятся: оценивание статистическое исследуемых многомерных распределений и их основных параметров; исследование свойств используемых статистических оценок; исследование распределений вероятностей для ряда статистик, с помощью которых строятся статистические критерии проверки различных гипотез о вероятностной природе анализируемых многомерных данных.

2. Многомерный статистический анализ характера и структуры взаимосвязей компонент исследуемого многомерного признака объединяет понятия и результаты, присущие таким методам и моделям, как регрессионный анализ, дисперсионный анализ, ковариационный анализ, факторный анализ и т.д. Методы, принадлежащие к этой группе, включают как алгоритмы, основанные на предположении о вероятностной природе данных, так и методы, не укладывающиеся в рамки какой-либо вероятностной модели (последние чаще относят к методам анализа данных).

3.Многомерный статистический анализ геометрической структуры исследуемой совокупности многомерных наблюдений объединяет понятия и результаты, свойственные таким моделям и методам, как дискриминантный анализ, кластерный анализ, многомерное шкалирование. Узловым для этих моделей является понятие расстояния, либо меры близости между анализируемыми элементами как точками некоторого пространства. При этом анализироваться могут как объекты (как точки, задаваемые в признаковом пространстве), так и признаки (как точки, задаваемые в объектном пространстве).

Прикладное значение многомерного статистического анализа состоит в основном в решении следующих трех задач:

· задача статистического исследования зависимостей между рассматриваемыми показателями;

· задача классификации элементов (объектов или признаков);

· задача снижения размерности рассматриваемого признакового пространства и отбора наиболее информативных признаков.

Множественный регрессионный анализ предназначен для построения модели, позволяющей по значениям независимых переменных получать оценки значений зависимой переменной.

Логистическая регрессия для решения задачи классификации. Это разновидность множественной регрессии, назначение которой состоит в анализе связи между несколькими независимыми переменными и зависимой переменной.

Факторный анализ занимается определением относительно небольшого числа скрытых (латентных) факторов, изменчивостью которых объясняется изменчивость всех наблюдаемых показателей. Факторный анализ направлен на снижение размерности рассматриваемой задачи.

Кластерный и дискриминантный анализ предназначены для разделения совокупностей объектов на классы, в каждый из которых должны входить объекты в определенном смысле однородные или близкие. При кластерном анализе заранее неизвестно, сколько получится групп объектов и какого они будут объема. Дискриминантный анализ разделяет объекты по уже существующим классам.

Глава 1. Множественный регрессионный анализ

Задание: Исследование рынка жилья в Орле (Советский и Северный районы).

В таблице приведены данные по цене квартир в Орле и по различным факторам, ее обусловливающим:

Источник