Поиск:
А Б В Г Д Е Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Э Ю Я


Статьи

АНАЛИЗ ДИСПЕРСИОННЫЙ:



АНАЛИЗ ДИСПЕРСИОННЫЙ - – метод  статистики математической (см.), предназна­ченной для выявления влияния отдельных не­зависимых друг от друга признаков, традицион­но называемых факторами (А, В, С, ...), на нек-рый наблюдаемый признак (Y). Концепция  А.д. предложена Р. Фишером в 1920 г.  и состоит в выделении и сравнении между собой различн. компонент дисперсии признака Y (отсюда и на­звание метода). Эти компоненты выделяются посредством разложения вариации (SS) призна­ка Y на составные части. Сравнение  компонент позволяет делать вывод о значимости или не­значимости влияния отдельного фактора  на из­менчивость признака Y. Величина SS =, где N – число наблюдений (т. е. число объек­тов),  – среднее  значение   (см. Величины сред­ние) признака Y, уi. – i-е значение признака Y (т. е. значение для i-го объекта) , наз. вариацией при­знака  Y. Она представляет собой числитель фор­мулы для вычисления дисперсии признака (см. Меры рассеяния) . А.д., возникший как метод планирования эксперимента  (Р. Фишер предло­жил А.д. для обработки рез-тов опытов по выяв­лению условий, при к-рых испытываемый сорт сельскохозяйственной культуры дает максималь­ный урожай), используется как метод анализа  данных (см.) для выявления систематич. разли­чий между рез-тами непосредственных измере­ний, выполненных при тех или иных меняющихся условиях (что особенно важно для социологии). Для применения А.д. требуется определенная структура  представления исходных данных. Рас­смотрим это на примере выявления влияния об­разования (фактор А) и пола (фактор В) на удовлетворенность трудом  (признак Y) в предполо­жении, что образование  как признак (фактор) имеет три градации (1 – среднее, 2 – среднее специальное, 3 – высшее), пол – две градации 1 – мужской, 2 – женский), а признак Y – некий индекс  удовлетворенности трудом, носящий количественный характер (см. Признак). Тогда для применения А.д. значения признака Y должны быть представлены в виде: Таблица 1. А В                          1                              2   3 1                           {Y11}                       {Y12}           {Y13} 2                           {Y21}                       {Y22}           {Y23} Значения табл. 1, отвечающие градации i фактора А и градации j фактора В, представля­ют собой совокупность  значений Y – {уij}, назы­ваемую (ij)-й ячейкой. Так, в (1,1)-ячейке пред­ставлена совокупность {Yn} значений удовлетво­ренности трудом мужчин со средним образова­нием, а в (2, 3)-ячейке – совокупность {Y23} зна­чений удовлетворенности трудом женщин с выс­шим образованием. Градации факторов наз. уров­нями факторов. Наиболее благоприятные усло­вия для применения А.д. в предположении неза­висимости факторов: данные,  представленные в отдельной ячейке, подчинены нормальному за­кону распределения (см. Распределение  вероят­ностей), число наблюдений в ячейках одинако­во, дисперсия  признака Y в ячейках одинакова. Общая вариация  (SS) признака Y, отвечаю­щего табл. 1, может быть разложена на компо­ненты, каждая из к-рых обусловлена вполне определенным источником дисперсии (вариации) lower case «Sigma»2. Число источников зависит от числа изучае­мых факторов. Для одного фактора A SS = SSA SSOC (1), для двух факторов А и В SS= = SSA SSB SSAB SSOC (2), а для трех факторов А, В, С SS = SS SSB SSC SSAB SSAC SSBC SSABC SSOC (3). В каждое разложение (1)–(3) входят три группы компонент. Компоненты пер­вой группы – SSA, SSB, SSC (с одним индексом) – обусловлены т.н. главными эффектами факторов. В нашем примере SSA – компонента вариации удовлетворенности трудом, обусловленная воз­растом и только им. Ее можно получить усред­нением значений удовлетворенности по полу и внутри ячеек, т. е. рассмотреть всего три значе­ния средней удовлетворенности: для респонден­тов со средним образованием, со средним специ­альным и с высшим. По этим значениям легко вычисляется SSA, на основе к-рой получается оценка  дисперсии признака Y при действии толь­ко фактора образования без принятия во внима­ние остальных источников дисперсии. По суще­ству, речь  идет о "чистом" влиянии фактора образования. Компоненты второй группы – SSABC – обусловлены т.н. взаимодействиями фак­торов. SSAB – компонента вариации удовлетво­ренности трудом, обусловленная одновременным действием  на такую удовлетворенность и воз­раста, и пола респондента.  Ее можно получить усреднением данных внутри ячеек, т. е. на осно­ве шести (по числу ячеек) значений удовлетво­ренности. Третья группа   компонент вариации Y, со­стоящая из SSOC, представляет собой т.н. остаточную вариацию. Ее источником служат все не­учтенные факторы,  влияние  к-рых обнаружи­вается при анализе изменчивости признака Y внутри ячеек. Естественно предположить, что эти факторы одинаково действуют на изменчивость в каждой ячейке (отсюда и возникает требова­ние равенства дисперсий и нормальности рас­пределения в ячейках, о к-рых говорилось выше). Процедура  А.д. начинается с вычисления перечисленных выше компонент. На основе этих компонент рассчитываются различ. оценки  дис­персии. Число таких оценок равно числу источ­ников дисперсии. Эти оценки называют средни­ми квадратами. Вычисляются они делением зна­чения соответствующей компоненты SS на отве­чающее ей число степеней свободы. В табл. 2 приведено число степеней свободы для случая двухфакторного разложения, когда число уров­ней фактора А равно r, а фактора В – с и число наблюдений в ячейках одинаково и равно n. Таблица 2. Компонента  SSA       SSB       SSAB                       SSOC             SS Число степеней свободы      r-1                          с-1                (r-l)(c-l)           rc(n-l)     N-1 В нашей задаче r = 3, с = 2. Суждение о значимости влияния того или иного источника дисперсии выносится после сравнения оценки дисперсии, отвечающей этому источнику, с оцен­кой, вычисленной на основе SS. Подобное срав­нение осуществляется посредством критерия Фишера (F-критерий). Для этого вычисляется значение отношения двух оценок. Напр., при сравнении оценок SSA/(r–1) и SSoc/[rc(n–l)] (для выявления "чистого" влияния фактора А на из­менчивость признака Y) вычисляется величина FA=SSArc(n-l)/[SSoc(r–1)]. Полученная величи­на сравнивается с табличным значением F , к-рое определяется однозначно при заданных степенях свободы и для заданного уровня зна­чимости (cм. Проверка статистических гипо­тез). Если окажется, что FA> FT, то влияние фак­тора А статистически значимо. Предположим, что в нашей задаче SSA= 3,5; SSOC= 7,0; n=6. Тогда гипотеза  о значимости влия­ния образования подтверждается, т.к. FA = 7,5, т. е. больше, чем FT= 4,17, при уровне значи­мости α=0,05 и степенях свободы ν1=3–1=2; ν2=rc(n–l)=30(α,ν1,ν2) – традиционные обозна­чения упомянутых величин в таблицах  F-кри-терия). Проверка этой гипотезы есть не что иное, как проверка гипотезы о равенстве средних значений удовлетворенности на различных уровнях фактора образования. Если средние удовлетво­ренности для респондентов со средним, средним специальным и высшим образованием не равны между собой (в статистич. смысле различие  зна­чимо), то влияние образования на удовлетворен­ность трудом значимо. В А.д. "влияние" понима­ется именно в этом смысле. Рассмотренная процедура А.д. возможна (т. е. SS разложима) лишь в предположении нек­рой модели изучаемого явления, описываемого посредством Y, А, В, .... А.д., по существу, пред­ставляет собой совокупность методов, каждый из к-рых предполагает определенную модель  обусловленности значения Y тем, какие значения принимают рассматриваемые факторы А, В,..., и возможностями получения наблюдений при раз­лич. сочетании уровней факторов (та или иная модель подобного рода предполагается при ис­пользовании любого математич. метода). Мы рас­смотрим лишь наиболее простую из них, в пред­положении к-рой и стало возможным разложе­ние типа (1), (2) или (3). Для случая двух факто­ ров она имеет вид Yijk=μ αi βi γij. lijk где {lijk} независимы и распределены нормально с пара­метрами (0,lower case «Sigma»2), т. е. со средним значением 0 и дисперсией lower case «Sigma»2 (cм. Распределение вероятностей); . Для нашей задачи  это означает, что оценка удовлетворенности трудом k-го респондента (Yijk с i-м уровнем образования, j-то пола представ­ляет собой сумму нескольких величин (т. е. име­ем дело с математич. моделью линейной), где μ – средняя "генеральная" удовлетворенность, статистич. оценкой (см. Оценивание статистич.) этой величины служит среднее значение при­знака Y по всем наблюдениям, представленным в табл. 1, т. е. средняя удовлетворенность всех респондентов, αi – главный эффект  i-го уровня фактора А. Его оценкой является превышение среднего значения удовлетворенности респонден­тов с i-м образованием над средней удовлетво­ренностью всех респондентов; аналогично опре­деляется βi как главный эффект j-ro уровня фак­тора В; γij – взаимодействие  i-го уровня факто­ра А с j-м уровнем фактора В. Принятый в ли­тературе термин  "взаимодействие факторов" оз­начает совместное воздействие рассматриваемых факторов на Y. Так, в приведенном примере мо­жет оказаться, что ни одна градация пола и ни одна градация образования не определяют к.-л. специфич. уровня удовлетворенности трудом (мужчины и женщины удовлетворены примерно одинаково, то же справедливо для разных уров­ней образования). Однако какое-то сочетание (из шести градаций этих факторов) может быть свя­занным с каким-то выделяющимся значением удовлетворенности (напр., может оказаться, что женщины со средним образованием намного более удовлетворены трудом, чем все остальные рассматриваемые группы (ячейки) респондентов). Именно тогда и говорят о взаимодействии фак­торов (в нашем примере взаимодействуют пол и образование). Понятие   "взаимодействие" можно трактовать и несколько по-иному (см. Анализ регрессионный) . Поясним, как рассчитывается оценка γij. Оценка γ12 – взаимодействие средне­го образования с женщинами.– вычисляется как разность двух величин. Первая – превышение средней удовлетворенности женщин со средним образованием над средней удовлетворенностью всех респондентов со средним образованием (т. е. оценка главного эффекта второго уровня фактора "пол", вычисленная относительно первого уровня фактора "образование"), а вторая – превышение средней удовлетворенности трудом всех женщин над средней удовлетворенностью всех респондентов (т. е. оценка главного эффекта второго уровня фактора "пол"). Lijk – ошибка на­блюдения. Эта величина оценивается путем вы­числения меры изменчивости удовлетворенности трудом у респондентов, имеющих одни и те же пол и образование. Последнее равенство  в опи­сании модели вытекает из определения αi и βi. Смысл сравнения FA с FT (о чем шла речь выше) на языке  модели А.д. – проверка гипоте­зы, что все αi=0. Если гипотеза о значимости влияния образования на удовлетворенность тру­дом принимается (т. е. не все αi =0), то можно проверить, напр., гипотезу об одинаковости влия­ния среднего и высшего образования на оценку удовлетворенности трудом. Выявляется, какие же из αi не равны нулю. Для проверки таких гипотез служат методы множественного сравнения: ме­тод Тьюки (Т-метод) и метод Шеффе (S-метод). Естественно, что при решении конкретных задач условия применимости А.д. не всегда выполняются. А.д. можно применять и при их на­рушении, но при этом: 1) нарушение нормально­сти распределения в ячейках возможно при боль­ших значениях числа степеней свободы; 2) на­рушение равенства дисперсий в ячейках возмож­но, если число наблюдений в ячейках равное; 3) нарушение независимости наблюдений в ячей­ках недопустимо. Лит.: Шеффе Г. Дисперсионный анализ.  М., 1962; Гласе Дж., Стэнли Дж. Статистические методы в педаго­гике и психологии. М., 1976: Статистические методы анали­за информации в социологических исследованиях. М., 1979. Г.Г. Татарова
Похожие на АНАЛИЗ ДИСПЕРСИОННЫЙ слова / понятия:

АНАЛИЗ ДИСПЕРСИОННЫЙ (ANOVA)
АНАЛИЗ ДОКУМЕНТОВ
АНАЛИЗ ЕСТЕСТВЕННЫХ СОБЫТИЙ
АНАЛИЗ ФАКТОРНЫЙ
АНАЛИЗ ФАКТОРНЫЙ КАЧЕСТВЕННЫХ ДАННЫХ
АНАЛИЗ И СИНТЕЗ
АНАЛИЗ КЛАСТЕРНЫЙ
АНАЛИЗ КОРРЕЛЯЦИОННЫЙ
АНАЛИЗ КОВАРИАЦИОННЫЙ
АНАЛИЗ ЛАТЕНТНО-СТРУКТУРНЫЙ