Определение слова «Дисперсионный анализ»

Большая советская энциклопедия:

I
Дисперсионный анализ
в математике, статистический метод выявления влияния отдельных факторов на результат эксперимента. Первоначально Д. а. был предложен английским статистиком Р. Фишером (1925) для обработки результатов агрономических опытов по выявлению условий, при которых испытываемый сорт с.-х. культуры даёт максимальный урожай. Современные приложения Д. а. охватывают широкий круг задач экономики, биологии и техники и трактуются обычно в терминах статистической теории выявления систематических различий между результатами непосредственных измерений, выполненных при тех или иных меняющихся условиях. Если значения неизвестных постоянных a1,...., an могут быть измерены с помощью различных методов или измерительных средств M1,..., Мm и в каждом случае систематическая ошибка может зависеть как от выбранного метода, так и от неизвестного измеряемого значения ai, то результаты измерений xij представляют собой суммы вида
xij = ai, + bij + ij,
i = 1, 2,..., n; j = 1, 2,..., m,
где bij — систематическая ошибка, возникающая при измерении ai по методу Mj, ij — случайная ошибка. Такая модель называется двухфакторной схемой Д. а. (первый фактор — измеряемая величина, второйметод измерения). Дисперсии (См. Дисперсия) эмпирических распределений, соответствующих множествам случайных величин
xij, xij — xi *- x *j + x **, xi * и x *j, где

выражаются формулами:

Эти дисперсии удовлетворяют тождеству
s2 = s20 + s21 + s22,
которое и объясняет происхождение названия Д. а.
Если величины систематических ошибок не зависят от метода измерений (т. е. между методами измерений нет систематических расхождений), то отношение s22/s20 близко к единице. Это свойство лежит в основе критерия для статистического выявления систематических расхождений: если s22ls20 значимо отличается от единицы, то гипотеза об отсутствии систематических расхождений отвергается. Значимость отличия определяется в согласии с законом распределения вероятностей случайных ошибок измерений. В частности, если все измерения равноточны и случайные ошибки подчиняются нормальному распределению, то критические значения для отношения s22/s20 определяются с помощью таблиц так называемого F-распределения (распределения дисперсионного отношения).
Изложенная схема позволяет лишь обнаружить наличие систематических расхождений и, вообще говоря, непригодна для их численной оценки с последующим исключением из результатов наблюдений. Эта цель может быть достигнута только при многократных измерениях (при повторных реализациях указанной схемы).
Лит.: Шеффе Г., Дисперсионный анализ, пер. с англ., М., 1963; Смирнов Н. В., Дунин-Барковский И. В., Курс теории вероятностей и математической статистики для технических приложений, 2 изд., М., 1965.
Л. Н. Большев.
II
Дисперсионный анализ
в химии, совокупность методов определения дисперсности (См. Дисперсность), т. е. характеристики размеров частиц в дисперсных системах. Д. а. включает различные способы определения размеров свободных частиц в жидких и газовых средах, размеров каналов-пор в тонкопористых телах (в этом случае вместо понятия дисперсности используют равнозначное понятие пористости), а также удельной поверхности. Одни из методов Д. а. позволяют получать полную картину распределения частиц (пор) по размерам (объёмам), а другие дают лишь усреднённую характеристику дисперсности (пористости).
К первой группе относятся, например, методы определения размеров отдельных частиц непосредственным измерением (ситовой анализ, оптическая и электронная микроскопия) или по косвенным данным: скорости оседания частиц в вязкой среде (Седиментационный анализ в гравитационном поле и в центрифугах), величине импульсов электрического тока, возникающих при прохождении частиц через отверстие в непроводящей перегородке (кондуктометрический метод, см. Коултера прибор), или др. показателям.
Вторая группа методов объединяет оценку средних размеров свободных частиц и определение удельной поверхности порошков и пористых тел. Средний размер частиц находят по интенсивности рассеянного света (Нефелометрия), с помощью ультрамикроскопа, методами диффузии и т.д.; удельную поверхность — по адсорбции газов (паров) или растворённых веществ, по газопроницаемости, скорости растворения и др. способами. Ниже приведены границы применимости различных методов Д. а. (размеры частиц в м):
Ситовой анализ..................................................10-2—10-4
Седиментационный анализ
в гравитационном поле.....................................10-4—10-6
Кондуктометрический метод............................10-4—10-6
Микроскопия........................................…..........10-4—10-7
Метод фильтрации.............................…............10-5—10-7
Центрифугирование....................…...................10-6—10-8
Ультрацентрифугирование...........….................10-7—10-9
Ультрамикроскопия...........................................10-7—10-9
Нефелометрия....................................…............10-7—10-9
Электронная микроскопия................................10-7—10-9
Метод диффузии................................................10-7—10-10
Д. а. широко используют в различных областях науки и промышленного производства для оценки дисперсности систем (суспензий, эмульсий, золей, порошков, адсорбентов и т.д.) с величиной частиц от нескольких миллиметров (10-3 м) до нескольких нанометров (10-9 м).
Лит.: Фигуровский Н. А., Седиментометрический анализ, М. — Л., 1948; Ходаков Г. С., Основные методы дисперсионного анализа порошков, М., 1968; Коузов П. А., Основы анализа дисперсного состава промышленных пылей и измельченных материалов, Л., 1971; Рабинович Ф. М., Кондуктометрический метод дисперсионного анализа, Л., 1970; Irani R. R., Callis C. F., Particle size, Measurement, interpretation and application, N. Y. — L., 1963.

Математическая энциклопедия:

В математической статистике — статистический метод, предназначенный для выявления влияния отдельных факторов на результат эксперимента, а также для последующего планирования аналогичных экспериментов. Первоначально Д. а. был предложен Р. Фишером [1] для обработки результатов агрономич. опытов по выявлению условий, при к-рых испытываемый сорт сельскохозяйственной культуры дает максимальный урожай. Современные приложения Д. а. охватывают широкий круг задач экономики, социологии, биологии и техники и трактуются обычно в терминах статистич. теории выявления систематич. различий между результатами непосредственных измерений, выполненных при тех пли иных меняющихся условиях. Если значения неизвестных постоянных a1, ... , aI могут быть измерены с помощью различных методов или измерительных средств М 1,..., MJ, и в каждом случае систематич. ошибка bij может, вообще говоря, зависеть как от выбранного метода Mj, так и от неизвестного измеряемого значения а i, то результаты таких измерений представляют собой суммы вида где К- количество независимых измерений неизвестной величины а i методом Mj,a у ijk — случайная ошибка k-го измерения величины а i методом Mj (предполагается, что все yijk- независимые одинаково распределенные случайные величины, имеющие нулевое математич. ожидание: Е у ijk=0). Такая линейная модель наз. двухфакторной схемой Д. а.; первый фактористинное значение измеряемой величины, второйметод измерения, причем в данном случае для каждой возможной комбинации значений первого и второго факторов осуществляется одинаковое количество Кнезависимых измерений (это допущение для целей Д. а. не является существенным и введено здесь лишь ради простоты изложения). Примером подобной ситуации могут служить спортивные соревнования I спортсменов, мастерство к-рых оценивается J судьями, причем каждый участник соревнований выступает Краз (имеет К"попыток"). В этом случае а i- истинное значение показателя мастерства спортсмена с номером i, bij — систематич. ошибка, вносимая в оценку мастерства i -го спортсмена судьей с номером j, xijk- оценка, выставленная j -м судьей г-му спортсмену после выполнений последним k-й попытки, а yijk- соответствующая случайная погрешность. Подобная схема типична для так наз. субъективной экспертизы качества нескольких объектов, осуществляемой группой независимых экспертов. Другой пример — статистич. исследование урожайности сельскохозяйственной культуры в зависимости от одного из J сортов почвы и J методов ее обработки, причем для каждого сорта г почвы и каждого метода обработки с номером J осуществляется kнезависимых экспериментовэтом примере bij- истинное значение урожайности для г-го сорта почвы при j-м способе обработки, xijk- соответствующая экспериментально наблюдаемая урожайность в k-м опыте, а yijk- ее случайная ошибка, возникающая из-за тех или иных случайных причин; что же касается величин а i, то в агрономич. опытах их разумно считать равными нулю). Положим cij=ai+bij, и пусть с i*, с *j и с ** — результаты осреднений с ij по соответствующим индексам, т. е. Пусть, кроме того, a=c** ,bi= с i*- с **, gj= с *j -с ** и dij= с ij- с i*- с *j+c**. Идея Д. а. основана на очевидном тождестве Если символом (cij )обозначить вектор размерности IJ, получаемый из матрицы ||с ij|| порядка IXJ с помощью какого-либо заранее фиксированного способа упорядочивания ее элементов, то (1) можно записать в виде равенства где все векторы имеют размерность IJ, причем aij=a, bij=bi, gij=gj. Так как четыре вектора в правой части (2) ортогональны, то aij=a — наилучшее приближение функции cij от аргументов i и j постоянной величиной [в смысле минимальности суммы квадратов отклонений ]. В том же смысле aij+bij=a+bi — наилучшее приближение cij функцией, зависящей лишь от i, aij+gij=a+gj — наилучшее приближение cij функцией, зависящей лишь от j, a aij+bij+gij=a+bi+gj- наилучшее приближение cij суммой функций, из к-рых одна (напр., a+bi) зависит лишь от г, а другаялишь от j. Этот факт, установленный Р. Фишером (см. [1]) в 1918, позднее послужил основой теории квадратичных приближений функций. В примере, связанном со спортивными соревнованиями, функция dij выражает "взаимодействие" г-го спортсмена и j-го судьи (положительное значение б/у означает "подсуживание", т. с. систематич. завышение /-м судьей оценки мастерства i-го спортсмена, а отрицательное значение б/у означает "засуживание", т. е. систематич. снижение оценки). Равенство всех б/у нулю — необходимое требование, к-рое надлежит предъявлять к работе группы экспертов. В случае же агрономич. опытов такое равенство рассматривается как гипотеза, подлежащая проверке по результатам экспериментов, поскольку основная цель здесьотыскание таких значений i и j, при к-рых функция (1) достигает максимального значения. Если эта гипотеза верна, то и значит, выявление наилучших "почвы" и "обработки" может быть осуществлено раздельно, что приводит к существенному сокращению числа экспериментов (напр., можно при каком-либо одном способе обработки испытать все Iсортов "почвы" и определить наилучший сорт, а затем на этом сорте опробовать все J способов "обработки" и найти наилучший способ; общее количество экспериментов с повторениями будет равно (I+J) К). Если же гипотеза неверна, то для определения max cij необходим описанный выше "полный план", требующий при Кповторениях IJК экспериментов. В ситуации спортивных соревнований функция gij=gj может трактоваться как систематич. ошибка, допускаемая j-м судьей по отношению ко всем спортсменам. В конечном счете gj — характеристика "строгости" или "либеральности" j-го судьи. В идеале хотелось бы, чтобы все gj были нулевыми, но в реальных условиях приходится мириться с наличием ненулевых значений gj и учитывать это обстоятельство при подведении итогов экспертизы (напр., за основу сравнения мастерства спортсменов можно принять не последовательности истинных значений a+b1+gj, ..., a+bI+gj, a лишь результаты упорядочиваний этих чисел по их величине, поскольку при всех j=1, . . . , J такие упорядочивания будут одинаковыми). Наконец, сумма двух оставшихся функций aij+bij=a+bi зависит лишь от iи поэтому может быть использована для характеризации мастерства г-го спортсмена. Однако здесь нужно помнить, что Поэтому упорядочивание всех спортсменов по значениям a+bi (или по a+ + bi+gj при каждом фиксированном j) может не совпадать с упорядочиванием по значениям ai. При практической обработке экспертных оценок этим обстоятельством приходится пренебрегать, так как Упомянутый полный план экспериментов не позволяет оценивать отдельно ai и bi*. Таким образом, число a+bi=ai + bi* характеризует не только мастерство i -го спортсмена, но и в той или иной мере отношение экспертов к этому мастерству. Поэтому, напр., результаты субъективных экспертных оценок, осуществленных в разное время (в частности, на нескольких Олимпийских играх), едва ли можно считать сопоставимыми. В случае же агрономич. опытов подобные трудности не возникают, поскольку все ai=0 и значит, a+bi=bi*. Истинные значения функций a, bi, gi и dij неизвестны и выражаются в терминах неизвестных функций cij. Поэтому первый этап Д. а. заключается в отыскании статистич. оценок для cij по результатам наблюдений xijk.Несмещенная и имеющая минимальную дисперсию линейная оценка для cij выражается формулой Так как a, bi, gj и dij — линейные функции от элементов матрицы ||cij||, то несмещенные линейные оценки для этих функций, имеющие минимальную дисперсию, получаются в результате замены аргументов cij соответствующими оценками, cij, т. е. причем случайные векторы и определенные так же, как введенные выше (aij),(bij), (gij). и (dij), обладают свойством ортогональности, и значит, они представляют собой некоррелированные случайные векторы (иными словами, любые две компоненты, принадлежащие разным векторам, имеют нулевой коэффициент корреляции). Кроме того, любая разность вида некоррелирована с любой из компонент этих четырех векторов. Рассмотрим пять совокупностей случайных величин , ,Так как то дисперсии эмпирич. распределений, соответствующих указанным совокупностям, выражаются формулами Эти эмпирич. дисперсии представляют собой суммы квадратов случайных величин, любые две из к-рых некоррелированы, если только они принадлежат разным суммам; при этом относительно всех yijk справедливо тождество объясняющее происхождение термина "Д. а." Пусть и пусть в таком случаегде s2 — дисперсия случайных ошибок yijk. На основе этих формул и строится второй этап Д. а., посвященный выявлению влияния первого и второго факторов на результаты эксперимента (в агрономич. опытах первый факторсорт "почвы", второйспособ "обработки"). Напр., если требуется проверить гипотезу отсутствия "взаимодействия" факторов, к-рая выражается равенствомто разумно вычислить дисперсионное отношение s23/s20= F3. Если это отношение значимо отличается от единицы, то проверяемая гипотеза отвергается. Точно так же для проверки гипотезы полезно отношение s22/s20= F2, к-рое надлежит также сравнить с единицей; если при этом известно, чтото вместо F2 целесообразно сравнить с единицей отношение Аналогичным образом можно построить статистику, позволяющую дать заключение о справедливости или ложности гипотезы Точный смысл понятия значимого отличия указанных отношений от единицы может быть определен лишь с учетом закона распределения случайных ошибок yijk. В Д. а. наиболее обстоятельно изучена ситуация, в к-рой все yijk распределены нормально. В этом случае — независимые случайные векторы, а — независимые случайные величины, причем отношения подчиняются нецентральным распределениям хи-квадрат с fm степенями свободы и параметрами нецентральности l т, m=0, 1, 2, 3, где Если параметр нецентральности равен нулю, то нецентральное распределение хи-квадрат совпадает с обычным распределением хи-квадрат. Поэтому в случае справедливости гипотезы l3=0 отношение подчиняется F-распре делению (распределению дисперсионного отношения) с параметрами f3 и f0. Пусть х- такое число, для к-рого вероятность события равна заданному значению е, называемому уровнем значимости (таблицы функции х= х(e; f3, f0) имеются в большинстве пособий по математич. статистике). Критерием для проверки гипотезы l3=0 служит правило, согласно к-рому эта гипотеза отвергается, если наблюдаемое значение F3 превышает х;в противном случае гипотеза считается не противоречащей результатам наблюдений. Аналогичным образом конструируются критерии, основанные на статистиках F2 и F*2. Дальнейшие этапы Д. а. существенно зависят не только от реального содержания конкретной задачи, но также и от результатов статистич. проверки гипотез на втором этапе. Напр., в условиях агрономич. опытов справедливость гипотезы l3=0, как указано выше, позволяет более экономно спланировать аналогичные дальнейшие эксперименты (если помимо гипотезы l3=0 справедлива также и гипотеза l2=0, то это означает, что урожайность зависит лишь от сорта "почвы", и поэтому в дальнейших опытах можно воспользоваться схемой однофакторного Д. а.); если же гипотеза l3=0 отвергается, то разумно проверить, нет ли в данной задаче неучтенного третьего фактора? Если сорта "почвы" и способы ее "обработки" варьировались не в одном и том же месте, а в различных географич. зонах, то таким фактором могут быть климатич. или географич. условия, и "обработка" наблюдений потребует применения трехфакторного Д. а. В случае экспертных оценок статистически подтвержденная справедливость гипотезы l3= 0 дает основание для упорядочивания сравниваемых объектов (напр., спортсменов) по значениям величин i=l, . .. , I. Если же гипотеза l3=0 отвергается (в задаче о спортивных соревнованиях это означает статистич. обнаружение "взаимодействия" нек-рых спортсменов и судей), то естественно попытаться перевычнслить все результаты заново, предварительно исключив из рассмотрения xijk с такими парами индексов (i, j), для к-рых абсолютные значения статистич. оценок dij превышают нек-рый заранее установленный допустимый уровень. Это означает, что из матрицы ||xij*|| вычеркиваются нек-рые элементы, и значит, план Д. а. становится неполным. Модели современного Д. а. охватывают широкий круг реальных экспериментальных схем (напр., схемы неполных планов, со случайно или неслучайно отобранными элементами xij*). Соответствующие этим схемам статистич. выводы во многих случаях находятся в стадии разработки. В частности, еще (к 1978) далеки от окончательного решения те задачи,, в к-рых результаты наблюдений xijk=cij+yijk не являются одинаково распределенными случайными величинами; еще более трудная задача возникает в случае зависимости величин xijk. Неизвестно решение проблемы выбора факторов (даже в линейном случае). Суть этой проблемы заключается в следующем: пусть с=с( и, v)- непрерывная функция и пусть u=u(z, w )и u=u(z, w)- какие-либо линейные функции от переменных г и w. Фиксируя значения z1, . .., zI и w1, . . ., wJ, можно при каждом заданном выборе линейных функций ии u. определить cij формулой и построить Д. а. этих величин по результатам соответствующих наблюдений xijk. Проблема заключается в отыскании таких линейных функций u и u, к-рым соответствует минимальное значение суммы квадратов где (предполагается, что функция с( и, v )неизвестна). В терминах Д. а. эта проблема сводится к статистич. отысканию таких факторов z=z(u, v )и w-w(u, v), к-рым соответствует "наименьшее взаимодействие". Лит.:[1] Fisher R. A., Statistical methods for research workers, Edinburgh, 1925; [2] Шеффе Г., , пер. с англ., М., 1963; [3] Xальд А., Математическая статистика с техническими приложениями, пер. с англ., М., 1956; [4] Снедекор Д ж. У., Статистические методы в применении к исследованиям в сельском хозяйстве и биологии, пер. с англ., М., 1961. Л. Н. Большее.

Социологический словарь:

ДИСПЕРСИОННЫЙ АНАЛИЗ. см. АНАЛИЗ ДИСПЕРСИОННЫЙ.

Смотреть другие определения →


© «СловоТолк.Ру» — толковые и энциклопедические словари, 2007-2020

Top.Mail.Ru
Top.Mail.Ru