29.08.2019

От чего зависит значимость коэффициента корреляции. Пример применения метода корреляционного анализа. Оценка тесноты связи


Значимость коэффициентов корреляции проверяемся по критерию Стьюдента:

где - среднеквадратическая ошибка коэффициента корреляции, которая определяется по формуле:

Если расчетное значение (выше табличного, то можно сделать заключение о том, что величина коэффициента корреляции является значимой. Табличные значения t находят по таблице значений критериев Стьюдента. При этом учитываются количество степеней свободы (V = п - 1)и уровень доверительной вероятности (в экономических расчетах обычно 0,05 или 0,01). В нашем примере количество степеней свободы равно: п - 1 = 40 - 1 = 39. При уровне доверительной вероятности Р = 0,05; t = 2,02. Поскольку (фактическое (табл. 7.8) во всех случаях выше t-табличного, связь между результативным и факторными показателями является надежной, а величина коэффициентов корреляции - значимой.

Следующий этап корреляционного анализа -расчет уравнения связи (регрессии). Решение проводится обычно шаговым способом. Сначала в расчет принимается один фактор, который оказывает наиболее значимое влияние на результативный показатель, потом второй, третий и т.д. И на каждом шаге рассчитываются уравнение связи, множественный коэффициент корреляции и детерминации, F-отношение (критерий Фишера), стандартная ошибка и другие показатели, с помощью которых оценивается надежность уравнения связи. Величина их на каждом шаге сравнивается с предыдущей. Чем выше величина коэффициентов множественной корреляции, детерминации и критерия Фишера и чем ниже величина стандартной ошибки, тем точнее уравнение связи описывает зависимости, сложившиеся между исследуемыми показателями. Если добавление следующих факторов не улучшает оценочных показателей связи, то надо их отбросить, т.е. остановиться на том уравнении, где эти показатели наиболее оптимальны.

Сравнивая результаты на каждом шаге (табл.7.9), мы можем сделать вывод, что наиболее полно описывает зависимости между изучаемыми показателями пятифакторная модель, полученная на пятом шаге. В результате уравнение связи имеет вид:

Коэффициенты уравнения показывают количественное воздействие каждого фактора на результативный показатель при неизменности других. В данном случае можно дать следующую интерпретацию полученному уравнению: рентабельность повышается на 3,65 % при увеличении материалоотдачи на 1 руб.; на 0,09 % - с ростом фондоотдачи на 1 коп.; на 1,02 %-с повышением среднегодовой выработки продукции на одного работника на 1 млн руб.; на 0,052 %- при увеличении удельного веса продукции высшей категории качества на 1 %. С увеличением продолжительности оборота средств на 1 день рентабельность снижается в среднем на 0,122 %.

Коэффициенты регрессии в уравнении связи имеют разные единицы измерения, что делает их несопоставимыми, если возникает вопрос о сравнительной силе воздействия факторов на результативный показатель. Чтобы привести их в сопоставимый вид, все переменные уравнения регрессии выражают в долях среднеквадратического отклонения, другими словами, рассчитывают стандартизированные коэффициенты регрессии. Их еще называют бетта-коэффициентами по символу, который принят для их обозначения (р).

Бетта-коэффициенты и коэффициенты регрессии связаны следующим отношением:

Смотрите также:

Следует отметить, что истинным показателем степени линейной связи переменных является теоретический коэффициент корреляции , который рассчитывается на основании данных всей генеральной совокупности (т.е. всех возможных значений показателей):

где - теоретический показатель ковариции , который вычисляется как математическое ожидание произведений отклонений СВ
иот их математических ожиданий.

Как правило, теоретический коэффициент корреляции мы рассчитать не можем. Однако из того, что выборочный коэффициент не равен нулю
не следует, что теоретический коэффициент также
(т.е. показатели могут быть линейно независимыми). Т.о. по данным случайной выборки нельзя утверждать, что связь между показателями существует.

Выборочный коэффициент корреляции является оценкой теоретического коэффициента, т.к. он рассчитывается лишь для части значений переменных.

Всегда существует ошибка коэффициента корреляции . Эта ошибка - расхождение между коэффициентом корреляции выборки объемом и коэффициентом корреляции для генеральной совокупности определяется формулами:

при
; и
при
.

Проверка значимости коэффициента линейной корреляции означает проверку того, насколько мы можем доверять выборочным данным.

С этой целью проверяется нулевая гипотеза
о том, что значение коэффициента корреляции для генеральной совокупности равно нулю, т.е.в генеральной совокупности отсутствует корреляция . Альтернативной является гипотеза
.

Для проверки этой гипотезы рассчитывается - статистика (-критерий) Стьюдента:

.

Которая имеет распределение Стьюдента с
степенями свободы 1 .

По таблицам распределения Стьюдента определяется критическое значение
.

Если рассчитанное значение критерия
, то нуль-гипотеза отвергается, то есть вычисленный коэффициент корреляции значимо отличается от нуля с вероятностью
.

Если же
, тогда нулевая гипотеза не может быть отвергнута. В этом случае не исключается, что истинное значение коэффициента корреляции равно нулю, т.е. связь показателей можно считать статистически незначимой.

Пример 1 . В таблице приведены данные за 8 лет о совокупном доходе и расходах на конечное потребление.

Изучить и измерить тесноту взаимосвязи между заданными показателями.

Тема 4. Парная линейная регрессия. Метод наименьших квадратов

Коэффициент корреляции указывает на степень тесноты взаимосвязи между двумя признаками, но он не дает ответа на вопрос, как изменение одного признака на одну единицу его размерности влияет на изменение другого признака. Для того чтобы ответить на этот вопрос, пользуются методами регрессионного анализа.

Регрессионный анализ устанавливает форму зависимости между случайной величиной и значениями переменной величины
, причем, значения
считаются точно заданными.

Уравнение регрессии – это формула статистической связи между переменными.

Если эта формула линейна, то речь идет о линейной регрессии. Формула статистической связи двух переменных называется парной регрессией (нескольких переменных – множественной ).

Выбор формулы зависимости называется спецификацией уравнения регрессии. Оценка значений параметров выбранной формулы называется параметризацией .

Как же оценить значения параметров и проверить надёжность сделанных оценок?

Рассмотрим рисунок

    На графике (а) взаимосвязь х и у близка к линейной, прямая линия 1 здесь близка к точкам наблюдений и последние отклоняются от неё лишь в результате сравнительно небольших случайных воздействий.

    На графике (б) реальная взаимосвязь величин х и у описывается нелинейной функцией 2, и какую бы мы ни провели прямую линию (например, 1), отклонения точек от неё будут неслучайными.

    На графике (в) взаимосвязь между переменными х и у отсутствует, и результаты параметризации любой формулы зависимости будут неудачными.

Начальным пунктом эконометрического анализа зависимостей обычно является оценка линейной зависимости переменных. Всегда можно попытаться провести такую прямую линию, которая будет «ближайшей» к точкам наблюдений по их совокупности (например, на рисунке (в) лучшей будет прямая 1, чем прямая 2).

Теоретическое уравнение парной линейной регрессии имеет вид:


,

где
называютсятеоретическими параметрами (теоретическими коэффициентами ) регрессии; -случайным отклонением (случайной ошибкой ).

В общем виде теоретическую модель будем представлять в виде:

.

Для определения значений теоретических коэффициентов регрессии необходимо знать все значения переменных Х и Y , т.е. всю генеральную совокупность, что практически невозможно.

Задача состоит в следующем: по имеющимся данным наблюдений
,
необходимо оценить значения параметров
.

Пусть а оценка параметра
,b оценка параметра .

Тогда оценённое уравнение регрессии имеет вид:
,

где
теоретические значения зависимой переменнойy , - наблюдаемые значения ошибок. Это уравнение называетсяэмпирическим уравнением регрессии . Будем его записывать в виде
.

В основе оценки параметров линейной регрессии лежит Метод Наименьших Квадратов (МНК) – это метод оценивания параметров линейной регрессии, минимизирующий сумму квадратов отклонений наблюдений зависимой переменной от искомой линейной функции.

Функция Q является квадратичной функцией двух параметров a и b . Т.к. она непрерывна, выпукла и ограничена снизу (
), поэтому она достигает минимума. Необходимым условием существования минимума является равенство нулю её частных производных поa и b :


.

Разделив оба уравнения системы на n , получим:


или

Иначе можно записать:

и  средние квадратические отклонения значений тех же признаков.

Т.о. линия регрессии проходит через точку со средними значениями х и у
, акоэффициент регрессии b пропорционален показателю ковариации и коэффициенту линейной корреляции.

Если кроме регрессии Y на X для тех же эмпирических значений найдено уравнение регрессии X на Y (
, где
), то произведение коэффициентов
:

.

Коэффициент регрессии  это величина, показывающая, на сколько единиц размерности изменится величина при изменении величинына одну единицу ее размерности. Аналогично определяется коэффициент.

Полный вариант этой заметки (с формулами и таблицами) можно скачать с этой страницы в формате PDF. Размещенный на самой странице текст является кратким изложением содержания этой заметки и наиболее важных выводов.

Оптимистам от статистики посвящается

Коэффициент корреляции (КК) -- одна из наиболее простых и популярных статистик, характеризующих связь между случайными величинами. Одновременно КК удерживает первенство по числу сделанных с его помощью ошибочных и просто бессмысленных выводов. Такое положение обусловлено сложившейся практикой изложения материала, относящегося к корреляции и корреляционным зависимостям.

Большие, маленькие и "промежуточные" значения КК

При рассмотрении корреляционной связи подробно обсуждается понятие «сильной» (почти единичной) и «слабой» (почти нулевой) корреляции, но на практике ни та, ни другая никогда не встречаются. В результате остается неясным вопрос о разумной трактовке обычных для практики «промежуточных» значений КК. Коэффициент корреляции, равный 0.9 или 0.8 , новичку внушает оптимизм, а меньшие значения приводят его в замешательство.

По мере приобретения опыта оптимизм растет, и вот уже КК, равный 0.7 или 0.6 приводит исследователя в восторг, а оптимизм внушают значения 0.5 и 0.4 . Если же исследователь знаком с методами проверки статистических гипотез, то порог «хороших» значений КК падает до 0.3 или 0.2 .

Действительно, какие значения КК уже можно считать «достаточно большими», а какие остаются «слишком маленькими»? На этот вопрос имеется два диаметрально противоположных ответа -- оптимистичный и пессимистичный. Рассмотрим сначала оптимистичный (наиболее популярный) вариант ответа.

Значимость коэффициента корреляции

Этот вариант ответа дает нам классическая статистика и он связан с понятием статистической значимости КК. Мы рассмотрим здесь только ситуацию, когда интерес представляет положительная корреляционная связь (случай отрицательной корреляционной связи совершенно аналогичен). Более сложный случай, когда проверяется только наличие корреляционной связи без учета знака, относительно редко встречается на практике.

Если для КК r выполнено неравенство r > r e (n) , то говорят, что КК статистически значим при уровне значимости е . Здесь r e (n) -- квантиль, относительно которого нас будет интересовать только то, что при фиксированном уровне значимости e его значение стремится к нулю с ростом длины n выборки. Получается, что увеличивая массив данных можно добиться статистической значимости КК даже при весьма малых его значениях. В результате при наличии достаточно большой выборки появляется соблазн признать наличие в случае КК, равного, например, 0.06 . Тем не менее, здравый смысл подсказывает, что вывод о наличии значимой корреляционной связи при r=0.06 не может быть справедливым ни при каком объеме выборки. Остается понять природу ошибки. Для этого рассмотрим подробнее понятие статистической значимости.

Как обычно, при проверке статистических гипотез смысл проводимых расчетов кроется в выборе нуль-гипотезы и альтернативной гипотезы. При проверке значимости КК в качестве нуль-гипотезы берется предположение { r = 0 } при альтернативной гипотезе { r > 0 } (напомним, что мы рассматриваем здесь только ситуацию, когда интерес представляет положительная корреляционная связь). Выбираемый произвольно уровень значимости e определяет вероятность т.н. ошибки первого рода, когда нуль-гипотеза верна (r=0 ), но отклоняется статистическим критерием (т.е. критерий ошибочно признает наличие значимой корреляции). Выбирая уровень значимости, мы гарантируем малую вероятность такой ошибки, т.е. мы почти застрахованы от того, чтобы для независимых выборок (r=0 ) ошибочно признать наличие корреляционной связи (r > 0 ). Грубо говоря, значимость коэффициента корреляции означает только то, что он с большой вероятностью отличен от нуля .

Именно поэтому размер выборки и величина КК компенсируют друг друга -- большие выборки попросту позволяют добиться большей точности в локализации малого КК по его выборочной оценке.

Ясно, что понятие значимости не дает ответа на исходный вопрос о понимании категорий "большой/маленький" применительно к значениям КК. Ответ, даваемый критерием значимости, ничего не говорит нам о свойствах корреляционной связи, а позволяет только убедиться, что с большой вероятностью выполнено неравенство r > 0 . В то же время, само значение КК содержит значительно более существенную информацию о свойствах корреляционной связи. Действительно, одинаково значимые КК, равные 0.1 и 0.9 , существенно различаются по степени выраженности соответствующей корреляционной связи, а утверждение о значимости КК r = 0.06 для практики абсолютно бесполезно, поскольку при любых объемах выборки ни о какой корреляционной связи здесь говорить не приходится.

Окончательно можно сказать, что на практике из значимости коэффициента корреляции не следуют какие бы то ни было свойства корреляционной связи и даже само ее существование . С точки зрения практики порочен сам выбор альтернативной гипотезы, используемой при проверке значимости КК, поскольку случаи r=0 и r>0 при малых r с практической точки зрения неотличимы.

Фактически, когда из значимости КК выводят существование значимой корреляционной связи , производят совершенно беспардонную подмену понятий, основанную на смысловой неоднозначности слова "значимость". Значимость КК (четко определенное понятие) обманно превращают в "значимую корреляционную связь", а это словосочетание, не имеющее строгого определения, трактуют как синоним "выраженной корреляционной связи".

Расщепление дисперсии

Рассмотрим другой вариант ответа на вопрос о "малых" и "больших" значениях КК. Этот вариант ответа связан с выяснением регрессионоого смысла КК и оказывается весьма полезным для практики, хотя и отличается гораздо меньшим оптимизмом, чем критерии значимости КК.

Интересно, что обсуждение регрессионоого смысла КК часто наталкивается на трудности дидактического (а скорее психологического) характера. Кратко прокомментируем их. После формального введения КК и пояснения смысла "сильной" и "слабой" корреляционной связи считается необходимым углубиться в обсуждение философских вопросов соотношения между корреляционными и причинно-следственными связями. При этом делаются энергичные попытки откреститься от (гипотетической!) попытки трактовать корреляционную связь как причинно-следственную. На этом фоне обсуждение вопроса о наличии функциональной зависимости (в том числе и регрессионной) между коррелирующими величинами начинает казаться попросту кощунственной. Ведь от функциональной зависимости до причинно-следственной связи всего один шаг! В результате вопрос о регрессионном смысле КК вообще обходится стороной, так же как и вопрос о корреляционных свойствах линейной регресии.

На самом деле тут все просто. Если для нормированных (т.е. имеющих нулевое матожидание и единичную дисперсию) случайных величин X и Y имеет место соотношение

Y = a + bX + N,

где N -- некоторая случайная величина с нулевым матожиданием (аддитивный шум), то легко убедиться, что a = 0 и b = r . Это соотношение между случайными величинами X и Y называется уравнением линейной регрессии.

Вычисляя дисперсию случайной величины Y легко получить следующее выражение:

D[Y] = b 2 D[X] + D[N].

В последнем выражении первое слагаемое определяет вклад случайной величины X в дисперсию Y , а второе слагаемое -- вклад шума N в дисперсию Y . Используя полученное выше выражение для параметра b , легко выразить вклады случайных величин X и N через величину r = r (напомним, что мы считаем величины X и Y нормированными, т.е. D[X] = D[Y] = 1 ):

b 2 D[X] = r 2

D[N] = 1 - r 2

С учетом полученных формул часто говорят, что для случайных величин X и Y , связанных регрессионным уравнением, величина r 2 определяет долю дисперсии случайной величины Y , линейно обусловленную изменением случайной величины X . Итак, суммарная дисперсия случайной величины Y распадается на дисперсию, линейно обусловленную наличием регрессионной связи и остаточную дисперсию , обусловленную присутствием аддитивного шума.


Рассмотрим диаграмму рассеяния двумерной случайной величины (X, Y) . При малых D[N] диаграмма рассеяния вырождается в линейную зависимость между случайными величинами, слегка искаженную аддитивным шумом (т.е. точки на диаграмме рассеяния будут в основном сосредоточены вблизи прямой X=Y ). Такой случай имеет место при значениях r , близких по модулю к единице. При уменьшении (по модулю) величины КК дисперсия шумовой составляющей N начинает давать все больший вклад в дисперсию величины Y и при малых r диаграмма рассеяния полностью теряет сходство с прямой линией. В этом случае мы имеем облако точек, рассеяние которых в основном обусловлено шумом. Именно этот случай реализуется при значимых, но малых по абсолютной величине значениях КК. Ясно, что в этом случае ни о какой корреляционной связи говорить не приходится.

Посмотрим теперь, какой вариант ответа на вопрос о "больших" и "маленьких" значениях КК предлагает нам регрессионная интерпретация КК. В первую очередь необходимо подчеркнуть, что именно дисперсия является наиболее естественной мерой рассеяния значений случайной величины. Природа этой "естественности" состоит в аддитивности дисперсии для независимых случайных величин, но это свойство имеет очень многообразные проявления, к числу которых относится и продемонстрированное выше расщепление дисперсии на линейно обусловленную и остаточную дисперсии.

Итак, величина r 2 определяет долю дисперсии величины Y , линейно обусловленную наличием регрессионной связи со случайной величиной X . Вопрос о том, какую долю линейно обусловленной дисперсии можно считать признаком наличия выраженной корреляционной связи, остается на совести исследователя. Тем не менее, становится ясно, что малые значения коэффициента корреляции (r < 0.3 ) дают настолько малую долю линейно объясненной дисперсии, что бессмысленно говорить о какой бы то ни было выраженной корреляционной связи. При r > 0.5 можно говорить о наличии заметной корреляционной связи между величинами, а при r > 0.7 корреляционная связь может рассматриваться как существенная.

ИСХОДНЫЕ ДАННЫЕ

ОЦЕНКА ДОСТОВЕРНОСТИ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ

Коэффициент линейной корреляции, исчисленный по выборочным данным является случайной величиной. Полученный из выборки коэффициент корреляции r является оценкой коэффициента корреляцииr в генеральной совокупности. С уменьшением числа наблюдений надежность коэффициента корреляции падает. Оценка существенности (значимости) линейного коэффициента корреляции основана на сопоставлении значения r с его средней квадратической ошибкой :

При оценке значимости коэффициента корреляции обычно рассматриваются следующие ситуации.

1. Если число наблюдений достаточно велико (обычно свыше 30), а значение коэффициента корреляции не превышает 0.9, распределение коэффициента корреляции r можно считать приближенно нормальным со средней квадратической ошибкой

При достаточно большом числе наблюдений r должен превышать свою среднюю ошибку не менее, чем в три раза: . Если это неравенство не выполняется, то существование связи между признаками нельзя считать доказанным.

Задавшись определенной вероятностью, можно построить доверительные границы r:

Так, например, при вероятности 0,95, для которой t = 1,96, доверительные границы составят

,

При вероятности 0,997, для которой коэффициент доверия t = 3, доверительные границы составят

Поскольку значение r не может превышать единицу, то в случае, если > 1, следует указать только нижний предел, то есть утверждать, что реальный r не меньше, чем .

2. Для малого объема выборки, с распределением r далеким от нормального, применяются другие методы оценки значимости коэффициента корреляции. При небольшом числе наблюдений (n< 30), средняя ошибка линейного коэффициента корреляции находится по формуле:

а значимость проверяется на основе t критерия Стьюдента. При этом выдвигается гипотеза о равенстве коэффициента корреляции нулю, то есть об отсутствии связи между y и x в генеральной совокупности. Для этого используется статистика:

,

расчетное значение которой сопоставляется с табличным, из таблиц распределения Стьюдента. Если нулевая гипотеза верна, то есть r =0, то распределение t - критерия подчиняется закону распределения Стьюдента сn-2 степенями свободы и принятым уровнем значимости (обычно 0,05). В каждом конкретном случае по таблице распределения t -критерия Стьюдента находится табличное (критическое) значение t , которое допустимо при справедливости нулевой гипотезы, и с ним сравнивается фактическое (расчетное) значение t . Если t расч. > t табл . , то нулевая гипотеза отклоняется и линейный коэффициент считается значимым, а связь между x и y – существенной. И наоборот.



3. При малом числе наблюдений в выборке и высоком коэффициенте корреляции (распределение r отличается от нормального) для проверки гипотезы о наличии корреляционной связи, а также построения доверительного интервала применяется z-преобразование Фишера.

Для этого рассчитывается величина

Распределение z приближается к нормальному. Вариация z выражается формулой

Рассчитаем zкритерий для примера 1, поскольку в этом случае мы имеем небольшое число наблюдений и высокий коэффициент корреляции.

.

Чтобы не вычислять значения логарифмов, можно воспользоваться специальными таблицами Z-преобразований (Ефимова М.Р. стр. 402, Шмойлова Р.А. стр.446, Елисеева И.И. стр.473). Находим, что коэффициенту корреляции 0,94 соответствуетZ=1,74.

Отношение Z к средней квадратической ошибке равно 3. Таким образом, мы можем полагать действительное наличие связи между величиной выпуска продукции и расходом электроэнергии для всей совокупности предприятий.

Расчет коэффициентов корреляции произведем в программе STATISTICA.

Рисунок 1 – Корреляционная матрица.

Корреляция определяет степень, с которой значения двух переменных «пропорциональны» друг другу. Пропорциональность означает просто линейную зависимость . Корреляция высокая, если на графике зависимость «можно представить» прямой линией (с положительным или отрицательным углом наклона). Таким образом, это простейшая регрессионная модель, описывающая зависимость одной переменной от одного фактора.

Отметим основные характеристики этого показателя.

Он может принимать значения от –1 до +1. Знак «+» означает, что связь прямая (когда значения одной переменной возрастают, значения другой переменной также возрастают), «–» означает, что связь обратная.

Чем ближе коэффициент к 1, величине коэффициента корреляции менее 0,3 связь оценивается как слабая, от 0,31 до 0,5 – умеренная, от 0,51 до 0,7 – значительная, от 0,71 до 0,9 – тесная, 0,91 и выше – очень тесная.

Если все значения переменных увеличить (уменьшить) на одно и то же число или в одно и то же число раз, то величина коэффициента корреляции не изменится.

Коэффициент корреляции – это показатель, оценивающий тесноту линейной связи между признаками.

При r = ±1 корреляционная связь представляет линейную функциональную зависимость. При этом все наблюдаемые значения располагаются на общей прямой. Ее еще называют линией регрессии. При r = 0 линейная корреляционная связь отсутствует. При этом групповые средние переменных совпадают с их общими средними, а линии регрессии параллельны осям координат.

Равенство r = 0 говорит лишь об отсутствии линейной корреляционной зависимости (некоррелированности переменных), но не вообще об отсутствии корреляционной, а тем более, статистической зависимости.

Основываясь на коэффициентах корреляции, мы не можем строгодоказать причинной зависимости между переменными, однако можетеопределить ложные корреляции, т. е. корреляции, которые обусловленывлияниями «других», остающихся вне вашего поля зрения переменных.

Основная проблема ложной корреляции состоит в том, что мы не знаем,

кто является еѐ носителем. Тем не менее, если мы знаем, где искать, то

можно воспользоваться частные корреляции, чтобы контролировать (частично исключѐнное) влияние определѐнных переменных.


Рисунок 2 – Диаграммы рассеяния.

Как неоднократно отмечалось, для статистического вывода о на­личии или отсутствии корреляционной связи между исследуемыми пе­ременными необходимо произвести проверку значимости выборочного коэффициента корреляции. В связи с тем что надежность статистиче­ских характеристик, в том числе и коэффициента корреляции, зависит от объема выборки, может сложиться такая ситуация, когда величина коэффициента корреляции будет целиком обусловлена случайными колебаниями в выборке, на основании которой он вычислен. При существенной связи между переменными коэффициент корреляции должен значимо отличаться от нуля. Если корреляционная связь меж­ду исследуемыми переменными отсутствует, то коэффициент корреля­ции генеральной совокупности ρ равен нулю. При практических ис­следованиях, как правило, основываются на выборочных наблюдениях. Как всякая статистическая характеристика, выборочный коэффициент корреляции является случайной величиной, т. е. его значения случай­но рассеиваются вокруг одноименного параметра генеральной совокуп­ности (истинного значения коэффициента корреляции). При отсутствии корреляционной связи между переменными у и х коэффициент корре­ляции в генеральной совокупности равен нулю. Но из-за случайного характера рассеяния принципиально возможны ситуации, когда не­которые коэффициенты корреляции, вычисленные по выборкам из этой совокупности, будут отличны от нуля.

Могут ли обнаруженные различия быть приписаны случайным ко­лебаниям в выборке или они отражают существенное изменение усло­вий формирования отношений между переменными? Если значения выборочного коэффициента корреляции попадают в зону рассеяния, обусловленную случайным характером самого показателя, то это не является доказательством отсутствия связи. Самое большее, что при этом можно утверждать, сводится к тому, что данные наблюдений не отрицают отсутствия связи между переменными. Но если значение вы­борочного коэффициента корреляции будет лежать вне упомянутой зоны рассеяния, то делают вывод, что он значимо отличается от нуля, и можно считать, что между переменными у и х существует статистиче­ски значимая связь. Используемый для решения этой задачи критерий, основанный на распределении различных статистик, называется крите­рием значимости.

Процедура проверки значимости начинается с формулировки ну­левой гипотезы H 0 . В общем виде она заключается в том, что между па­раметром выборки и параметром генеральной совокупности нет каких- либо существенных различий. Альтернативная гипотеза H 1 состоит в том, что между этими параметрами имеются существенные различия. Например, при проверке наличия корреляции в генеральной совокуп­ности нулевая гипотеза заключается в том, что истинный коэффициент корреляции равен нулю (Н0 : ρ = 0). Если в результате проверки ока­жется, что нулевая гипотеза не приемлема, то выборочный коэффи­циент корреляции r ух значимо отличается от нуля (нулевая гипотеза отвергается и принимается альтернативная Н1). Другими словами, предположение о некоррелированности случайных переменных в ге­неральной совокупности следует признать необоснованным. И нао­борот, если на основе критерия значимости нулевая гипотеза прини­мается, т. е. r ух лежит в допустимой зоне случайного рассеяния, то нет оснований считать сомнительным предположение о некоррелиро­ванности переменных в генеральной совокупности.

При проверке значимости исследователь устанавливает уровень значимости α, который дает определенную практическую уверенность в том, что ошибочные заключения будут сделаны только в очень ред­ких случаях. Уровень значимости выражает вероятность того, что ну­левая гипотеза Н0 отвергается в то время, когда она в действительности верна. Ясно, что имеет смысл выбирать эту вероятность как можно меньшей.

Пусть известно распределение выборочной характеристики, яв­ляющейся несмещенной оценкой параметра генеральной совокупности. Выбранному уровню значимости α соответствуют под кривой этого распределения заштрихованные площади (см. рис. 24). Незаштрихованная площадь под кривой распределения определяет вероятность Р = 1 - α. Границы отрезков на оси абсцисс под заштрихованными площадями называют критическими значениями, а сами отрезки обра­зуют критическую область, или область отклонения гипотезы.

При процедуре проверки гипотезы выборочную характеристику, вычисленную по результатам наблюдений, сравнивают с соответствую­щим критическим значением. При этом следует различать односторон­нюю и двустороннюю критические области. Форма задания критической области зависит от постановки задачи при статистическом исследова­нии. Двусторонняя критическая область необходима в том случае, когда при сравнении параметра выборки и параметра генеральной со­вокупности требуется оценить абсолютную величину расхождения между ними, т. е. представляют интерес как положительные, так и от­рицательные разности между изучаемыми величинами. Когда же надо убедиться в том, что одна величина в среднем строго больше или мень­ше другой, используется односторонняя критическая область (право- или левосторонняя). Вполне очевидно, что для одного и того же критического значения уровень значимости при использовании одно­сторонней критической области меньше, чем при использовании дву­сторонней. Если распределение выборочной характеристики симметрично,

Рис. 24. Проверка нулевой гипотезы H0

то уровень значимости двусторонней критической области равен α, а односторонней - (см. рис. 24). Ограничимся лишь общей по­становкой проблемы. Более подробно с теоретическим обоснованием проверки статистических гипотез можно познакомиться в специальной литературе. Далее мы лишь укажем критерии значимости для различ­ных процедур, не останавливаясь на их построении.

Проверяя значимость коэффициента парной корреляции, устанав­ливают наличие или отсутствие корреляционной связи между исследуе­мыми явлениями. При отсутствии связи коэффициент корреляции гене­ральной совокупности равен нулю (ρ = 0). Процедура проверки на­чинается с формулировки нулевой и альтернативной гипотез:

Н0 : различие между выборочным коэффициентом корреляцииr и ρ = 0 незначимо,

Н1 : различие междуr и ρ = 0 значимо, и следовательно, между переменнымиу и х имеется существенная связь. Из альтернативной ги­потезы следует, что нужно воспользоваться двусторонней критической областью.

В разделе 8.1 уже упоминалось, что выборочный коэффициент кор­реляции при определенных предпосылках связан со случайной вели­чиной t , подчиняющейся распределению Стьюдента сf = п - 2 сте­пенями свободы. Вычисленная по результатам выборки статистика

сравнивается с критическим значением, определяемым по таблице рас­пределения Стьюдента при заданном уровне значимости α и f = п - 2 степенях свободы. Правило применения критерия заключается в сле­дующем: если |t | >tf , то нулевая гипотеза на уровне значимостиα отвергается, т. е. связь между переменными значима; если |t | ≤tf , то нулевая гипотеза на уровне значимостиαпринимается. Отклонение значенияr от ρ = 0 можно приписать случайной вариации. Данные выборки характеризуют рассматриваемую гипотезу как весьма возмож­ную и правдоподобную, т. е. гипотеза об отсутствии связи не вызывает возражений.

Процедура проверки гипотезы значительно упрощается, если вместо статистики t воспользоваться критическими значениями коэф­фициента корреляции, которые могут быть определены через квантили распределения Стьюдента путем подстановки в (8.38)t = tf , а иr = ρ f , а:

(8.39)

Существуют подробные таблицы критических значений, выдержка из которых приведена в приложении к данной книге (см. табл. 6). Правило проверки гипотезы в этом случае сводится к следующему: если r > ρ f , а, то можем утверждать, что связь между переменными су­щественная. Еслиr rf , то результаты наблюдений считаем непро­тиворечащими гипотезе об отсутствии связи.


© 2024
reaestate.ru - Недвижимость - юридический справочник