link740 link741 link742 link743 link744 link745 link746 link747 link748 link749 link750 link751 link752 link753 link754 link755 link756 link757 link758 link759 link760 link761 link762 link763 link764 link765 link766 link767 link768 link769 link770 link771 link772 link773 link774 link775 link776 link777 link778 link779 link780 link781 link782 link783 link784 link785 link786 link787 link788 link789 link790 link791 link792 link793 link794 link795 link796 link797 link798 link799 link800 link801 link802 link803 link804 link805 link806 link807 link808 link809 link810 link811 link812 link813 link814 link815 link816 link817 link818 link819 link820 link821 link822 link823 link824 link825 link826 link827 link828 link829 link830 link831 link832 link833 link834 link835 link836 link837 link838 link839 link840 link841 link842 link843 link844 link845 link846 link847 link848 link849 link850 link851 link852 link853 link854 link855 link856 link857 link858 link859 link860 link861 link862 link863 link864 link865 link866 link867 link868 link869 link870 link871 link872 link873 link874 link875 link876 link877 link878 link879 link880 link881 link882 link883 link884 link885 link886 link887

Лекция по системному анализу в чрезвычайных ситуациях. Часть 3

Тема 2.2.2 Часть 2:  Установление связи между показателями. Регрессионный анализ.

1. Функция регрессии

2. Линейная регрессия


  1. Функция регрессии

Если функциональная зависимость между двумя показателями неизвестна, обычно пытаются установить тесноту их связи, измерить степень их зависимости. При этом прибегают к методам корреляционно-регресионного анализа.

Пусть х — независимая переменная, у — зависимая переменная.

Зависимость х от у называется функциональной, если каждому значению х соответствует единственное значение у (при этом и х и у могут быть как детерминированными, так и случайными).

Если каждому фиксированному значению х соответствует множество у, мы имеем стохастическую зависимость. Среднее значение (групповое генеральное среднее) этого множества (при х = х) называется математическим ожиданием случайной величины у, вычисленным при условии, что х = х.

clip_image002[8]

Таким образом, необходимо выяснить, изменяются или нет при изменении х условные математические ожидания М(У/Х=х). Если изменяются, то имеет место корреляционная зависимость у от х, если нет, то отсутствует.

Функция регрессии. Функция f(x) = M(У/Х=х), описывающая изменение условного математического ожидания случайной переменной У при изменении значений х переменной Х, называется функцией регресии.

Обычно используют коэффициент парной корреляции или генеральное корреляционное отношение, который может изменяться от 0 до 1 или от –1 до 1 (коэффициент парной корреляции).

Коэффициент корреляции может отличаться от 0 в следующих случаях:

1) У причинно зависит от Х;

2) Х причинно зависит от У;

3) У и Х непосредственно не влияют друг на друга, но совместно зависят от одного или нескольких факторов, причинно влияющих на Х и У;

4) Имеет место простое совпадение согласованности изменений х и у.

clip_image004


Само по себе установление причинно-следственных связей является важной задачей. Используются различные способы формирования связей между внешними факторами и показателями системы. Например, может быть использован экспертный метод с привлечением коллективов экспертов разных специальностей.

2. Линейная регрессия

Модели, которые состоят из линейной комбинации определенного набора функций Xk называются, линейными моделями, и для минимизации разности между моделью и данными может использоваться линейная регрессия. Общая форма модели этого вида

clip_image006[8]

где Xk (x) — функции x, которые называются, функциями базиса, и ak — свободные параметры. Заметьте, что слово "линейный" относится только к зависимости модели от параметров ak; функции Xk (x) могут быть нелинейны.

Минимизация линейной модели выполнется относительно оценочной функции

clip_image008[6]

Минимум этого выражения достигается при равенстве нулю его производной по параметрам. Заменив линейную модель этой функцией, возьмем первые производные и приравняем их к нулю. В результате получим уравнения, которые могут быть решены относительно параметров ak.

Модели линейной регрессии могут быть следующими:

· линейной Y = a+bx

· квадратичной Y = a+bx+cx2

· полиномиальной: Y = a+bx+cx2+dx3 + ....

Обычно при исследовании реальной системы мы имеем набор данных (точек), часто называемых "наблюдениями". Задача состоит в том, чтобы связать эти данные, построив модель в форме параметрического уравнения. Это "модельное уравнение " может, в зависимости от желания исследователя и особенностей конкретной системы, представлять собой различные функции: от простого полинома до чрезвычайно сложной модели с многими параметрами. Желательно, чтобы модель была выбрана так, чтобы параметры в выражении имели реальные интерпретацию и значения.

Моделирование данных может выполняться несколькими методами: интерполяция, регрессия, или сглаживание данных. Интерполяция гарантирует, что аппроксимирующая кривая пройдет через каждую точку. Регрессия просто гарантирует, что "оценочная функция", т.е. некоторая произвольная функция, которая измеряет несоответствие между данными и моделью будет минимизирована. При этом подходе, параметры модели подбираются до тех пор, пока оценочная функция не достигнет минимума.

Стандартная ошибка и коэффициент корреляции. При подборе функции регрессии, погрешность оценивается с помощью стандартной ошибки и коэффициента корреляции. Эти инструментальные средства не совершенны, но они дают полезную оценку деятельности посадки кривой. Стандартная ошибка определена следующим образом:

clip_image010[6]

где f(xi) - значения, рассчитанные по модели регрессии, yi - точки данных, и n — число параметров в конкретной модели (так, чтобы знаменатель соответствовал числу степеней свободы). Стандартная ошибка определяет разброс точек данных вокруг кривой регрессии. По мере улучшения качества модели стандартная ошибка приближается к нулю.

Другой критерий "согласия" — это коэффициент корреляции. Чтобы объяснить значение этого критерия, мы должны возвратиться точкам данных и определить допустимое отклонение, которое определяет величину разброса данных вокруг среднего:

clip_image012[4]

Где среднее число точек данных y задается как

clip_image014

Величина St рассматривает разброс вокруг постоянной линии (среднее) в отличие от разброса вокруг модели регрессии. Это — неопределенность зависимой переменной от регрессии. Мы также определяем отклонение от сглаживающей кривой как

clip_image016

Это выражение по форме напоминает формулу для стандартной ошибки, приведенной выше; Оно дает нам разброс точек вокруг подобранной функции. Таким образом, уменьшение погрешности может быть определено количественно как разность этих двух чисел. Поскольку эта величина зависит от масштаба данных, разность отнесена к значению St (нормирована).

clip_image018[4]

где r — коэффициент корреляции. Когда регрессионная зависимость хорошо описывает данные, коэффициент корреляции близок к единице, а стандартная ошибка близка к нулю.

Вы здесь: Главная БЖД и Охрана труда Чрезвычайные ситуации Лекция по системному анализу в чрезвычайных ситуациях. Часть 3