20.09.2019

Метод максимального правдоподобия нахождения точечных оценок. Методы получения оценок


Задача оценки параметров распределения заключается в получении наиболее правдоподобных оценок неизвестных параметров распределения генеральной совокупности на основании выборочных данных. Кроме метода моментов для определения точечной оценки параметров распределения используется также метод наибольшего правдоподобия . Метод наибольшего правдоподобия был предложен английским статистиком Р. Фишером в 1912 г.

Пусть для оценки неизвестного параметра  случайной величины Х из генеральной совокупности с плотностью распределения вероятностей p (x )= p (x , ) извлечена выборка x 1 ,x 2 ,…,x n . Будем рассматривать результаты выборки как реализацию n -мерной случайной величины (X 1 ,X 2 ,…,X n ). Рассмотренный ранее метод моментов для получения точечных оценок неизвестных параметров теоретического распределения не всегда дает наилучшие оценки. Методом поиска оценок, обладающих необходимыми (наилучшими) свойствами, является метод максимального правдоподобия.

В основе метода максимального правдоподобия лежит условие определения экстремума некоторой функции, называемой функцией правдоподобия.

Функцией правдоподобия ДСВ Х

L (x 1 ,x 2 ,…,x n ; )=p (x 1 ; ) p (x 2 ; )… p (x n ; ),

где x 1, …, x n – фиксированные варианты выборки,  неизвестный оцениваемый параметр, p (x i ; ) – вероятность события X = x i .

Функцией правдоподобия НСВ Х называют функцию аргумента :

L (x 1 ,x 2 ,…,x n ; )=f (x 1 ; ) f (x 2 ; )… f (x n ; ),

где f (x i ; ) – заданная функция плотности вероятности в точках x i .

В качестве точечной оценки параметров распределения  принимают такое его значение при котором функция правдоподобия достигает своего максимума. Оценку
называютоценкой максимального правдоподобия . Т.к. функции L и
L
достигают своего максимума при одинаковых значениях , то обычно для нахождения экстремума (максимума) используют
L
как более удобную функцию.

Для определения точки максимума
L
надо воспользоваться известным алгоритмом для вычисления экстремума функции:


В том случае, когда плотность вероятности зависит от двух неизвестных параметров –  1 и  2 , то находят критические точки, решив систему уравнений:

Итак, согласно методу наибольшего правдоподобия, в качестве оценки неизвестного параметра  принимается такое значение *, при котором
распределения выборкиx 1 ,x 2 ,…,x n максимальна.

Задача 8. Найдем методом наибольшего правдоподобия оценку для вероятностиp в схеме Бернулли,

Проведем n независимых повторных испытаний и измерим число успехов, которое обозначим m . По формуле Бернулли вероятность того, что будет m успехов из n –– есть функция правдоподобия ДСВ.

Решение : Составим функцию правдоподобия
.

Согласно методу наибольшего правдоподобия, найдем такое значение p , которое максимизирует L , а вместе с ней и ln L .

Тогда логарифмируя L , имеем:

Производная функции lnL по p имеет вид
и в точке экстремума равна нулю. Поэтому, решив уравнение
, имеем
.

Проверим знак второй производной
в полученной точке:

. Т.к.
при любых значениях аргумента, то найденное значениеp есть точка максимума.

Значит, – наилучшая оценка для
.

Итак, согласно методу наибольшего правдоподобия, оценкой вероятности p события А в схеме Бернулли служит относительная частота этого события .

Если выборка x 1 , x 2 ,…, x n извлечена из нормально распределенной совокупности, то оценки для математического ожидания и дисперсии методом наибольшего правдоподобия имеют вид:

Найденные значения совпадают с оценками этих параметров, полученными методом моментов. Т.к. дисперсия смещена, то ее необходимо умножить на поправку Бесселя. Тогда она примет вид
, совпадая с выборочной дисперсией.

Задача 9 . Пусть дано распределение Пуассона
где приm = x i имеем
. Найдем методом наибольшего правдоподобия оценку неизвестного параметра.

Решение :

Составив функцию правдоподобия L и ее логарифм ln L . Имеем:

Найдем производную от lnL :
и решим уравнение
. Полученная оценка параметра распределения примет вид:
Тогда
т.к. при
вторая частная производная
то это точка максимума. Т.о., в качестве оценки наибольшего правдоподобия параметра для распределения Пуассона можно принять выборочное среднее.

Можно убедиться, что припоказательном распределении
функция правдоподобия для выборочных значенийx 1 , x 2 , …, x n имеет вид:

.

Оценка параметра распределения  для показательного распределения равна:
.

Достоинством метода наибольшего правдоподобия является возможность получить «хорошие» оценки, обладающие такими свойствами, как состоятельность, асимптотическая нормальность и эффективность для выборок больших объемов при самых общих условиях.

Основным недостатком метода является сложность решения уравнений правдоподобия, а также то, что не всегда известен анализируемый закон распределения.

Кроме метода моментов, который изложен в предыдущем параграфе, существуют и другие методы точечной оценки неизвестных параметров распределения. К ним относится метод наибольшего правдоподобия, предложенный Р. Фишером.

А. Дискретные случайные величины. Пусть X - дискретная случайная величина, которая в результате n испытаний приняла значения х 1 , х 2 , ..., х п . Допустим, что вид закона распределения величины X задан, но неизвестен параметр θ , которым определяется этот закон. Требуется найти его точечную оценку.

Обозначим вероятность того, что в результате испытания величина X примет значение х i (i = 1 , 2, . . . , n ), через p (х i ; θ ).

Функцией правдоподобия дискретной случайной вели чины X называют функцию аргумента θ :

L (х 1 , х 2 , ..., х п ; θ ) = p (х 1 ; θ ) р (х 2 ; θ ) . . . p (х n ; θ ),

где х 1 , х 2 , ..., х п - фиксированные числа.

В качестве точечной оценки параметра θ принимают такое его значение θ * = θ * (х 1 , х 2 , ..., х п ), при котором функция правдоподобия достигает максимума. Оценку θ * называют оценкой наибольшего правдоподобия.

Функции L и ln L достигают максимума при одном и том же значении θ , поэтому вместо отыскания максимума функции L ищут (что удобнее) максимум функции ln L .

Логарифмической функцией правдоподобия называют функцию ln L . Как известно, точку максимума функции ln L аргумента θ можно искать, например, так:

3) найти вторую производную ; если вторая производная приθ = θ * отрицательна, то θ * - точка максимума.

Найденную точку максимума θ * принимают в качестве оценки наибольшего правдоподобия параметра θ .

Метод наибольшего правдоподобия имеет ряд достоинств: оценки наибольшего правдоподобия, вообще говоря, состоятельны (но они могут быть смещенными), распределены асимптотически нормально (при больших значениях n приближенно нормальны) и имеют наименьшую дисперсию по сравнению с другими асимптотически нормальными оценками; если для оцениваемого параметра θ существует эффективная оценка θ *, то уравнение правдоподобия имеет единственное решение θ *; этот метод наиболее полно использует данные выборки об оцениваемом параметре, поэтому он особенно полезен в случае малых выборок.

Недостаток метода состоит в том, что он часто требует сложных вычислений.

Замечание 1. Функция правдоподобия - функция от аргумента θ ; оценка наибольшего правдоподобия - функция от независимых аргументов х 1 , х 2 , ..., х п .

Замечание 2. Оценка наибольшего правдоподобия не всегда совпадает с оценкой, найденной методом моментов.

Пример 1. λ распределения Пуассона

где m - число произведенных испытаний; x i - число появлений события в i -м (i =1, 2, ..., n ) опыте (опыт состоит из т испытаний).

Решение. Составим функцию правдоподобия, учитывая, что. θ= λ :

L = p (х 1 ; λ :) p (х 2 ; λ :) . . .p (х n ; λ :),=

.

Напишем уравнение правдоподобия, для чего приравняем первую производную нулю:

Найдем критическую точку, для чего решим полученное уравнение относительно λ:

Найдем вторую производную по λ:

Легко видеть, что при λ = вторая производная отрицательна; следовательно,λ = - точка максимума и, значит, в качестве оценки наибольшого правдоподобия параметра λ распределения Пуассона надо принять выборочную среднюю λ* = .

Пример 2. Найти методом наибольшего правдоподобия оценку параметра p биномиального распределения

если в n 1 независимых испытаниях событие А появилось х 1 = m 1 раз и в п 2 независимых испытаниях событие А появилось х 2 = т 2 раз.

Решение. Составим функцию правдоподобия, учитывая, что θ = p :

Найдем логарифмическую функцию правдоподобия:

Найдем первую производную по р:

.

.

Найдем критическую точку, для чего решим полученное уравнение относительно p :

Найдем вторую производную по p :

.

Легко убедиться, что при вторая производная отрицательна; следовательно, - точка максимума и, значит, ее надо принять в качестве оценки наибольшего правдоподобия неизвестной вероятности p биномиального распределения:

Б. Непрерывные случайные величины. Пусть X - непрерывная случайная величина, которая в результате n испытаний приняла значения х 1 , х 2 , ..., x п . Допустим, что вид плотности распределения f (x ) задан, но не известен параметр θ , которым определяется эта функция.

Функцией правдоподобия непрерывной случайной вели чины X называют функцию аргумента θ :

L (х 1 , х 2 , ..., х п ; θ ) = f (х 1 ; θ ) f (х 2 ; θ ) . . . f (x n ; θ ),

где х 1 , х 2 , ..., x п - фиксированные числа.

Оценку наибольшего правдоподобия неизвестного параметра распределения непрерывной случайной величины ищут так же, как в случае дискретной величины.

Пример 3. Найти методом наибольшего правдоподобия оценку параметра λ, показательного распределения

(0< х < ∞),

если в результате n испытаний случайная величина X , распределенная по показательному закону, приняла значения х 1 , х 2 , ..., х п .

Решение. Составим функцию правдоподобия, учитывая, что θ= λ:

L = f (х 1 ; λ ) f (х 2 ; λ ) . . . f (х n ; λ ) =.

Найдем логарифмическую функцию правдоподобия:

Найдем первую производную по λ:

Напишем уравнение правдоподобия, для чего приравняем первую производную нулю:

Найдем критическую точку, для чего решим полученное уравнение относительно λ:

Найдем вторую производную по λ:

В предыдущем разделе рассматривалась байесовская теория оценивания. Одной из наиболее полезных оценок, полученных там, является оценка по максимуму апостериорной плотности вероятности. Значения этой оценки определяются путем максимизации условной плотности

относительно переменной . Для этой оценки было введено специальное обозначение . Так как безусловная плотность не зависит от параметра , то значения оценки могут отыскиваться путем максимизации совместной плотности

относительно . Можно также максимизировать значение натурального логарифма от этой плотности. В этом случае значение оценки при каждой выборке является корнем уравнения

Предположим теперь, что никаких априорных сведений о параметре нет. Если бы параметр был случайным и имел нормальную плотность вероятности

,

то рассматриваемый здесь случай можно было бы получить предельным переходом при неограниченном увеличении дисперсий всех компонент вектора . Так как при этом

,

то при имеем . Таким образом, при отсутствии априорных сведений о параметре можно положить

. (6.27)

Получающаяся при этом из ур-ния (6.26) оценка называется оценкой максимального правдоподобия. Она является корнем уравнения

(6.28)

или, что эквивалентно,

. (6.29)

Оценка максимального правдоподобия была предложена раньше, чем была развита байесовская теория оценивания . Она определялась как значение параметра , при котором функция правдоподобия принимает наибольшее значение. Из приведенных выше рассуждений должно быть очевидным, что точность оценки максимального правдоподобия будет хуже, чем байесовской оценки. Несмотря на это, существуют достаточно веские причины, из-за которых использование этой оценки оказывается разумным. Так, довольно часто встречаются задачи оценивания, в которых

Параметр не является случайным, а его значение неизвестно;

Параметр является случайным, однако его априорная плотность вероятности неизвестна;

Выражение для апостериорной плотности [или для ] оказывается настолько сложным, что его трудно использовать для вычислений, в то время как функция правдоподобия имеет относительно простой вид.

В первом случае вообще нет возможности найти байесовскую оценку, поскольку о плотности вероятности вообще нельзя говорить. Один из возможных путей преодоления этой трудности состоит в том, чтобы использовать псевдобайесовские оценки. Такие оценки будут рассмотрены в § 6.5.

Пример 6.6. Рассмотрим одну из классических задач оценивания, которая была решена с использованием оценок максимального правдоподобия. Пусть требуется оценить среднее значение и дисперсию нормальной случайной величины по выборке из независимых наблюдений этой величины. Для наблюдаемой величины при этом имеем

, где

В силу независимости наблюдений можно зависать

В этой задаче подлежащие оцениванию параметры и не являются случайными, так чтобайесовские оценки найти нельзя.

Это уравнение имеет единственный корень , который и следует принять в качестве оценки максимального правдоподобия для среднего значения. Так как математическое ожидание этой оценки совпадает со значением оцениваемого параметра, т. е. то эту оценку называют несмещенной.

Случай 2. Предположим теперь, что значение параметра известно. Оценка максимального правдоподобия для дисперсии в этом случае является корнем уравнения

.

Решив это уравнение, получаем

.

Эта оценка также является несмещенной, поскольку .

Рассмотрим теперь задачу оценивания стандартного отклонения . Можно предположить, что эта оценка представляется как корень квадратный из оценки для дисперсии. Это действительно так, поскольку оценка

является корнем уравнения

Случай 3. Значения обоих параметров и неизвестны. В этом случае оцениваться должны два параметра и . Вычисляя производные функции правдоподобия по переменным и , приравнивая их нулю и решая найденную систему из двух уравнений, получаем

; .

Оценка среднего значения здесь вновь является несмещенной, а среднее значение оценки дисперсии равно значению оцениваемого параметра, т. е. в указанных условиях является смещенной. Можно было бы, введя поправку, получить несмещенную оценку , которая не является, однако, более оценкой максимального правдоподобия.

Часто полезно иметь алгоритмы последовательного вычисления оценок и . Здесь нижние индексы оценок максимального правдоподобия заменены индексом , который указывает объем используемой для оценивания выборки. При объеме выборки, равном , оценка . Поэтому алгоритм последовательного вычисления этой оценки имеет вид . Алгоритм последовательного вычисления оценки отыскивается несколько сложнее. Воспользуемся уже полеченным ранее выражением для оценки

и выпишем аналогичное выражение для оценки

.

Оценку теперь представим в рекуррентном виде. Тогда из двух выписанных равенств после немногочисленных алгебраических преобразований получаем

Рекуррентные алгоритмы вычисления оценок и должны использоваться совместно.

Пример 6.7. Найдем оценку максимального правдоподобия для параметра рассматривавшегося в примере 6.1. Теперь плотность вероятности

Оценка максимального правдоподобия определяется как корень уравнения

и имеет вид

В рассматриваемом случае можно найти и байесовскую оценку

Если принять, что , , то оценка, обеспечивающая минимум среднеквадратической ошибки, совпадает с оценкой максимального правдоподобия. Интересно отметить, что в этом случае оценка с минимальной дисперсией, которая совпадает также с байесовской оценкой при модульной функции стоимости и с оценкой по максимуму апостериорной плотности вероятности, так же, как и оценка максимального правдоподобия, является несмещенной.

Чрезвычайно полезно вычислить корреляционные матрицы вектора ошибок этих двух оценок. Для байесовской оценки такая матрица уже была вычислена и было показано, что

Для оценки максимального правдоподобия получаем

Если теперь воспользоваться представлением , то

Корреляционная матрица вектора ошибок при использовании оценки максимального правдоподобия всегда больше, чем корреляционная матрица вектора ошибок для оценки с минимальной среднеквадратической ошибкой. Эти матрицы совпадают только в том случае, когда .

Полезно рассмотреть также случай, когда матрица является единичной, т. е . При этом .

Оценка максимального правдоподобия, байесовская оценка и их корреляционные матрицы в этом случае принимают вид

Здесь нельзя ожидать, что оценка максимального правдоподобия окажется достаточно точной, поскольку ее значения просто совпадают со значениями получаемой выборки.

Если объем выборки намного больше размерности оцениваемого параметра , то оценка максимального правдоподобия может оказаться достаточно хорошей. Например, пусть , где - скалярный параметр, а векторы и имеют размерность . Предположим также, что

и . Рассматривающиеся здесь оценки и их среднеквадратические ошибки при этом определяются соотношениями

; ;

; .

Часто оказывается, что для достаточно больших значений выполняется неравенство . В этом случае среднеквадратические ошибки обеих оценок будут фактически одинаковы.

Аналогичные результаты можно получить при непрерывном времени для примера 6.3. Если модель наблюдений в последнем примере с дискретным временем трактовать как дискретный аналог следующей модели наблюдаемого процесса

; .

где - нормальный белый шум с нулевым средним значением, то, используя обозначения примера 6.3, можно получить

; .

Отсюда следует, что если вид функции не изменяется при изменении , то среднеквадратическая ошибка оценивания уменьшается с ростом . Если же энергия сигнала , определяемая как , должна оставаться постоянной при любом значении параметра , то значение среднеквадратической ошибки не зависит ни от длительности , ни от формы сигнала . Если , то среднеквадратическая ошибка байесовской оценки фактически будет такой же, как и у оценки максимального правдоподобия. Если же это не так и справедливо обратное неравенство , то это означает, что либо имеется достаточно интенсивный шум ( велико), либо имеется хорошая априорная оценка для , с которой можно начать ( мало). Значения оценки с минимальной среднеквадратической ошибкой и среднеквадратическая ошибка этой оценки при этом мало отличаются от соответствующих параметров априорного распределения и можно записать

;

.

Так что в этом случае среднее значение априорного распределения принимается в качестве наилучшей оценки для параметра . В примере 6.5 уже отмечалось, что при больших отношениях сигнал/шум среднеквадратические ошибки оценивания при использовании оценки по максимуму апостериорной плотности и оценки с минимальной среднеквадратической ошибкой практически одинаковы. Из результатов этого примера следует, что при больших значениях отношения сигнал/шум (здесь при ) точность оценок и практически такая же, как и у оценки максимального правдоподобия

Пример 6.8. Приведем теперь подробный анализ простой задачи оценивания по методу максимального правдоподобия при наличии окрашенного шума. В процессе решения этой задачи будут проиллюстрированы соображения, которыми можно будет пользоваться при практическом выборе интервала дискретизации. Пусть наблюдению доступны реализации скалярного процесса , , где - постоянный скалярный параметр, и

Для решения задачи оценивания параметра поступим следующим образом. Введем соответствующую модель наблюдений при дискретном времени , , , где период отсчетов выбирается так, чтобы изменения процесса на таком интервале были хорошо заметны. Для этой модели имеем

Наблюдаемый процесс можно теперь записать в векторной форме:

.

Оценка максимального правдоподобия параметра

где ковариационная матрица шума имеет элементы: (или от периода отсчетов компоненты вектора (или ) при дальнейшем, даже неограниченном, увеличении объема выборки оказывается незначительным.

Рис. 6.8. Зависимость дисперсии ошибки оценивания от объема выборки (пример 6.8.): 1 - алгоритм, ориентированный на белый шум; 2 - алгоритм, ориентированный на окрашенный шум.

Приведенное выше выражение для справедливо только в том случае, если компоненты вектора в самом деле независимы. Истинное значение среднеквадратической ошибки оценивания при использовании оценки в случае окрашенного шума может быть найдено из соотношения

) алгоритм, ориентированный на белый шум, обеспечивает значение среднеквадратической ошибки, лишь незначительно превышающее значение ошибки для алгоритма, ориентированного на окрашенный шум. Поскольку алгоритмы для белого шума намного проще, чем алгоритмы для окрашенного шума, то в практических приложениях можно поступить следующим образом, объем выборки принять равным 40 и использовать простые алгоритмы оценивания, ориентированные на белый шум, если такая высокая частота отсчетов допустима. Среднеквадратическая ошибка оценивания по выборке объема при использовании алгоритма для окрашенного шума (когда шум на самом деле окрашен) равна среднеквадратической ошибке оценивания по выборке объема при использовании алгоритма для белого шума. Отношение этих среднеквадратических ошибок при равно примерно двум.

Метод максимального правдоподобия (ММП) является одним из наиболее широко используемых методов в статистике и эконометрике. Для его применения необходимо знание закона распределения исследуемой случайной величины.

Пусть имеется некоторая случайная величина У с заданным законом распределения ДУ). Параметры этого закона неизвестны и их нужно найти. В общем случае величину Y рассматривают как многомерную, т.е. состоящую из нескольких одномерных величин У1, У2, У3 ..., У.

Предположим, что У – одномерная случайная величина и ее отдельные значения являются числами. Каждое из них (У],у 2, у3, ...,у„) рассматривается как реализация не одной случайной величины У, а η случайных величин У1; У2, У3 ..., У„. То есть:

уj – реализация случайной величины У];

у2 – реализация случайной величины У2;

уз – реализация случайной величины У3;

у„ – реализация случайной величины У„.

Параметры закона распределения вектора У, состоящего из случайных величин Y b Y 2, У3,У„, представляют как вектор Θ, состоящий из к параметров: θχ, θ2,в к. Величины Υ ν Υ 2, У3,..., Υ η могут быть распределены как с одинаковыми параметрами, так и с различными; некоторые параметры могут совпадать, а другие различаться. Конкретный ответ на этот вопрос зависит от той задачи, которую решает исследователь.

Например, если стоит задача определения параметров закона распределения случайной величины У, реализацией которой являются величины У1; У2, У3, У,„ то предполагают, что каждая из этих величин распределена так же, как величина У. Иначе говоря, любая величина У, описывается одним и тем же законом распределения/(У, ), причем с одними и теми же параметрами Θ: θχ, θ2,..., д к.

Другой пример – нахождение параметров уравнения регрессии. В этом случае каждая величина У, рассматривается как случайная величина, имеющая "собственные" параметры распределения, которые могут частично совпадать с параметрами распределения других случайных величин, а могут и полностью различаться. Более подробно применение ММП для нахождения параметров уравнения регрессии будет рассмотрено ниже.

В рамках метода максимального правдоподобия совокупность имеющихся значений У], у2, у3, ...,у„ рассматривается как некоторая фиксированная, неизменная. То есть закон /(У;) есть функция от заданной величиныу, и неизвестных параметров Θ. Следовательно, для п наблюдений случайной величины У имеется п законов /(У;).

Неизвестные параметры этих законов распределения рассматриваются как случайные величины. Они могут меняться, однако приданном наборе значений Уі,у2,у3, ...,у„ наиболее вероятны конкретные значения параметров. Иначе говоря, вопрос ставится таким образом: каковы должны быть параметры Θ, чтобы значения уj, у2, у3, ...,у„ были наиболее вероятны?

Для ответа на него нужно найти закон совместного распределения случайных величин У1; У2, У3,..., Уп –КУі, У 2, Уз, У„). Если предположить, что наблюдаемые нами величиныу^ у2,у3, ...,у„ независимы, то он равен произведению п законов/

(У;) (произведению вероятностей появления данных значений для дискретных случайных величин или произведению плотностей распределения для непрерывных случайных величин):

Чтобы подчеркнуть тот факт, что в качестве переменных рассматриваются искомые параметры Θ, введем в обозначение закона распределения еще один аргумент – вектор параметров Θ:

С учетом введенных обозначений закон совместного распределения независимых величин с параметрами будет записан в виде

(2.51)

Полученную функцию (2.51) называют функцией максимального правдоподобия и обозначают :

Еще раз подчеркнем тот факт, что в функции максимального правдоподобия значения У считаются фиксированными, а переменными являются параметры вектора (в частном случае – один параметр). Часто для упрощения процесса нахождения неизвестных параметров функцию правдоподобия логарифмируют, получая логарифмическую функцию правдоподобия

Дальнейшее решение по ММП предполагает нахождение таких значений Θ, при которых функция правдоподобия (или ее логарифм) достигает максимума. Найденные значения Θ; называют оценкой максимального правдоподобия.

Методы нахождения оценки максимального правдоподобия достаточно разнообразны. В простейшем случае функция правдоподобия является непрерывно дифференцируемой и имеет максимум в точке, для которой

В более сложных случаях максимум функции максимального правдоподобия не может быть найден путем дифференцирования и решения уравнения правдоподобия, что требует поиска других алгоритмов его нахождения, в том числе итеративных.

Оценки параметров, полученные с использованием ММП, являются:

  • состоятельными , т.е. с увеличением объема наблюдений разница между оценкой и фактическим значением параметра приближается к нулю;
  • инвариантными : если получена оценка параметра Θ, равная 0L, и имеется непрерывная функция q(0), то оценкой значения этой функции будет величина q(0L). В частности, если с помощью ММП мы оценили величину дисперсии какого-либо показателя (af ), то корень из полученной оценки будет оценкой среднего квадратического отклонения (σ,), полученной по ММП.
  • асимптотически эффективными ;
  • асимптотически нормально распределенными.

Последние два утверждения означают, что оценки параметров, полученные по ММП, проявляют свойства эффективности и нормальности при бесконечно большом увеличении объема выборки.

Для нахождения параметров множественной линейной регрессии вида

необходимо знать законы распределения зависимых переменных 7; или случайных остатков ε,. Пусть переменная Y t распределена по нормальному закону с параметрами μ, , σ, . Каждое наблюдаемое значение у, имеет, в соответствии с определением регрессии, математическое ожидание μ, = МУ„ равное его теоретическому значению при условии, что известны значения параметров регрессии в генеральной совокупности

где xfl, ..., x ip – значения независимых переменных в і -м наблюдении. При выполнении предпосылок применения МНК (предпосылок построения классической нормальной линейной модели), случайные величины У, имеют одинаковую дисперсию

Дисперсия величины определяется по формуле

Преобразуем эту формулу:

При выполнении условий Гаусса – Маркова о равенстве нулю математического ожидания случайных остатков и постоянстве их дисперсий можно перейти от формулы (2.52) к формуле

Иначе говоря, дисперсии случайной величины У,- и соответствующих ей случайных остатков совпадают.

Выборочную оценку математического ожидания случайной величины Yj будем обозначать

а оценку ее дисперсии (постоянной для разных наблюдений) как Sy.

Если предположить независимость отдельных наблюдений y it то получим функцию максимального правдоподобия

(2.53)

В приведенной функции делитель является константой и не оказывает влияния на нахождение ее максимума. Поэтому для упрощения расчетов он может быть опущен. С учетом этого замечания и после логарифмирования функция (2.53) примет вид

В соответствии с ММП найдем производные логарифмической функции правдоподобия по неизвестным параметрам

Для нахождения экстремума приравняем полученные выражения к нулю. После преобразований получим систему

(2.54)

Эта система соответствует системе, полученной по методу наименьших квадратов. То есть ММП и МНК дают одинаковые результаты, если соблюдаются предпосылки МНК. Последнее выражение в системе (2.54) дает оценку дисперсии случайной переменной 7, или, что одно и то же, дисперсии случайных остатков. Как было отмечено выше (см. формулу (2.23)), несмещенная оценка дисперсии случайных остатков равна

Аналогичная оценка, полученная с применением ММП (как следует из системы (2.54)), вычисляется по формуле

т.е. является смещенной .

Мы рассмотрели случай применения ММП для нахождения параметров линейной множественной регрессии при условии, что величина У, нормально распределена. Другой подход к нахождению параметров той же регрессии заключается в построении функции максимального правдоподобия для случайных остатков ε,. Для них также предполагается нормальное распределение с параметрами (0, σε). Нетрудно убедиться, что результаты решения в этом случае совпадут с результатами, полученными выше.