Одной из центральных задач математической статистики является задача оценивания теоретического распределения случайной величины на основе выборочных данных. При этом часто предполагается, что вид закона распределения генеральной совокупности известен, но неизвестны параметры этого распределения, такие как математическое ожидание, дисперсия и др. Требуется найти приближенные значения этих параметров, то есть получить статистические оценки указанных параметров.

Основным методом математической статистики является выборочный метод, его суть состоит в исследовании представительной выборочной совокупности – для достоверной характеристики совокупности генеральной. Данный метод экономит временные, трудовые и материальные затраты, поскольку исследование всей совокупности зачастую затруднено или невозможно.

Для нахождения вида функции оценивания того или иного параметра используют один из следующих методов: 1) метод максимального правдоподобия; 2) метод моментов; 3) оценивание с помощью метода наименьших квадратов

Числовые характеристики, полученные по выборкам, называют статистическими оценками параметров. Различают два вида оценок параметров точечные и интервальные.

В данной работе речь пойдет именно о точечных оценках.

Глава 1. Основная часть Основные понятия математической статистики

Введем основные понятия, связанные с выборками. Генеральной совокупностью называется совокупность объектов, из которых производится выборка. Выборочной совокупностью (выборкой) называется совокупность случайно отобранных объектов из генеральной совокупности. Число объектов в совокупности называется ее объемом.

Числовые характеристики всей генеральной совокупности называются параметрами. Так как всю генеральную совокупность изучить достаточно часто не представляется возможным, о параметрах судят по выборочным характеристикам. На основании выборочных данных можно получить лишь приближенное значение параметра, которое является его оценкой.

Выборочная характеристика, используемая в качестве приближенного значения неизвестного параметра генеральной совокупности, называется точечной оценкой, т.к представляет собой число или точку на числовой оси.

Числовые характеристики выборки

По результатам выборочных наблюдений вычисляются такие статистические выборочные характеристики, как выборочные средняя, дисперсия, среднее квадратичное отклонение, коэффициент корреляции и т.д. Эти характеристики определяют соответствующие параметры генеральной совокупности.

Пусть x1, x2, …, xn – выборка из генеральной совокупности объёма n.

Выборочной средней (или средним значение выборки) называется среднее арифметическое значение признака выборочной совокупности.

Генеральная средняя для изучаемого количественного признака Х по генеральной совокупности

и выборочная средняя

Если все значения x1, x2, …, xn признака выборки объема n различны, то среднее значение выборки оценивается по формуле:

Для обозначения среднего значения выборки чаще всего используются обозначения и

Если значения признака Х1, X2, …, Хk в выборке имеют соответственно частоты n1, n2, ..., nk, то последнюю формулу можно переписать в виде

Математическое ожидание характеризует среднее значение случайной величины и определяется по формулам:

(1.1)

где mx обозначает число, полученное после вычислений по формуле (1.1); M[X] - оператор математического ожидания, ДСВ – дискретная случайная величина, НСВ – непрерывная случайная величина. Как видно из (1.1), в качестве математического ожидания используется «среднее взвешенное значение», причем каждое из значений случайной величины учитывается с «весом», пропорциональным вероятности этого значения.

Начальный момент k-го порядка случайной величины X есть математическое ожидание k-й степени этой случайной величины:

(1.2)

При k=0 значение α0(x) = M[X0] = M [1] = 1; при k=1 — α1(x) = M[X1] = M [Х] = mx – математическое ожидание; при k=2 — α2(x) = M[X2].

Центрированной случайной величиной Х° называется случайная величина, математическое ожидание которой находится в начале координат (в центре числовой оси), т.е. M[X°] = 0. Операция центрирования (переход от нецентрированной величины Х к центрированной X°) имеет вид X° =X − mX .

Центральный момент порядка k случайной величины X есть математическое ожидание k-й степени центрированной случайной величины X:

(1.3)

При k=0 значение 0(x)=M [X°0]=M [1]=1; при k=1 — 1(x)=M [X°1]=M [Х°] = 0; при k=2 — 2 (x)=M[X°2]= M [(X - mx)2]=M[X 2] - 2mx M [X ]+ mx2= α2 - mx2=Dx - дисперсия.

Дисперсия случайной величины характеризует степень рассеивания (разброса) значений случайной величины относительно ее математического ожидания и определяется по формулам:

(1.4)

Дисперсия выборки или выборочная дисперсия оценивается по (слегка измененной) формуле:

, где m*- среднее значение выборки.

Дисперсия случайной величины имеет размерность квадрата случайной величины, поэтому для анализа диапазона значений величины Х дисперсия не совсем удобна. Этого недостатка лишено среднее квадратическое отклонение (СКО), размерность которого совпадает с размерностью случайной величины. Выборочным средним квадратичным отклонением (стандартом) называют квадратный корень из выборочной дисперсии:

(1.5)

Мода случайной величины равна ее наиболее вероятному значению, т.е. то значение, для которого вероятность pi (для дискретной случайной величины) или f(x) (для непрерывных случайной величины) достигает максимума: f (Mo) = max, p(X = Mo) = max.

Медиана случайной величины X равна такому ее значению, для которого выполняется условие p { X < Me } = p { X  Me }. Медиана, как правило, существует только для непрерывных случайных величин. Значение Me может быть определено как решение одного из следующих уравнений:

(1.6)

В точке Me площадь, ограниченная кривой распределения делится пополам.Медиана вычисляется следующим образом. Изучаемая выборка упорядочивается в порядке возрастания (N - объем выборки). Получаемая последовательность ak, где k=1,..., N называется вариационным рядом или порядковыми статистиками.

Если число наблюдений N нечетно, то медиана оценивается как m = aN+1/2

Если число наблюдений N четно, то медиана оценивается как m = ( aN/2 + aN/2+1 ) / 2

Квантиль хp случайной величины X - это такое ее значение, для которого выполняется условие

p { X < xp } = F(xp)= p. (1.7)

(1.7)

Очевидно, что медиана – это квантиль x0,5.

Свойства точечных оценок

Статистической оценкой Qˆ неизвестного параметра Q теоретического распределения называется приближенное значение параметра, вычисленное по результатам эксперимента (по выборке). Статистические оценки делятся на точечные и интервальные. Точечной называется оценка, определяемая одним числом. Точечная оценка Qˆ параметра Q случайной величины X в общем случае равна

Qˆ= (x1, x2, …, xn), где xi – значения выборки.

(1.8)

Очевидно, что оценка Qˆ – это случайная величина, так как она является функцией от n-мерной случайной величины (Х1, ..., Хn), где Хi, – значение величины Х в i-м опыте, и значения будут изменяться от выборки к выборке случайным образом. Чтобы точечная оценка была наилучшей с точки зрения точности, необходимо, чтобы она была состоятельной, несмещенной и эффективной.

Оценка Qˆ называется состоятельной, если при увеличении объема выборки n она сходится по вероятности к значению параметра Q:

(1.9)

Состоятельность – это минимальное требование к оценкам.

Оценка Qˆ называется несмещенной, если ее математическое ожидание точно равно параметру Q для любого объема выборки:

/data/files/d1662869567.jpg (180x31) (1.10)

Несмещенная оценка Qˆ является эффективной, если ее дисперсия минимальна по отношению к дисперсии любой другой оценки этого параметра:

(1.11)

Первые два требования к оценке являются обязательными, выполнение последнего требования – желательно.

Точечная оценка математического ожидания. На основании теоремы Чебышева в качестве состоятельной оценки математического ожидания может быть использовано среднее арифметическое значений выборки , называемое выборочным средним:

/data/files/t1662870098.png (206x56) (1.12)

Определим числовые характеристики оценки .

т.е. оценка несмещенная.

/data/files/j1662870187.png (416x54) (1.13)

Оценка (1.12) является эффективной, т.е. ее дисперсия минимальна, если величина X распределена по нормальному закону.

Состоятельная оценка начального момента k-го порядка определяется по формуле

/data/files/r1662870274.png (248x49) (1.14)

Точечная оценка дисперсии. В качестве состоятельной оценки дисперсии может быть использовано среднее арифметическое квадратов отклонений значений выборки от выборочного среднего:

/data/files/r1662870344.png (403x46) (1.15)

Определим математическое ожидание оценки S2. Так как дисперсия не зависит от того, где выбрать начало координат, выберем его в точке mX, т.е. перейдем к центрированным величинам:

Ковариация Kij =0, так как опыты, а, следовательно, и Хi − значение величины Х в i‑м опыте − независимы. Таким образом, величина является смещенной оценкой дисперсии, а несмещенная состоятельная оценка дисперсии равна:

/data/files/d1662870407.png (454x51) (1.16)

Дисперсия величины S02 равна:

/data/files/q1662870463.png (340x42) (1.17)

Для нормального закона распределения величины X формула (1.17) примет вид

/data/files/h1662870514.png (337x47) (1.18)

Для равномерного закона распределения –

/data/files/r1662870634.png (346x50)

(1.19)

Состоятельная несмещенная оценка среднеквадратического отклонения определяется по формуле: (1.20)

/data/files/e1662870724.png (285x32) (1.20)

Состоятельная оценка центрального момента k-го порядка равна:

/data/files/v1662870816.png (341x46) (1.21)

Точечная оценка вероятности. На основании теоремы Бернулли несмещенная состоятельная и эффективная оценка вероятности случайного события A в схеме независимых опытов равна частоте этого события:

p * (A) = m / n,

(1.22)

где m - число опытов, в которых произошло событие A; n - число проведенных опытов. Числовые характеристики оценки вероятности p*(A) = p* равны:

/data/files/n1662870925.png (379x51) (1.23)

Среднее арифметическое х, выборочная дисперсия Дх, частость р – это точечные статистические оценки соответственно математического ожидания (генерального среднего) МХ, дисперсии (генеральной дисперсии) ДХ, истиной (генеральной) вероятности р. Чтобы не заблудиться в этом многообразии, удобно пользоваться таблицей 1, представленной ниже [3].

Методы построения точечных оценок

Выше мы рассматривали точечные оценки основных генеральных характеристик: математического ожидания, дисперсии, вероятности и др. Однако осталось неясным, каким образом получены эти оценки. В математической статистике разработано большое число методов оценивания неизвестных параметров по данным случайной выборки, из которых наиболее часто используются:

метод моментов1;

метод максимального правдоподобия2;

метод наименьших квадратов;

графический метод (или метод номограмм).

Рассмотрим первые два из них.

Метод моментов. Пусть имеется выборка {x1, ..., xn} независимых значений случайной величины с известным законом распределения f(x, Q1 , ..., Qm) и m неизвестными параметрами Q1, ..., Qm. Необходимо вычислить оценки Qˆ1, ..., Qˆm параметров Q1, ..., Qm. Последовательность вычислений следующая:

Вычислить значения m начальных и/или центральных теоретических моментов

/data/files/v1662871142.png (438x37) (1.24)

Определить m соответствующих выборочных начальных αkˆ(x) и/или центральных µkˆ(x) моментов по формулам (1.14, 1.21).

Составить и решить относительно неизвестных параметров Q1, ..., Qm систему из m уравнений, в которых теоретические моменты приравниваются к выборочным моментам. Каждое уравнение имеет вид αk(x) =αkˆ(x) или µ k(x) = µ kˆ(x). Найденные корни являются оценками Q1ˆ, ..., Qmˆ неизвестных параметров.

Замечание. Часть уравнений может содержать начальные моменты, а оставшаяся часть - центральные.

Метод максимального правдоподобия. Согласно данному методу оценки Qˆ1, ..., Qˆm получаются из условия максимума по параметрам Q1, ..., Qm положительной функции правдоподобия L ( x1, ..., xn, Q1, ..., Qm). Если случайная величина X непрерывна, а значения xi независимы, то функция правдоподобия равна

Если случайная величина X дискретна и принимает независимые значения xi с вероятностями p (X=xi) = pi ( xi, Q1, ..., Qm), то функция правдоподобия равна

Система уравнений согласно этому методу может записываться в двух видах:

/data/files/w1662871208.png (462x59) (1.25)

или

	/data/files/o1662871262.png (466x56) (1.26)

Найденные корни выбранной системы уравнений являются оценками Q1ˆ, ..., Qmˆ неизвестных параметров Q1, ..., Qm.

Как правило оценка максимального правдоподобия эффективнее оценки, полученной методом моментов, и более того, если существует несмещенная эффективная оценка параметра, то она будет получена методом максимального правдоподобия.

Глава 2. Практическая часть

Примеры вычисления точечных оценок

Пример 1. Найдем оценку для вероятности P наступления события A по данному числу m появления этого события в n испытаниях.

Решение. Воспользуемся методом максимального правдоподобия: в этом случае функция правдоподобия L равна L = Cnm P m (1-P) n-m.

Тогда ln (L) = ln Cnm  + m ln (P) + (n-m) ln (1 - P).

Уравнение для определения оценки:

Значит, оценкой методом максимального правдоподобия вероятности наступления события будет его относительная частота w.

Пример 2. Случайная величина X (число появлений события А в t независимых испытаниях) подчинена биномиальному закону распределения с неизвестным параметром р. Ниже приведено эмпирическое распределение числа появлений события в 10 опытах по 5 испытаний в каждом (в первой строке указано число xi появлений события А в одном опыте; во второй строке указана частота ni — количество опытов, в которых наблюдалось столько появлений события А).

xi	0	1	2	3	4
ni	5	2	1	1	1

Найти методом моментов точечную оценку параметра р биномиального распределения. Оценить вероятность p0=P(X=0).

Решение. Математическое ожидание биномиального распределения известно: MX = m p. Приравняв математическое ожидание к выборочному среднему, получим уравнение: , откуда . Для рассматриваемого примера имеем:

	(05+12+21+31+41) / 10=1,1;
=	= 1,1/5=0,22;

Если распределение определяется двумя параметрами, то для построения их оценок два теоретических момента приравнивают двум соответствующим эмпирическим моментам тех же порядков (обычно первым двум).

Пример 3. Для изучения генеральной совокупности относительно некоторого количественного признака была извлечена выборка:

xi	48	49	50	52	54
ni	2	4	6	2	1

Найти несмещенные оценки генеральной средней и генеральной дисперсии.

Решение. Несмещенной оценкой генеральной средней является выборочная средняя:
.
Несмещенной оценкой генеральной дисперсии является исправленная выборочная дисперсия:

Ответ: 50; 2,57.

Пример 4. По выборке объема N=41 найдена смещенная оценка генеральной дисперсии DB=3. Найти несмещенную оценку дисперсии генеральной совокупности.

Решение. Смещенной оценкой генеральной дисперсии служит выборочная дисперсия

Несмещенной оценкой генеральной дисперсии является «исправленная дисперсия»

или

Таким образом, мы получаем искомую несмещенную оценку дисперсии генеральной совокупности:

Пример 5. Для анализа лингвистических терминологических систем взято 7 фрагментов по 250 терминоупотреблений из русских лингвистических текстов. После подсчёта в каждом фрагменте числа употреблений слова «лицо» получен следующий вариационный ряд: 1,1,3,4,9,10,12.

1) Определите по выборке несмещённую и состоятельную оценку математического ожидания М(Х) и дисперсии D(X) случайной величины Х - «число употреблений слова «лицо» в русских лингвистических текстах.

2) Найдите несмещённую, состоятельную и эффективную оценку вероятности события А= «слово лицо использовано более 5 раз».

Решение

1) Несмещённая и состоятельная оценка М(Х) есть среднее выборочное.

Несмещённая и состоятельная оценка D(X) есть исправленная выборочная дисперсия:

2) Несмещённой, состоятельной и эффективной оценкой вероятности события А= «слово лицо использовано более 5 раз» является частота этого события Р(А):

Пример 6. Выборка задана таблицей распределения

Найти выборочные характеристики: среднюю, дисперсию и среднее квадратическое отклонение.

Решение. Cначала находим в:

Затем по формулам находим две другие искомые величины:

Пример 7. Из 1500 деталей отобрано 250, распределение которых по размеру Х задано в таблице:

xi	7,8-8,0	8,0-8,2	8,2-8,4	8,4-8,6	8,6-8,8	8,8-9,0
ni	5	20	80	95	40	10

Найти точечные оценки для среднего и дисперсии, а также дисперсию оценки среднего при повторном и бесповторном отборах.

Решение. Вычислим по формулам (используем середины интервалов сi, число интервалов r=6, объем выборки n=250):

сi	7,9	8,1	8,3	8,5	8,7	8,9
ni	5	20	80	95	40	10	n=250

Вычислим дисперсию оценки среднего:

для повторной выборки:

для бесповторной выборки

Пример 8. Выборочно обследовали партию кирпича. Из 100 проб в 12 случаях кирпич оказался бракованным. Найти оценку доли бракованного кирпича и дисперсию этой оценки.

Решение. По условию задачи, число бракованных изделий m=12, объем выборки n=100, тогда оценкой доли бракованных является выборочная доля

Дисперсия этой оценки для повторной выборки равна

А среднее квадратическое отклонение этой оценки равно

Задачи подобраны таким образом, чтобы показать их разнообразную тематику и способы решений. Это и доказательство свойств точечной оценки, представление выборок разными способами и вычисление точечных оценок. Чтобы облегчить свою работу, можно воспользоваться таблицей 1 (см Приложение 1).

Заключение

Точечная оценка параметра – это оценка, которая характеризуется одним конкретным числом (например, математическим ожиданием, дисперсией, средним квадратичным отклонением и т.д.). Точечные оценки параметров генеральной совокупности могут быть приняты в качестве ориентировочных, первоначальных результатов обработки выборочных данных. Их основной недостаток заключается в том, что неизвестно, с какой точностью оценивается параметр. Если для выборок большого объема точность обычно бывает достаточной (при условии несмещенности, эффективности и состоятельности оценок), то для выборок небольшого объема вопрос точности становится очень важным. По этой причине при небольшом объеме выборки следует пользоваться интервальными оценками.

Решение задач математической статистики обусловливает существенный объем вычислений. Во избежание ошибок, можно воспользоваться инженерным калькулятором или выполнить вычисления с помощью офисного пакета MS Excel, в котором есть различные статистические функции и надстройки, в том числе и возможность решить задачи по теме «Анализ данных»

Список литературы

Гмурман, В. Е. Теория вероятностей и математическая статистика: учебник для прикладного бакалавриата / В. Е. Гмурман. — 12-е изд. — Москва: Издательство Юрайт, 2019. — 479 с. — (Бакалавр. Прикладной курс). — Текст: электронный // ЭБС Юрайт [сайт]. — URL: https://biblio-online.ru/bcode/431095.
Гмурман, В. Е. Руководство к решению задач по теории вероятностей и математической статистике: учебное пособие для бакалавриата и специалитета / В. Е. Гмурман. — 11-е изд., перераб. и доп. — Москва: Издательство Юрайт, 2019. — 406 с. — (Бакалавр и специалист). — Текст: электронный // ЭБС Юрайт [сайт]. — URL: https://biblio-online.ru/bcode/431094.
Малугин, В. А. Теория вероятностей и математическая статистика: учебник и практикум для вузов / В. А. Малугин. — Москва: Издательство Юрайт, 2022. — 470 с. — (Высшее образование). — Текст: электронный // ЭБС Юрайт [сайт]. — URL: https://urait.ru/viewer/teoriya-veroyatnostey-i-matematicheskaya-statistika-493318
Малугин, В. А. Математическая статистика: учебное пособие для бакалавриата и магистратуры / В. А. Малугин. — Москва: Издательство Юрайт, 2019. — 218 с. — (Бакалавр и магистр. Академический курс). — Текст: электронный // ЭБС Юрайт [сайт]. — URL: https://biblio-online.ru/bcode/441413.
Энатская, Н. Ю. Математическая статистика и случайные процессы: учебное пособие для вузов / Н. Ю. Энатская. — Москва: Издательство Юрайт, 2022. — 201 с. — (Высшее образование). — Текст: электронный // ЭБС Юрайт [сайт]. — URL: https://urait.ru/viewer/matematicheskaya-statistika-i-sluchaynye-processy-490096

Приложение 1

Таблица 1. Точечные оценки случайных величин