pi, а соответствующий набор предикторных переменных – . Предполагается, что логарифм шансов с оцениваемой вероятностью определяется линейной регрессией:
Допустим, что одна из предикторных переменных, например x1, является двоичной, где x1 = 0 соответствует отсутствию воздействия потенциального риска, а x1 = 1 соответствует воздействию. Тогда коэффициент b1 – это log(отношение шансов);
ложноположительный: неверная классификация «отрицательного» случая как «положительного»;
математическое ожидание (среднее): среднее значение случайной величины (взвешенное по вероятностям или по плотности). Для дискретной случайной величины это ∑xp(x), а для непрерывной случайной величины это ∫xp(x)dx. Например, если случайная величина X – это число очков, выпавших на симметричной игральной кости, то есть P(X = x) = 1/6 для x = 1,2,3,4,5,6, то ;
матрица ошибок: таблица, где собраны верные и неверные классификации, произведенные каким-либо алгоритмом;
машинное обучение: процедуры извлечения алгоритмов (например, для классификации, прогнозирования или кластеризации) из сложных данных;
медиана (выборки): значение, которое окажется посередине, если упорядочить числа в выборке. Более строго: упорядочив числа в выборке, обозначим наименьшее число x(1), второе по величине x(2) и так далее (получившийся набор x(1),x(2),…,x(n) называют вариационным рядом). Если n – нечетное число, то медиана – число, находящееся точно посередине вариационного ряда, то есть число . Если же n – четное число, то медианой обычно считают полусумму двух средних чисел;
метаанализ: формальный статистический метод объединения результатов нескольких исследований;
метод наименьших квадратов: предположим, что у нас есть n пар чисел (x1,y1),(x2,y2), ,sx – выборочное среднее и среднеквадратичное отклонение для чисел x и sy – выборочное среднее и среднеквадратичное отклонение для чисел y. Тогда прямая регрессии, вычисленная по методу наименьших квадратов, определяется уравнением
где
– прогнозируемое значение зависимой переменной для определенного значения независимой переменной x;
коэффициент наклона ;
отсекаемый отрезок . Прямая по методу наименьших квадратов проходит через центр тяжести ;
i-й остаток – разность между i-м наблюдением и его предсказанным значением ;
скорректированное значение i-го наблюдения – это сумма остатка и отсекаемого отрезка, то есть . Это значение мы наблюдали бы в «среднем» случае, если бы имели а не x = xi;
остаточная сумма квадратов – это сумма квадратов всех остатков, то есть . Прямая, построенная по методу наименьших квадратов, определяется как прямая, минимизирующая сумму квадратов разностей;
коэффициент наклона b1 и коэффициент корреляция Пирсона r связаны формулой b1 = rsy / sx. Поэтому в случае, когда стандартные отклонения для x и y одинаковы, коэффициент угла наклона в точности равен коэффициенту корреляции;
множественная линейная регрессия: предположим, что для каждого отклика yi есть набор из p предикторных переменных (xi1,xi2,…,xip). Тогда множественная линейная регрессия по методу наименьших квадратов определяется уравнением
где коэффициенты b0,b1,…,bp выбираются так, чтобы минимизировать сумму остатков . Отсекаемый отрезок b0 – это просто среднее , а формулы остальных коэффициентов сложны, но легко вычисляются. Обратите внимание, что является спрогнозированным значением наблюдения y, если предикторные переменные были средними , и, как в случае линейной регрессии, скорректированные определяются суммой остатка и отсекаемого отрезка, или ;
многоуровневая регрессия и постстратификация (MRP): современный способ создания выборки, при котором из многих областей берутся достаточно небольшие количества респондентов с похожими характеристиками. Затем строится регрессионная модель для откликов в соответствии с демографическими факторами, что допускает дополнительный разброс между областями. Знание демографии для всех областей позволяет делать прогнозы на местном и национальном уровне с соответствующей неопределенностью;
множественная проверка гипотез: выполнение сразу нескольких проверок, что увеличивает вероятность получения хотя бы одного ложноположительного результата (ошибка первого рода);
мода (вероятностного распределения): для дискретного распределения – самое вероятное значение, для непрерывного – точка максимума плотности;
мода (выборки): значение, которое встречается в выборке чаще всего;
мощность критерия: вероятность правильного отклонения нулевой гипотезы при условии справедливости альтернативной гипотезы. Равна 1 – β, где β – вероятность ошибки второго рода для статистического критерия;
мудрость толпы: идея, согласно которой характеристика, определяемая групповым мнением, ближе к истине, чем предположения большинства отдельных людей;
наука о данных: изучение и применение методов получения информации из данных, включая построение алгоритмов для прогнозов. Традиционная статистика – часть науки о данных, в которую также входят кодирование и управление данными;
независимая (предикторная) переменная: переменная, которая фиксируется посредством проекта или наблюдения, чья связь с зависимой переменной может представлять интерес;
независимые события: события A и B независимы, если наступление A не влияет на вероятность наступления B, то есть (B|A) = p(B), или, что эквивалентно, p(BA) = p(B)p(A)[280];
непрерывная случайная величина: случайная величина X, которая может (по крайней мере, в принципе) принимать любое значение в пределах определенного промежутка. Непрерывная величина имеет плотность вероятности[281] – такая функция ƒ, что , а ее математическое ожидание определяется формулой . Вероятность того, что X попадет в промежуток (A,B), равна ;
нормальное распределение: случайная величина имеет нормальное (гауссовское) распределение со средним μ и дисперсией σ2, если ее плотность имеет вид
Математическое ожидание E(X) = μ, дисперсия D(X) = σ2, среднеквадратичное отклонение SD(X) = σ.
Стандартизованная случайная величина имеет среднее 0 и дисперсию 1, и тогда говорят, что у нее стандартное нормальное распределение. Функцию распределения для стандартной нормальной величины Z обозначают Φ. Например, Φ(–1) = 0,16 – это вероятность того, что стандартная гауссовская случайная величина не превосходит –1, или (что эквивалентно) вероятность того, что произвольная гауссовская случайная величина с параметрами μ и σ принимает значение, которое меньше μ−σ·100p%.% процентиль для стандартного нормального распределения – такое число zp, что P(Z≤zp) = p. Как значения функции Φ, так и величины zp можно найти в таблицах или в стандартных программах: например, 75-й процентиль для стандартного нормального распределения равен z0,75 = 0,67;
нулевая гипотеза: принимаемое по умолчанию теоретическое предположение, как правило, означающее отсутствие эффекта или результата, проверяемое с помощью P-значения. Обычно обозначается H0;
обратная причинная зависимость: когда связь между двумя переменными изначально кажется причинно-следственной, а на деле причинно-следственные отношения оказываются обратными. Например, у людей, которые не употребляют алкоголь, показатели здоровья хуже, чем у умеренно пьющих, однако как минимум частично это объясняется тем, что некоторые ныне непьющие бросили пить из-за ухудшения здоровья;
обучение без учителя: определение классов на основании случаев без подтвержденного состава с использованием какой-либо формы процедуры кластеризации;
обучение с учителем: построение алгоритма классификации на основании случаев с подтвержденным составом классов;
объективное априорное распределение: попытка устранить субъективный компонент в байесовском анализе, заранее определив априорные распределения, которые должны отражать наше незнание параметров, а данные должны говорить за себя. Нет никакой общей процедуры для определения таких априорных распределений;
односторонние и двусторонние P-значения: значения, соответствующие односторонним и двусторонним критериям;
односторонние и двусторонние критерии: односторонний критерий для проверки гипотезы используется тогда, когда нулевая гипотеза, например, указывает, что эффект медицинского вмешательства отрицателен. Эта гипотеза отвергается только в случае, если наблюдаются большие положительные значения тестовой статистики, выражающие оценку эффекта вмешательства. Двусторонний критерий уместен, когда нулевая гипотеза говорит, что эффект медицинского вмешательства равен в точности нулю. Тогда к отказу от такой гипотезы ведут и большие положительные, и большие отрицательные значения тестовой статистики;