Искусство статистики. Как находить ответы в данных — Дэвид Шпигельхалтер

возмущающий (искажающий) фактор: переменная, которая связана и с предикторной переменной, и с переменной отклика и может объяснить часть их видимой взаимосвязи. Например, рост и вес детей сильно коррелированы, но в основном эта взаимосвязь объясняется возрастом ребенка;

воронкообразный график: график, где наблюдениям, соответствующим отдельным элементам (учреждения, области или исследования), сопоставляется мера их точности. Часто две «воронки» указывают на то, где можно ожидать месторасположения 95 % и 99,8 % наблюдений, когда между элементами в действительности нет разницы. Если распределение наблюдений приближенно нормальное, то граничные значения для 95 % и 99,8 % примерно соответствуют ±2 и ±3 стандартным ошибкам;

выборочное среднее: см. среднее 2.

генеральная совокупность (популяция): группа, из которой, как предполагается, берутся данные в выборке и которая дает вероятностное распределение для отдельного наблюдения. При проведении измерений или наличии у вас всех возможных данных это понятие становится математической идеализацией;

глубокое обучение: метод машинного обучения, который расширяет стандартные модели искусственных нейронных сетей на множество слоев, представляющих различные уровни абстракции, например переход от отдельных пикселей изображения к распознанию объектов;

гипергеометрическое распределение: пусть имеется конечное множество из N элементов, K из которых обладают некоторым свойством. Мы выбираем n элементов без возвращения. Тогда случайная величина Y – число успехов (выбранных элементов с этим свойством) имеет гипергеометрическое распределение. Формально для k = 0,1,…,n

грамотность в работе с данными: умение понимать принципы, лежащие в основе работы с данными, выполнять базовые анализы данных, критически анализировать качества утверждений, сделанных на основе данных;

дерево классификации: форма алгоритма классификации, при котором характеристики проверяются последовательно; ответ на очередной вопрос определяет, какая характеристика проверяется следующей; процедура повторяется до итоговой классификации;

дилемма смещения – дисперсии: когда для прогноза используется обучение модели, повышение ее сложности в итоге приводит к тому, что у модели уменьшается смещение (в том смысле, что у нее возрастает потенциал для адаптации к деталям базового процесса), но увеличивается дисперсия, поскольку данных для уверенности в параметрах модели оказывается недостаточно. Чтобы избежать переобучения, нужен компромисс;

дисперсия выборочная: если имеется выборка x₁,x₂,…,x_n со средним , то выборочная дисперсия (хотя знаменатель может быть равен n, а не n−1)[279];

дисперсия: характеристика разброса случайной величины; если случайная величина X имеет математическое ожидание E(X) = μ, то дисперсия D(X) = E(X−μ)² Среднеквадратичное (стандартное) отклонение является корнем из дисперсии, так что ;

доверительный интервал: оцениваемый интервал, в котором может находиться неизвестный параметр. Например, при наличии наблюдаемого множества данных x 95-процентный доверительный интервал для среднего μ – это такой интервал от L(x) до U(x), когда до наблюдения данных вероятность того, что случайный интервал (L(x),U(x)) содержит μ, составляет 95 %. Если соединить центральную предельную теорему с тем фактом, что примерно 95 % нормального распределения отклоняется от среднего не более чем на 2 стандартных отклонения, мы получим популярное приближение, что 95-процентный доверительный интервал – это оценка в ±2 стандартные ошибки. Предположим, что мы хотим найти доверительный интервал для разности μ₂−μ₁ между двумя параметрами μ₂ и μ₁. Если T₁ – это оценка для μ₁ со стандартной ошибкой SE₂, а T₂ – это оценка для μ₂ со стандартной ошибкой SE₂, то T₂−T₁ представляет собой оценку для μ₂−μ₁. Дисперсия разности между оценками равна сумме их дисперсий, и поэтому стандартная ошибка для T₂−T₁ определяется формулой . Отсюда можно найти 95-процентный доверительный интервал для разности μ₂−μ₁;

зависимая переменная (переменная отклика): переменная, которая представляет основной интерес, которую мы желаем спрогнозировать или объяснить;

зависимые события: когда вероятность одного события зависит от наступления другого;

закон больших чисел: общее название нескольких теорем о сходимости средних для последовательности случайных величин к истинному математическому ожиданию. На практике это означает, что выборочное среднее близко к среднему значению всей генеральной совокупности;

иерархическое моделирование: в байесовском анализе – когда параметры, определяющие число элементов (например, районов или школ), сами считаются взятыми из общего априорного распределения. Это приводит к уменьшению оценок параметров для отдельных элементов в сторону общего среднего;

индуктивное поведение: сделанное в 1930-х годах предложение Ежи Неймана и Эгона Пирсона по проверке гипотез в терминах принятия решений. От него остались идеи размера и мощности критерия, а также ошибок первого и второго рода;

индукция (индуктивное умозаключение): построение обобщающего вывода на основании частных примеров;

интерквартильный размах: мера разброса выборки или распределения; конкретно – разность между третьим и первым квартилем, то есть между 75-м и 25-м процентилем;

искусственный интеллект (ИИ): компьютерные программы, предназначенные для выполнения задачи, обычно связываемой с человеческими способностями;

исследование «случай – контроль»: ретроспективное исследование, в котором люди с заболеванием или с интересующей нас характеристикой (случаи) сопоставляются с одним или несколькими людьми, не имеющими заболевания (контрольные экземпляры), и сравниваются истории этих групп – чтобы увидеть, дают ли воздействия систематическую разницу между группами. Такая схема может оценивать только относительные риски, связанные с воздействиями;

калибровка: требование, чтобы наблюдаемые частоты событий соответствовали вероятностным прогнозам. Например, если вероятность какого-нибудь события 0,7, то оно должно происходить примерно в 70 % случаев;

качественная (категорийная) переменная: переменная, принимающая два или несколько дискретных значений, которые могут или не могут быть упорядоченными;

квартиль (генеральной совокупности): 25-й, 50-й и 75-й процентили;

комбинированные признаки: когда несколько объясняющих переменных соединяются и производят эффект, отличный от ожидаемого при их отдельном воздействии;

конструирование признаков: в машинном обучении процесс уменьшения размерности входных переменных с созданием сводных характеристик, которые содержат информацию о данных в целом;

контрольная группа: множество людей, которые не подпадали под интересующее нас воздействие;

контрольные граничные значения: заранее определенные ограничения для случайной величины, используемые при контроле качества для отслеживания отклонений от предполагаемых стандартов; например, могут отображаться на воронкообразном графике;

контрфактуальный: относящийся к сценариям вида «что, если», где рассматривается альтернативная история событий;

коэффициент регрессии: оцениваемый параметр в статистической модели, который выражает степень взаимосвязи между объясняющей переменной и результатом во множественной регрессии. Этот коэффициент будет иметь различную интерпретацию в зависимости от того, является ли результирующая переменная непрерывной (множественная линейная регрессия), долей (логистическая регрессия), целым числом (пуассоновская регрессия) или временем выживания (регрессия Кокса);

кризис воспроизводимости: утверждение, что многие опубликованные научные выводы основаны на недостаточно качественных работах, поэтому такие результаты не могут воспроизвести другие исследователи;

критерий независимости хи-квадрат/критерий согласия хи-квадрат: статистический критерий, показывающий степень несовместимости данных с принятой статистической моделью, заключающей нулевую гипотезу (например, величины независимы или имеют определенное распределение). А именно: критерий сравнивает множества каких-то наблюдаемых величин x₁,…,x_m и ожидаемых при нулевой гипотезе величин y₁,…,y_m. Простейший вариант критерия –

При нулевой гипотезе значение χ² приближенно будет иметь известное χ²-распределение. Это позволяет вычислить соответствующее P-значение;

логарифмическая шкала: логарифм по основанию 10 для положительного числа x обозначается y = log₁₀x, что эквивалентно x = 10^y. В статистическом анализе log x обычно обозначает натуральный логарифм log_e x, что эквивалентно x = e^y, где e – основание натурального логарифма 2,71828…;

логистическая регрессия: форма множественной регрессии, когда переменная отклика – это доля, а коэффициенты соответствуют log(отношение шансов). Допустим, мы наблюдаем набор долей y_i = r_i/n_i в предположении, что у нас биномиальные величины с вероятностями

Предыдущая Стр. 51 из 56 Следующая

Оглавление