Байесовский анализ

Основы байесовского анализа в физике элементарных частиц

Байесовский подход к вероятности

В классической (частотной) интерпретации вероятность события определяется как предел частоты его появления при бесконечном числе повторений эксперимента. В отличие от этого, байесовская вероятность отражает степень уверенности в истинности гипотезы с учетом имеющихся данных. Это делает байесовский анализ особенно привлекательным в условиях ограниченной статистики, типичных для физики элементарных частиц, где каждый эксперимент стоит дорого, а события редки.

Основу байесовского вывода составляет формула Байеса:

$$ P(\theta|D) = \frac{P(D|\theta) \cdot P(\theta)}{P(D)} $$

где:

  • θ — параметры модели (гипотеза),
  • D — наблюдаемые данные,
  • P(θ|D) — апостериорное распределение вероятности параметров после учета данных,
  • P(D|θ) — функция правдоподобия (likelihood),
  • P(θ) — априорное распределение параметров,
  • P(D) — нормировочная константа (полное правдоподобие), интеграл по всему параметрическому пространству.

P(D) = ∫P(D|θ) ⋅ P(θ) dθ

Априорная информация

Одним из ключевых моментов байесовского анализа является задание априорного распределения P(θ). Оно отражает знания или допущения о параметрах до проведения эксперимента. Возможны следующие варианты:

  • Невмешивающийся (flat) априор — используется при отсутствии предварительной информации.
  • Информативный априор — когда уже имеются независимые измерения или теоретические ограничения.
  • Жесткий априор — допустим только в рамках заданных условий, например, θ ≥ 0 для положительно определённых величин.

При неправильном выборе априора результаты могут быть искажены, особенно при малой статистике. Однако при больших объемах данных влияние априора ослабевает — апостериорное распределение доминируется функцией правдоподобия.

Апостериорное распределение и вывод параметров

Апостериорное распределение содержит всю доступную информацию о параметрах модели после учета наблюдаемых данных. Из него можно извлекать:

  • Точечные оценки: мода (maximum a posteriori, MAP), среднее или медиана.
  • Интервальные оценки: доверительные (credible) интервалы с заданной вероятностью (обычно 68%, 95%).

В байесовском подходе доверительный интервал определяется как диапазон значений, в котором содержится заданная доля апостериорного распределения. В отличие от частотных доверительных интервалов, они имеют прямую интерпретацию: например, 95% вероятность того, что истинное значение параметра лежит в этом интервале.

Сравнение моделей и вычисление доказательств

Байесовский формализм предоставляет естественный способ сравнения моделей с разным числом параметров и различной структурой. Для этого вычисляется байесовский фактор:

$$ B_{12} = \frac{P(D|M_1)}{P(D|M_2)} $$

где P(D|Mi) — это доказательство (evidence) или маргинализованное правдоподобие, вычисляемое как:

P(D|M) = ∫P(D|θ, M) ⋅ P(θ|M) dθ

Байесовский фактор сравнивает, насколько одна модель лучше объясняет данные по сравнению с другой, с учетом априорных знаний. Это позволяет решать задачи, связанные с гипотезами о существовании новых частиц, фоновыми процессами, выбором формы сигнала и т.д.

Регуляризация и комплексность моделей

Байесовский анализ автоматически учитывает принцип Оккама: более сложные модели с большим числом параметров получают меньшую априорную вероятность, если данные не требуют такой сложности. Это снижает риск переобучения (overfitting), что особенно важно при малом числе наблюдаемых событий.

Байесовская реконструкция и unfolding

В задачах восстановления истинных распределений (например, энергии, массы, угла вылета частиц) по искажённым данным, полученным с учетом отклика детектора, байесовские методы позволяют вводить априорные ограничения на гладкость, положительность и физическую интерпретируемость решения. Один из популярных подходов — итеративный байесовский анфолдинг (D’Agostini method), в котором используется формула Байеса для поэтапной коррекции распределения.

Обработка нулевой статистики и пределы

В условиях, когда наблюдаемые данные не содержат событий, соответствующих сигналу, байесовский подход позволяет корректно вычислять пределы на параметры (например, сечение процесса, массу частицы и т.д.) без необходимости искусственного регуляризующего вмешательства. При этом результат зависит от выбора априорного распределения. Пример: при использовании плоского априора по σ ≥ 0, можно получить верхний предел на сечение с заданной вероятностью.

Иерархические модели

В случаях, когда данные представляют собой комбинацию наблюдений из разных источников или подэкспериментов (например, разные детекторные каналы или периоды сбора данных), байесовский подход позволяет строить иерархические модели, в которых априорные распределения параметров одного уровня зависят от гиперпараметров более высокого уровня. Это позволяет:

  • учитывать систематические неопределенности в единых рамках,
  • объединять разные источники информации,
  • выполнять корректное слияние данных с учетом различий в чувствительности.

Маркoвские цепи Монте-Карло (MCMC)

Для вычисления апостериорных распределений при большом числе параметров аналитический подход становится невозможным. В таких случаях применяются численные методы, в первую очередь маркoвские цепи Монте-Карло (MCMC), которые позволяют генерировать выборку из апостериорного распределения. Наиболее распространённые алгоритмы:

  • Метрополис-Гастингс (Metropolis-Hastings),
  • Gibbs sampling,
  • Hamiltonian Monte Carlo (HMC) — используется, например, в пакете Stan.

Эти методы позволяют строить предельные распределения, определять корреляции между параметрами, проводить маргинализацию по неинтересующим параметрам и оценивать сложные многомерные интегралы.

Систематические неопределенности в байесовском анализе

Байесовский подход предоставляет единый механизм для учета систематических неопределенностей через расширение пространства параметров: параметры, описывающие систематику (например, нормировки, калибровки, фоновая модель) включаются как нуисанс-параметры с соответствующими априорными распределениями. После вычисления апостериора они могут быть:

  • маргинализованы (интегрированы),
  • или зафиксированы при расчётах для получения более специфичных результатов.

Такой подход позволяет избежать неконсистентного обращения с систематикой, как это часто бывает в частотных методах (например, при сдвигах в «±1σ»).

Применения в физике высоких энергий

Байесовский анализ успешно применяется в задачах:

  • поиска новых частиц (например, в анализах ATLAS и CMS по новым бозонам),
  • оценки параметров стандартной модели и их отклонений,
  • определения массы нейтрино,
  • измерения редких распадов (например, Bs → μ+μ),
  • глобальных подгонок (global fits) с множеством наблюдаемых,
  • оценки и объединения результатов из разных каналов и экспериментов.

Во многих случаях байесовские методы превосходят частотные по стабильности, интерпретируемости и способности включать внешнюю информацию.

Преимущества и вызовы байесовского подхода

Преимущества:

  • Интеграция априорных знаний,
  • Естественное обращение с нулевой статистикой,
  • Корректное обращение с систематикой,
  • Мощный инструментарий для вывода и слияния данных,
  • Универсальность при моделировании сложных структур.

Вызовы:

  • Зависимость от априорных предпосылок,
  • Большие вычислительные затраты (особенно при MCMC),
  • Трудности в оценке нормирующих констант (доказательств),
  • Ограниченная интерпретируемость в случаях высокой размерности априоров.

Байесовский подход занимает всё более значимое место в современной физике элементарных частиц, формируя основу для статистической обработки данных в условиях высокой сложности и ограниченной статистики.