Информационная геометрия представляет собой область математики и физики, изучающую структуру пространства вероятностных моделей с использованием методов дифференциальной геометрии. Она позволяет рассматривать семейства вероятностных распределений как многообразия с собственной геометрией, в которой расстояния и кривизна отражают различия между распределениями и степень их информационной близости.
Ключевым объектом информационной геометрии является статистическое многообразие — гладкое многообразие, точки которого соответствуют параметризованным распределениям вероятностей. Для каждого такого многообразия можно ввести метрику, порождаемую информационными свойствами системы.
Определение: Пусть задано семейство распределений вероятностей {p(x|θ)}, параметризованное вектором параметров θ = (θ1, …, θn). Статистическое многообразие ℳ — это множество всех таких распределений, где каждый вектор параметров θ соответствует точке на многообразии.
Каждое распределение на многообразии можно рассматривать как точку в пространстве вероятностей, а различие между распределениями — как геометрическую структуру.
Пример: Семейство нормальных распределений с параметрами (μ, σ) образует двухмерное статистическое многообразие, где μ — среднее, а σ > 0 — стандартное отклонение.
Для анализа структур на статистическом многообразии используется метрика Фишера.
Определение: Элемент длины на многообразии задается как
ds2 = gij(θ) dθidθj,
где
— это матрица Фишера, а ????[⋅] обозначает математическое ожидание по распределению p(x|θ).
Ключевые моменты:
Пример: Для одномерного нормального распределения
Информационное многообразие имеет кривизну, которая отражает структурные особенности семейства распределений. Кривизна может использоваться для:
Пример: Для двух параметров (μ, σ) кривизна Риччи и скалярная кривизна дают количественную меру того, насколько сильно распределение меняется при небольших изменениях параметров.
В информационной геометрии широко используются информационные меры различия. Основные из них:
KL-дивергенция несимметрична, но в локальном приближении приводит к метрике Фишера.
Дивергенция Дженсена–Шеннона: симметризованная версия KL, применяемая для сравнения вероятностных распределений.
Ренyi-дивергенция: обобщает KL и позволяет учитывать влияние редких событий на информационное расстояние.
Эти меры обеспечивают способ количественно оценить различие между распределениями, что важно при статистическом выводе и обработке данных.
Эффективные оценки параметров статистической модели можно рассматривать как геометрические проекции на статистическое многообразие. Если θ̂ — оценка параметров на основании выборки X, то геометрически она является точкой на многообразии, минимизирующей определённое информационное расстояние до истинного распределения.
Теорема Крамера–Рао: нижняя граница дисперсии несмещённой оценки θ̂ определяется обратной матрицей Фишера:
Cov(θ̂) ≥ g−1(θ),
где Cov(θ̂) — ковариационная матрица оценки. Геометрически это ограничение показывает, насколько “узким” может быть локальный участок многообразия в окрестности истинного параметра.
В сложных физических системах, где наблюдаемые величины описываются вероятностными процессами, информационная геометрия позволяет:
Пример: В термодинамических системах флуктуаций, описываемых распределениями Гиббса, информационная геометрия позволяет точно описать вероятностные траектории и локальные оптимизации энтропии.