Корреляционный и регрессионный анализ

Корреляционный и регрессионный анализ в медицинской физике


В медицинской физике часто возникает необходимость исследовать, существуют ли статистически значимые взаимосвязи между физическими величинами и биологическими параметрами. Корреляционный анализ позволяет количественно оценить степень направленной связи между двумя или более признаками.

Наиболее распространённой мерой корреляции является коэффициент линейной корреляции Пирсона:

$$ r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \cdot \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}} $$

где xi и yi — значения двух переменных, и — их средние значения. Значение r находится в интервале от −1 до +1:

  • r ≈ 1 — сильная положительная линейная связь,
  • r ≈ −1 — сильная отрицательная линейная связь,
  • r ≈ 0 — отсутствует линейная зависимость.

Важно помнить, что наличие корреляции не означает причинно-следственную зависимость. В медицинских исследованиях это особенно критично: обнаружение связи, например, между дозой облучения и уровнем определённого биомаркера, требует последующей верификации причинности.


Метод ранговой корреляции Спирмена

Если переменные не удовлетворяют требованиям нормальности распределения или связь между ними не является линейной, применяется ранговый коэффициент корреляции Спирмена. Он основан на сравнении порядковых номеров (рангов) величин и вычисляется по формуле:

$$ r_s = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)} $$

где di — разность рангов, n — число наблюдений. Метод Спирмена широко применяется при анализе субъективных оценок, визуальных шкал, данных, полученных в малых выборках.


Оценка значимости корреляции

Для проверки статистической значимости найденного коэффициента корреляции применяется t-критерий:

$$ t = \frac{r \sqrt{n - 2}}{\sqrt{1 - r^2}} $$

где n — объём выборки. Полученное значение сравнивается с критическим значением t-распределения Стьюдента при заданном уровне значимости (обычно α = 0, 05) и n − 2 степенях свободы.


Регрессионный анализ: предсказание и моделирование

Регрессионный анализ позволяет не только выявить наличие связи между переменными, но и формализовать её в виде математической модели, пригодной для прогнозирования.

Линейная регрессия

При простой линейной регрессии предполагается наличие модели:

y = a + bx + ε

где:

  • y — зависимая переменная,
  • x — независимая переменная,
  • a — свободный член (интерсепт),
  • b — коэффициент наклона (градиент),
  • ε — случайная ошибка.

Коэффициенты a и b находятся методом наименьших квадратов:

$$ b = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2}, \quad a = \bar{y} - b\bar{x} $$

Модель оценивается по ряду критериев:

  • — коэффициент детерминации, отражает долю объяснённой дисперсии зависимой переменной.
  • F-критерий Фишера — для проверки общей значимости модели.
  • t-критерий — для оценки значимости каждого коэффициента.

Множественная регрессия

В медицинской физике часто необходимо учитывать влияние нескольких факторов. В этом случае используется множественная линейная регрессия:

y = a + b1x1 + b2x2 + … + bkxk + ε

Например, доза облучения может зависеть от расстояния до источника, времени воздействия, плотности среды и т.д.

Особое внимание при построении модели уделяется проверке:

  • мультиколлинеарности (взаимной зависимости между объясняющими переменными),
  • гетероскедастичности (неоднородности дисперсий остатков),
  • автокорреляции (временной зависимости остатков при временных рядах).

Нелинейная регрессия

Во многих медицинско-физических задачах наблюдаемая зависимость между переменными не является линейной. Например, дозиметрические кривые, зависимость биологического ответа от дозы (кривая «доза-эффект»), кривые накопления радиофармпрепаратов. В таких случаях применяется нелинейная регрессия, где модель априори задаётся как:

y = f(x; θ) + ε

где f — нелинейная функция (экспоненциальная, логарифмическая, логистическая и т.п.), θ — вектор параметров. Их нахождение осуществляется численными методами, например, с помощью градиентного спуска или методов Левенберга-Марквардта.


Практическое применение в медицинской физике

1. Дозиметрия

Корреляционный анализ применяется для оценки согласованности показаний различных дозиметров. Регрессионный — при моделировании распределения дозы в тканях в зависимости от геометрии поля и характеристик пучка.

2. Лучевая терапия

Построение регрессионных моделей позволяет прогнозировать эффект облучения на опухолевые и здоровые ткани, исходя из данных по дозе, фракционированию, биологическим параметрам.

3. Радиобиология

Корреляционные методы используются для оценки связи между молекулярными маркерами (уровень γ-H2AX, митотическая активность) и физическими параметрами облучения. Регрессионный анализ позволяет создавать предиктивные модели ответа на терапию.

4. Радиационная диагностика

В регрессионной форме описывается зависимость качества изображения от дозы, параметров сканирования (время экспозиции, ток трубки и т.д.). Оптимизация этих параметров основана на построении моделей, позволяющих балансировать диагностическую ценность и дозовую нагрузку.


Интерпретация остатков и проверка адекватности моделей

Анализ остатков (разностей между наблюдаемыми и предсказанными значениями) позволяет выявить недостатки модели:

  • Систематические тренды в графике остатков указывают на неполноту модели.
  • Нормальность распределения остатков проверяется с помощью критерия Шапиро–Уилка или анализа Q-Q графика.
  • Гомоскедастичность (постоянство дисперсии остатков) проверяется визуально или с помощью теста Бройша–Пагана.

Корреляционные матрицы и визуализация

При множественных переменных полезно строить корреляционные матрицы, показывающие все попарные коэффициенты корреляции. Они визуализируются с помощью тепловых карт, что особенно ценно при анализе большого числа биофизических параметров.


Используемое программное обеспечение

Для проведения корреляционного и регрессионного анализа применяются:

  • SPSS, R, Python (библиотеки Pandas, NumPy, statsmodels, scikit-learn) — для научного анализа,
  • Excel, Origin, MATLAB — для инженерных расчётов и визуализации,
  • программное обеспечение медицинских комплексов (например, системы планирования лучевой терапии), включающее встроенные модули регрессионного анализа для автоматической оптимизации дозовых параметров.