Корреляционный и регрессионный анализ в медицинской физике
В медицинской физике часто возникает необходимость исследовать, существуют ли статистически значимые взаимосвязи между физическими величинами и биологическими параметрами. Корреляционный анализ позволяет количественно оценить степень направленной связи между двумя или более признаками.
Наиболее распространённой мерой корреляции является коэффициент линейной корреляции Пирсона:
$$ r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \cdot \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}} $$
где xi и yi — значения двух переменных, x̄ и ȳ — их средние значения. Значение r находится в интервале от −1 до +1:
Важно помнить, что наличие корреляции не означает причинно-следственную зависимость. В медицинских исследованиях это особенно критично: обнаружение связи, например, между дозой облучения и уровнем определённого биомаркера, требует последующей верификации причинности.
Если переменные не удовлетворяют требованиям нормальности распределения или связь между ними не является линейной, применяется ранговый коэффициент корреляции Спирмена. Он основан на сравнении порядковых номеров (рангов) величин и вычисляется по формуле:
$$ r_s = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)} $$
где di — разность рангов, n — число наблюдений. Метод Спирмена широко применяется при анализе субъективных оценок, визуальных шкал, данных, полученных в малых выборках.
Для проверки статистической значимости найденного коэффициента корреляции применяется t-критерий:
$$ t = \frac{r \sqrt{n - 2}}{\sqrt{1 - r^2}} $$
где n — объём выборки. Полученное значение сравнивается с критическим значением t-распределения Стьюдента при заданном уровне значимости (обычно α = 0, 05) и n − 2 степенях свободы.
Регрессионный анализ позволяет не только выявить наличие связи между переменными, но и формализовать её в виде математической модели, пригодной для прогнозирования.
При простой линейной регрессии предполагается наличие модели:
y = a + bx + ε
где:
Коэффициенты a и b находятся методом наименьших квадратов:
$$ b = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2}, \quad a = \bar{y} - b\bar{x} $$
Модель оценивается по ряду критериев:
В медицинской физике часто необходимо учитывать влияние нескольких факторов. В этом случае используется множественная линейная регрессия:
y = a + b1x1 + b2x2 + … + bkxk + ε
Например, доза облучения может зависеть от расстояния до источника, времени воздействия, плотности среды и т.д.
Особое внимание при построении модели уделяется проверке:
Во многих медицинско-физических задачах наблюдаемая зависимость между переменными не является линейной. Например, дозиметрические кривые, зависимость биологического ответа от дозы (кривая «доза-эффект»), кривые накопления радиофармпрепаратов. В таких случаях применяется нелинейная регрессия, где модель априори задаётся как:
y = f(x; θ) + ε
где f — нелинейная функция (экспоненциальная, логарифмическая, логистическая и т.п.), θ — вектор параметров. Их нахождение осуществляется численными методами, например, с помощью градиентного спуска или методов Левенберга-Марквардта.
Корреляционный анализ применяется для оценки согласованности показаний различных дозиметров. Регрессионный — при моделировании распределения дозы в тканях в зависимости от геометрии поля и характеристик пучка.
Построение регрессионных моделей позволяет прогнозировать эффект облучения на опухолевые и здоровые ткани, исходя из данных по дозе, фракционированию, биологическим параметрам.
Корреляционные методы используются для оценки связи между молекулярными маркерами (уровень γ-H2AX, митотическая активность) и физическими параметрами облучения. Регрессионный анализ позволяет создавать предиктивные модели ответа на терапию.
В регрессионной форме описывается зависимость качества изображения от дозы, параметров сканирования (время экспозиции, ток трубки и т.д.). Оптимизация этих параметров основана на построении моделей, позволяющих балансировать диагностическую ценность и дозовую нагрузку.
Анализ остатков (разностей между наблюдаемыми и предсказанными значениями) позволяет выявить недостатки модели:
При множественных переменных полезно строить корреляционные матрицы, показывающие все попарные коэффициенты корреляции. Они визуализируются с помощью тепловых карт, что особенно ценно при анализе большого числа биофизических параметров.
Для проведения корреляционного и регрессионного анализа применяются: