Неравенство выборки влияет на обобщение нейровизуализации
ДомДом > Блог > Неравенство выборки влияет на обобщение нейровизуализации

Неравенство выборки влияет на обобщение нейровизуализации

Jun 05, 2023

BMC Medicine, том 21, Номер статьи: 241 (2023) Цитировать эту статью

1369 Доступов

1 Цитаты

3 Альтметрика

Подробности о метриках

Разработка моделей машинного обучения для диагностики психических расстройств признана значительным прорывом в области психиатрии. Однако клиническая практика таких моделей остается сложной задачей, а основным ограничением является плохая обобщаемость.

Здесь мы провели предварительно зарегистрированное метаисследование моделей, основанных на нейровизуализации, в психиатрической литературе, количественно исследуя глобальные и региональные проблемы выборки за последние десятилетия с точки зрения, которая была относительно недостаточно изучена. Всего в текущую оценку было включено 476 исследований (n = 118 137). На основе этих результатов мы создали комплексную 5-звездочную рейтинговую систему для количественной оценки качества существующих моделей машинного обучения для психиатрических диагнозов.

Глобальное выборочное неравенство в этих моделях выявлялось количественно (выборочный коэффициент Джини (G) = 0,81, p < 0,01), варьирующееся в разных странах (регионах) (например, Китай, G = 0,47; США, G = 0,58; Германия). , G = 0,78; Великобритания, G = 0,87). Более того, серьезность этого выборочного неравенства в значительной степени прогнозировалась уровнем национальной экономики (β = - 2,75, p < 0,001, R2adj = 0,40; r = - 0,84, 95% ДИ: от - 0,41 до - 0,97) и был правдоподобно предсказуем для производительности модели, с более высоким неравенством выборки для сообщения о более высокой точности классификации. Дальнейший анализ показал отсутствие независимого тестирования (84,24% моделей, 95% ДИ: 81,0–87,5%), неправильную перекрестную проверку (51,68% моделей, 95% ДИ: 47,2–56,2%) и низкую техническую прозрачность (87,8). % моделей, 95% ДИ: 84,9–90,8%)/доступность (80,88% моделей, 95% ДИ: 77,3–84,4%) преобладают в существующих диагностических классификаторах, несмотря на улучшения с течением времени. Что касается этих наблюдений, было обнаружено снижение эффективности модели в исследованиях с независимой проверкой выборки между странами (все p < 0,001, BF10 > 15). В свете этого мы предложили специальный контрольный список количественной оценки, который продемонстрировал, что общие рейтинги этих моделей увеличивались с каждым годом публикации, но были отрицательно связаны с эффективностью моделей.

В совокупности улучшение экономического равенства выборки и, следовательно, качества моделей машинного обучения может стать решающим аспектом для правдоподобного перевода диагностических классификаторов на основе нейровизуализации в клиническую практику.

Отчеты экспертной оценки

Модели машинного обучения (МО) широко используются для классификации пациентов с психическими заболеваниями, чтобы помочь в принятии клинических решений [1, 2]. Путем создания моделей машинного обучения, которые обучаются на основе функций нейровизуализации, диагностическое решение может быть более точным и надежным с помощью этих объективных и многомерных биомаркеров [3, 4]. Кроме того, учитывая многомерный характер особенностей мозга, методы машинного обучения могут фиксировать весь нейронный паттерн в зависимости от большого объема вокселей для выявления патофизиологических признаков этих расстройств, в то время как индивидуализированное прогнозирование моделей машинного обучения в моделях МО на основе нейровизуализации также способствует удовлетворить растущие потребности точной психиатрии [5, 6]. Несмотря на значительные усилия, направленные на достижение этой цели, внедрение классификации машинного обучения для рекомендаций по диагностике и лечению в клиническую практику остается сложной задачей [7]. Частично это связано с плохой обобщаемостью некоторых классификаторов, основанных на нейровизуализации, которые часто оптимизируются в рамках конкретной выборки, чтобы избежать невозможности обобщения для диагностики невидимых пациентов в новых выборках [8,9,10]. Хотя эти классификаторы можно обучить для достижения желательно высокой точности в конкретной когорте, они не являются репрезентативными для более общей популяции по медицинским центрам, географическим регионам, социально-экономическому статусу и этническим группам [11, 12]. Более того, сохраняющиеся опасения по поводу возможности обобщения подразумевают потенциальную систематическую ошибку выборки, несмотря на существенно возросший объем данных за последние десятилетия [13].

 3 for strong evidence. To examine the non-linear associations of these variables of interest, we have built the generalized additive model (GAM) with natural shape-free spline functions by R package (“mgcv”). To obviate overfitting, the shape-free splines (i.e., smooth function) were used in these models. Finally, metrics of model performance (i.e., classification accuracy) for each study were precision-weighted rather than the original ones as reported./p>