Влияние противоречивых человеческих аннотаций на принятие клинических решений, основанных на искусственном интеллекте
ДомДом > Блог > Влияние противоречивых человеческих аннотаций на принятие клинических решений, основанных на искусственном интеллекте

Влияние противоречивых человеческих аннотаций на принятие клинических решений, основанных на искусственном интеллекте

Jun 08, 2023

npj Digital Medicine, том 6, номер статьи: 26 (2023 г.) Цитировать эту статью

3203 Доступа

5 цитат

18 Альтметрика

Подробности о метриках

При разработке модели контролируемого обучения эксперты предметной области часто используются для предоставления меток классов (аннотаций). Несоответствия в аннотациях обычно возникают, когда даже очень опытные клинические эксперты комментируют одно и то же явление (например, медицинское изображение, диагноз или прогностический статус) из-за присущей экспертам предвзятости, суждений и оговорок, а также других факторов. Хотя их существование относительно хорошо известно, последствия таких несоответствий в значительной степени недостаточно изучены в реальных условиях, когда контролируемое обучение применяется к таким «зашумленным» помеченным данным. Чтобы пролить свет на эти проблемы, мы провели обширные эксперименты и анализ трех реальных наборов данных отделений интенсивной терапии (ОИТ). В частности, отдельные модели были построены на основе общего набора данных, независимо аннотированного 11 консультантами отделения интенсивной терапии Университетской больницы Королевы Елизаветы Глазго, а оценки эффективности моделей сравнивались посредством внутренней проверки (κ Флейса = 0,383, т.е. справедливое согласие). Кроме того, широкая внешняя проверка (как на статических наборах данных, так и на наборах временных рядов) этих 11 классификаторов была проведена на внешнем наборе данных HiRID, где было обнаружено, что классификации моделей имеют низкие парные согласования (среднее κ Коэна = 0,255, т. е. минимальное согласие). . Более того, они склонны расходиться во мнениях больше при принятии решений о выписке (κ Флейса = 0,174), чем при прогнозировании смертности (κ Флейса = 0,267). Учитывая эти несоответствия, был проведен дальнейший анализ для оценки текущих лучших практик получения моделей золотого стандарта и определения консенсуса. Результаты показывают, что: (а) не всегда может быть «суперэксперт» в неотложных клинических ситуациях (используя в качестве показателя показатели внутренней и внешней модели валидации); и (б) стандартный поиск консенсуса (например, большинством голосов) постоянно приводит к неоптимальным моделям. Однако дальнейший анализ показывает, что оценка обучаемости аннотаций и использование только «обучаемых» наборов аннотированных данных для определения консенсуса позволяет в большинстве случаев достичь оптимальных моделей.

Классическое машинное обучение с учителем предполагает, что все метки обучающих примеров верны, игнорируя классовый шум и неточности1. В здравоохранении это предположение может не соблюдаться, даже если эти ярлыки дают высококвалифицированные врачи, из-за степени шума, субъективности наблюдателя и предвзятости. Если пренебречь ими при обучении системы поддержки принятия решений машинного обучения (ML-DSS), несоответствия аннотаций могут привести к произвольно частичной версии основной истины и к последующим непредсказуемым клиническим последствиям, включая ошибочные классификации2,3,4.

В идеале метки классов получаются в процессе приобретения знаний, включающем выбор соответствующего «золотого стандарта», на котором будут основываться эти основные метки классов, для построения системы, основанной на знаниях (KBS). В сфере здравоохранения и биомедицины для предоставления такой маркировки часто привлекаются эксперты в клинической области5. Однако во многих клинических областях эти основные истины трудно найти и определить из-за патофизиологических, диагностических и прогностических неопределенностей, присущих медицине2,6.

Когнитивная психология экспериментально показала, что люди (и, следовательно, эксперты) совершают «ошибки», например, из-за когнитивной перегрузки и предубеждений. С другой стороны, в области экспертных систем и KBS предполагается, что для (большинства) дисциплин существуют «безупречные» высококвалифицированные эксперты, и ключевая задача состоит в том, как таких экспертов можно объективно или субъективно идентифицировать. Однако все больше данных из литературы показывает, что по общим наборам задач (например, по классификации) группы экспертов часто существенно расходятся во мнениях5,7,8. В 2021 году Канеман и др.9 опубликовали важную работу по этой теме под названием «Шум: недостаток человеческого суждения», которая убедительно доказывает, что коллеги-эксперты во многих дисциплинах действительно расходятся во мнениях. Эти авторы9 проводят различие между суждениями и мнениями: в первом случае эксперты должны предоставить ответ из (фиксированного) набора альтернатив, тогда как мнения гораздо более открыты. В этой статье мы имеем дело с задачами, которые требуют вынесения суждений различными экспертами.

 0.90 (Almost Perfect)./p> 0.7). Figure 7 shows TMV (F1 micro = 0.438) performs significantly better than MV (F1 micro = 0.254). In fact, TMV outperforms almost all the consultant models. This indicates it is important to assess learnability of each domain expert’s judgments before creating a consensus, because poorly learnable (expert) judgments often lead to poor performances./p> 1–4, CL3 = > 4./p> 3-<4, CL3 = ≥ 4./p> 0.7)./p> 2-< 4, CL3 = ≥ 4, see Supplementary Fig. 1 for these results./p> 0.7), the differing feature importance distributions reflect the different rationales and decision-making processes between annotators. For certain annotators (C4), we can infer Noradrenaline is the most important feature when deciding to annotate a label ‘A’ classification. For some (C2), FiO2 is most important when making this classification. For others (C10), the rationale is more balanced on Noradrenaline and FiO2./p>

There are multiple statistics used to measure IAA, including Cohen’s κ, Fleiss’ κ and Krippendorff’s α. All three statistics were calculated within Python 3.0 using: cohen_kappa_score from sklearn.metrics60, fleiss_kappa from statsmodels.stats.inter_rater61, simpledorff (2020)." href="/articles/s41746-023-00773-3#ref-CR62" id="ref-link-section-d201818550e1597"62./p> 0.90 (Almost Perfect)32./p> 1–4, CL3 = > 4./p> 3-<4, CL3 = ≥ 4./p> 2-<4, CL3 = ≥ 4./p>

3.0.CO;2-5" data-track-action="article reference" href="https://doi.org/10.1002%2F%28SICI%291097-0258%2820000229%2919%3A4%3C453%3A%3AAID-SIM350%3E3.0.CO%3B2-5" aria-label="Article reference 53" data-doi="10.1002/(SICI)1097-0258(20000229)19:43.0.CO;2-5"Article CAS PubMed Google Scholar /p>

(2020)./p>