Российский medtech-рынок столкнулся с мировой проблемой — систематическими смещениями в работе медицинского ИИ. Эта ситуация мотивирует игроков внедрять разные практики контроля качества ИИ. Так, они проверяют датасеты на сбалансированность, расширяют выборки за счет данных из разных регионов, вводят клиническую верификацию.
Предпосылки тренда
Массачусетский технологический институт описал проблему систематических смещений (bias) и предвзятости ИИ-алгоритмов. Возможны случаи, когда модель по-разному интерпретирует симптомы у разных демографических групп или дает менее качественный ответ, если запрос сформулирован неточно или неполно.
Игроки российского medtech-рынка подтверждают наличие bias-рисков. Разработчик ПО MVS отмечает: если модель обучена на нерепрезентативных данных, например, только из федеральных центров, она может хуже работать для пациентов из других регионов — с другой демографией и структурой заболеваемости. Кроме того, исторические данные поликлиник могут содержать уже существующие перекосы в диагностике, которые ИИ затем начинает тиражировать.
«Также симптомы и их описание могут варьироваться в разных культурах. Алгоритм, обученный на “стандартных” учебниках, может не распознать жалобы, сформулированные иначе, на другом языке или с учетом культурных особенностей восприятия боли», — говорит Ирина Хавдей, директор по маркетингу компании MVS.
Похожее мнение озвучивают и в Lab4U: риск предвзятости возникает, если ИИ обучается на нерепрезентативных или зарубежных данных, которые не отражают специфику населения в России и локальные особенности.
В свою очередь, компания SberMedAI связывает проблему систематических смещений ИИ-алгоритмов с нехваткой данных для формирования датасета.
Влияние на рынок
Компаниям приходится внедрять специальные практики, чтобы сделать работу алгоритмов точнее. MVS, например, формирует для ИИ такие обучающие выборки, которые включают данные пациентов из разных регионов — так датасеты становятся более сбалансированными, а риск предвзятости ИИ снижается.
«Lab4U — медицинская лаборатория» обучает ИИ-модели исключительно на внутреннем массиве собственных данных, который включает более 15 млн анонимных лабораторных анализов и медицинских историй, собранных за 13 лет работы. При этом внутренний датасет отражает реальную структуру пациентов, что позволяет учитывать специфику различных возрастных, половых, этнических и региональных групп.
«Мы осознаем риски, связанные с предвзятостью и обобщением в медицинских ИИ-системах, поэтому строим свою стратегию на принципах персонализации, использования уникальных и разнообразных данных, постоянного совершенствования алгоритмов и строгого соответствия российским стандартам». — сказал Алексей Образцов, генеральный директор «Lab4U – медицинская лаборатория».