Способ автоматизированной диагностики заболеваний и их форм
Изобретение относится к области медицинской диагностики и может быть использовано для диагностики любого заболевания по совокупности диагностических признаков состояния организма. Способ включает конструирование системы эвристических признаков, описывающих различные заболевания, их классификацию по каждому диагностируемому заболеванию и дифференциальную диагностику его формы с использованием кластерного анализа в выбранном пространстве эвристических признаков. Конструирование системы эвристических признаков осуществляют путем формирования информативных признаков состояния организма для каждого заболевания с определением оптимального интервала дискретизации каждого количественного признака и числа его градаций с последующей их дифференциацией по формам заболевания, а классификацию по каждому диагностируемому заболеванию осуществляют с помощью интегрального сравнения сигнала болезни с порогом нормы и производят оценку вероятности надежного распознавания заболевания P*, используя соотношение где G0 - отношение информационных емкостей признаков болезнь/норма; Ф - интеграл вероятности; N - число признаков; Gi, ni - текущие значения соответственно аппаратурного отношения сигнал/шум и качественного признака болезни. Это позволяет повысить вероятность правильной диагностики заболеваний и их форм в условиях статистической недостаточности и неоптимальности существующих баз медицинских данных. 3 ил., 1 табл.
Изобретение относится к области медицинской диагностики и может быть использовано для диагностики любого заболевания по совокупности диагностических признаков состояния организма.
Известен интегральный пороговый способ диагностики заболеваний, который используется для определения физиологического состояния при моделировании невроза у лабораторных животных. В нем определяют показатели функционального состояния организма в баллах для заданных градаций патологии каждого показателя, определяют глубину невротического состояния, сравнивая интегральные показатели, установленные для различных степеней патологии, с интегральной оценкой уровня патологии в баллах, для экспериментального животного [А.С. 1824186 СССР, МКИ 2 А 61 В 5/00. Способ определения физиологического состояния при моделировании невроза у лабораторных животных/В.В.Лавров. - Заявлено 27.12.90; опубл. 30.06.93, Бюл. 24]. Недостатком этого способа является большое число случаев гипердиагностики (случаев, когда вместо состояния нормы определяется патология или ставится более тяжелая форма патологии, чем та, что определил врач-эксперт), возникающих в результате выбора порога нормы таким образом, чтобы число случаев пропуска заболевания было минимальным, и отсутствие оценки вероятности правильной классификации состояния животного. Наиболее близким по технической сущности и достигаемому эффекту является способ дифференциальной диагностики заболеваний на базе кластерного анализа. Этот способ применяется для диагностики степени тяжести инфаркта миокарда [Кузнецов С.И. Инвариантное моделирование в медицине на базе кластерного анализа. - Воронеж: Изд-во ВГУ, 1997, - 208 с.]. Для этой цели осуществляется подбор рационального минимума показателей, максимально характеризующих текущее состояние пациента и имеющих прогностически весомое значение, проводится нормирование признаков заболевания, строится матрица взаимных евклидовых расстояний между объектами. Решающее правило имеет вид: два рассматриваемых объекта принадлежат одному кластеру, если расстояние между ними меньше половины среднего расстояния между объектами указанной матрицы. Недостатком этого способа является то, что надежная диагностика возможна только в случае равномерности обучающих выборок по формам заболевания, то есть число случаев заболевания, содержащееся в базе медицинских данных по каждой форме заболевания, должно быть примерно одинаково. Собрать такую базу медицинских данных довольно сложно, так как одни формы заболевания встречаются нечасто, в то время как другие - в подавляющем большинстве случаев. Такое несоответствие по числу историй болезней разных форм заболевания в обучающей выборке приводит к тому, что кластеры этих форм в пространстве признаков имеют существенно разный размер. В этом случае возможна надежная диагностика лишь тех форм заболевания, кластеры которых примерно одинаковы по размеру. Поэтому, по сведениям самих авторов, надежная классификация заболевания достигалась лишь в случае исключения из базы данных случаев атипичного протекания заболевания. Техническая задача изобретения - повышение вероятности правильной диагностики заболеваний и их форм в условиях статистической недостаточности и неоптимальности существующих баз медицинских данных. Техническая задача достигается тем, что в способе автоматизированной диагностики заболеваний и их форм, включающем конструирование системы эвристических признаков, описывающих различные заболевания, их классификацию по каждому диагностируемому заболеванию и дифференциальную диагностику его формы с использованием кластерного анализа в выбранном пространстве эвристических признаков новым является то, что конструирование системы эвристических признаков осуществлено путем формирования информативных признаков состояния организма для каждого заболевания с определением оптимального интервала дискретизации каждого количественного признака и числа его градаций с последующей их дифференциацией по формам заболевания, а классификация по каждому диагностируемому заболеванию осуществлена с помощью интегрального сравнения сигнала болезни с порогом нормы и произведена оценка вероятности надежного распознавания заболевания Р*, используя соотношение


Если измеряемая температура тела Т выше или ниже границы нормы, то число градаций температурного признака в случае болезни

Точность современного диагностического оборудования такова, что число nб может быть довольно большим и существенно зависеть от ряда случайных факторов. Поэтому необходимо оптимизировать число градаций каждого количественного признака путем усреднения по интервалу дискретизации таким образом, чтобы в статистическом распределении каждого признака имелось столько ярко выраженных максимумов, сколько форм заболевания необходимо диагностировать. На третьем этапе по каждому диагностируемому заболеванию осуществляется интегральное сравнение сигнала болезни с порогом нормы и производится оценка вероятности правильного распознавания заболевания. Для оценки вероятности обнаружения количественного признака Роб болезни воспользуемся известным выражением [Тихонов В.И. Оптимальный прием сигналов. М.: Радио и связь, 1983].

где Ф - интеграл вероятности, G - аппаратурное отношение сигнал/шум, P2/P1 - отношение априорных вероятностей отсутствия и присутствия сигнала. При автоматизированной диагностике (Р2= Р1) надежное обнаружение признака возможно в случае G



Далее реализуется интегральная классификация заболеваний путем сравнения информационной емкости сигнала болезни с порогом нормы, а также оценка вероятности правильного распознавания заболевания. Введем отношение

которое назовем отношением болезнь/норма. Оно подобно отношению сигнал/шум в статистической теории оптимального обнаружения сигналов [Тихонов В.И. Оптимальный прием сигналов. М.: Радио и связь, 1983]. Решение о наличии болезни принимается при превышении сигнала болезни порогового уровня нормы. В этом случае вероятность распознавания болезни можно записать следующим образом:

В случае, когда вероятность обнаружения и число градаций каждого признака постоянны, вероятность распознавания болезни не зависит от числа признаков для N>2, так как с повышением информационной емкости системы признаков пропорционально увеличивается энтропия решающей системы. Это связано с тем фактором, что процесс обучения и распознавания реализуется по одной и той же выборке, определяемой базой медицинских данных. Кроме того, ясно, что использование только качественных признаков (n=2) неэффективно, так как вероятность распознавания болезни Р


где ф - наименование формы заболевания - легкая, средняя или тяжелая; М - число пациентов в базе данных с заболеванием со степенью тяжести ф,


где N - число информативных признаков, характеризующих заболевание; j - текущий номер признака. Для дифференциальной диагностики заболеваний решающее правило имеет следующий вид: рассматриваемая точка принадлежит кластеру той формы заболевания, для которой проекция расстояния от центра кластера до точки на прямую, соединяющую центры двух соседних кластеров, не превышает половины межцентрового расстояния соседних кластеров:

где rcф1-ф2 - межцентровое расстояние кластеров форм заболевания ф1 и ф2; m - рассматриваемая точка. Способ поясняется на примере диагностики послеродового эндометрита, часто протекающего атипично и являющегося одним из самых трудно диагностируемых заболеваний, особенно в его легкой и средней формах [Кулаков В.И., Серов В. Н. , Гуртовой Б.Л., Емельянова А.И., Касабулатов Н.М. Послеродовой эндометрит. Информационное письмо. - М.: АВО, 1999, - 22 с.]. Диагностировался послеродовой эндометрит и его формы, отражающие степень тяжести заболевания: легкую, среднюю и тяжелую. Собранная база данных включала 70 историй болезней. Была составлена оптимальная система из 17 наиболее информативных признаков, полученных по результатам клинического обследования, УЗИ матки, гистероскопии, бактериологического и бактериоскопического анализов. Формирование оптимальной системы признаков представляет собой итерационный процесс, в котором оптимизация осуществляется путем включения в диагностическую систему признаков, повышающих вероятность распознавания заболевания. Диаграмма нормированных средних значений признаков указанной системы приведена на фиг.1. Нормирование значений проводилось с учетом интервала их усреднения. На втором этапе определялся оптимальный интервал дискретизации каждого признака системы и число их градаций путем усреднения по различным интервалам статистического распределения признака с выделением трех экстремумов, соответствующих легкой, средней и тяжелой формам заболевания. На фиг.2. показан график распределения плотности вероятности одного из признаков диагностической системы - температуры с интервалом усреднения 0,5oС, позволяющим четко выделить три формы заболевания, соответствующие трем экстремумам. Увеличение интервала усреднения приводит к объединению соседних форм заболевания, уменьшение - к росту числа случайных экстремумов. Аналогичные результаты получены и для других признаков диагностической системы. На третьем этапе осуществлялось интегральное сравнение сигнала болезни с порогом нормы и производилась оценка вероятности распознавания заболевания с использованием соотношений (6) и (7). С помощью интегрального порогового метода удалось диагностировать эндометрит в 100% случаев и абсолютно достоверно диагностировать все тяжелые формы заболевания. При диагностике этим методом легкой и средней форм эндометрита эффективность диагностики резко снижалась. Эксперимент показал, что число случаев компьютерной гипердиагностики составило 8,6% (была поставлена более тяжелая степень заболевания, чем во врачебном диагнозе), а случаев пропуска заболевания не было. Вероятность распознавания заболевания достигала 0,848, 0,858 и 0,965 для легкой, средней и тяжелой форм соответственно. На четвертом этапе осуществлялась дифференциальная диагностика форм эндометрита с использованием кластерного анализа в выбранном пространстве признаков. Обучающая выборка по тяжелой форме составляла 81,4%, по средней - 8,6%, а по легкой 10%. Такая неоптимальность обучающей выборки привела к тому, что дисперсии кластеров легкой и средней форм оказались существенно большими, чем для тяжелой. Для температуры эти кластеры приведены на фиг.3. С помощью дифференциального кластерного метода удалось достаточно надежно диагностировать легкую и среднюю форму заболевания, которые хотя и образуют широкие, частично перекрывающиеся кластеры, но их размеры примерно одинаковы. Для историй болезни, вероятность распознавания заболевания которых на третьем этапе была не менее 0,895, диагностировалась тяжелая форма эндометрита и последний этап не выполнялся. Наблюдалось 7,7% несоответствий и 2,9% случаев компьютерной гипердиагностики. Результаты автоматизированной диагностики эндометрита и его форм приведены в таблице. Таким образом, предлагаемый способ позволяет надежно распознавать заболевания и диагностировать достаточно близкие формы заболевания в условиях статистической недостаточности неоптимальности имеющихся баз медицинских данных, которую во многих случаях невозможно улучшить вследствие особенностей протекания болезней. Следует отметить, что способ может реализовываться в реальном масштабе времени, когда диагностируемые сигналы с медицинских датчиков заносятся в базу данных и обрабатываются в соответствии с предложенной последовательностью действий. Он позволяет оценить вероятность правильного распознавания заболевания и его форм, а также диагностировать атипичные случаи болезни по сравнению с известными прототипами. В результате повышается вероятность правильной классификации не только самого заболевания, но его атипичных форм.
Формула изобретения

где G0 - отношение информационных емкостей признаков болезнь/норма;
Ф - интеграл вероятности;
N - число признаков;
Gi, ni - текущие значения соответственно аппаратурного отношения сигнал/шум и качественного признака болезни.
РИСУНКИ
Рисунок 1, Рисунок 2, Рисунок 3, Рисунок 4