SlideShare a Scribd company logo
1 of 21
Download to read offline
Региональный мастер-индекс
пациентов на платформе
InterSystems HealthShare
Сергей Кудинов
InterSystems Russia
Хабаровск 2015
Региональный сегмент ЕГИСЗ
Что дает внедрение мастер-индекса пациентов?
• Решение проблемы разрозненности медицинской
информации в региональных информационных системах,
аккумулирующих данные из разнородных источников
– Экономия средств ОМС за счет сокращения количества
повторных исследований, уже проведенных данному пациенту в
других медицинских организациях
– Повышение качества оказания медицинской помощи благодаря
снижению числа ошибочных назначений
• Доступ к информации о хронических заболеваниях и аллергиях
пациента, ранее диагностированных в других организациях
– Уменьшение количества повторных госпитализаций
• Доступ врачей СМП к данным о назначениях пациенту и о результатах
анализов во время недавно проведенной госпитализации
Проблемы идентификации пациентов
• Неполные данные
• Ошибки ввода
– Орфография, опечатки, латинские буквы
– Специфические ошибки при вводе номеров документов
– Перестановки полей, например, имени и фамилии
• Использование фиктивных значений в обязательных полях
– СНИЛСы: 123-456-789 00,111-111-111 45, …
• Ввод чужих данных
– Номер паспорта матери в данных новорожденного ребенка
• Смена фамилии, имени, паспорта, полиса, …
• Варианты написания отчеств
– Равшанович / Равшан-оглы
• Использование сокращений и аббревиатур
Способы идентификации пациентов
• Детерминированные алгоритмы
– Идентификация пациентов путем применения правил вида
• «Идентифицировать пациента по первому непустому значению
реквизита из списка [СНИЛС, номер полиса ОМС, номер паспорта, …]»
– Требуется абсолютная уверенность в полноте и «чистоте»
заполнения ключевых реквизитов
• Вероятностные модели
– Идентификация пациентов с применением вероятностных
моделей, фонетических алгоритмов, алгоритмов нестрогого
сопоставления
– Корректная идентификация даже при наличии ошибок и
пробелов в данных
– Низкая производительность по сравнению с
детерминированными алгоритмами
Способы идентификации пациентов [продолжение]
• Комбинированный подход
– Поддержка кросс-таблицы «локальных» идентификаторов
пациентов, применяемых в системах-источниках данных
• Использование вероятностных моделей только в случае отсутствия
локального идентификатора в кросс-таблице
– Использование детерминированных правил для обработки
особых случаев
РМП-ID ЛПУ Локальный иденти-
фикатор пациента
ФИО
1 A A0815 Безухов Петр Кириллович
2 A A1234 Ростова Н.И.
1 A A4711 П.К. Безухов
1 B B987 Безухий П.К.
2 B B911 Растова Н.И.
2 C C22334 Безухова Н.И.
3 C C22335 Безухов Андрей
3 C C22336 Безухов А.П.
Региональный мастер-индекс пациентов (РМП)
• РМП на платформе InterSystems HealthShare – это…
– Единый регистр демографической
информации
– Сервисы идентификации пациентов,
в том числе по неточным или неполным
демографическим данным
– Интерфейс предметного
администратора: список задач на
принятие решений о связывании
записей
– Интеграция с внешними системами
• Возможность использования для
вычистки дублей из унаследованных
массивов демографических данных
Вероятностная модель
• Используется модель, впервые описанная в статье Fellegi и
Sunter “The Theory for Record Linkage” в 1969 году
• Наивный байесовский классификатор (Naїve Bayes) - простой
вероятностный классификатор, основанный на применении
теоремы Байеса со строгими (наивными) предположениями о
независимости
– Пример: если фрукт красный, круглый и размером около 7см, то
есть вероятность, что это яблоко. Применяя наивный
байесовский классификатор, мы предполагаем, что эти три
свойства фрукта не зависят друг от друга, и наличие каждого из
них вносит независимый вклад в вероятность того, что фрукт
является яблоком.
• http://en.wikipedia.org/wiki/Naive_Bayes_classifier
• http://en.wikipedia.org/wiki/Record_linkage
Этапы идентификации
Нормализация
Индексирование
Классифицирование
Валидация
Нормализация
• Простые преобразования
• Замена латинских букв, а также буквы ё
• Приведение к единому регистру, удаление концевых пробелов
• Удаление null-значений
• Для каждого из реквизитов может быть настроен собственный список
таких значений, например, «111-111-111 45» для СНИЛС
• Специфическая функция нормализации для каждого реквизита
• Для СНИЛС, например, учитывается наличие контрольной суммы
• Римские цифры в серии свидетельства о рождении
• Использование словарей нормализации
• Юля => Юлия
Индексирование
• Быстрый отбор пар потенциально совпадающих записей при
помощи набора индексов
– Пример правила отбора, реализуемого при помощи индекса:
• «Если два из трех следующих утверждений истинны для пары записей,
то пометить ее для дальнейшей обработки:
– Значения в поле ИМЯ фонетически близки
– Значения в поле ФАМИЛИЯ фонетически близки
– Значения в поле ДАТА РОЖДЕНИЯ совпадают»
– Применение фонетических алгоритмов позволяет нивелировать
влияние опечаток
Фонетические алгоритмы
• Фонетические алгоритмы генерируют одинаковые ключи (хэши)
для фонетически близких слов
– Soundex
• Все гласные отбрасываются кроме первой буквы слова
• Генерирует ключи заданной длины (или короче)
– Metaphone
• Генерирует ключи переменной длины
• Был разработан в 1990 году в качестве альтернативы алгоритму Soundex,
обладающему рядом недостатков
USER>write ##class(isc.mprl.util.Phonic).metaphoneru("семак")
СИМАК
Классифицирование пар записей
• Вычисление весов пар потенциальных совпадений
– Вес пары записей равен сумме весов, полученных при сравнении
ключевых реквизитов с учетом их специфики с использованием
– алгоритмов нестрогого сопоставления
– фонетических алгоритмов
– частотных словарей
Вес “A”: +10
Вес “D”: -5
Вес “A”: +8
Вес “D”: -8
Вес “A”: +15
Вес “D”: -9
Вес “A”: +6
Вес “D”: -1
Вес “A”: +14
Вес “D”: -9
ФИО ДР СНИЛС Адрес Полис ОМС
Источник A Иванов
Дмитрий
Иванович
10/12/1956 123-456-789
64
г. Москва, ул.
Харьковская
д.1, кв. 23
6175512171
234567
Источник В Иванов Д.И. нет данных 123-456-789
64
Москва,
Харьковская
1-23
2343552356
213232
+8 0 +15 +5.5 -9
Вес пары: 19.5
Алгоритмы нестрогого сопоставления
• jaroSimilarity – мера близости Джаро (Jaro similarity measure)
• winklerSimilarity – мера близости Джаро-Винклера
• editDistance – расстояние Дамерау-Левенштейна
– Разновидность «расстояния редактирования»
– Подсчитывается минимальная стоимость набора операций,
необходимых для превращения одной строки в другую
– Рассматривается четыре типа операций: вставка одного символа,
удаление одного символа, замена одного символа на другой,
транспозиция - перестановка двух соседних символов
– В рамках HealthShare реализован алгоритм Вагнера-Фишера.
Стоимость одной операции любого типа принимается за единицу.
Описание алгоритма на Хабре - http://habrahabr.ru/post/114997/
USER>write ##class(%MPRL.Utils.Compare).editDistance("привет",
"привте")
1
Классифицирование: вес пары и пороговые значения
Классифицирование: правила для особых случаев
• Детерминированные правила для обработки особых случаев
без учета вычисленных весов:
– Двойняшки
– Идентификационные данные матери, указанные для
новорожденной дочери
– Связывание записей при совпадении набора идентификаторов
(применение утвержденных региональных регламентов)
• Правила программируются в классах, унаследованных от
библиотечных
Валидация: интерфейс администратора РМП
Автоматическая калибровка весов: алгоритм MLE
• “Maximum likelihood estimation” - Метод максимального
правдоподобия (http://en.wikipedia.org/wiki/Maximum_likelihood)
– Выполняется для случайно отобранных пар
• Ограниченное число сравнений или пока колебания весов не станут
незначительными
• Обработка 1 млн. пар ~½ часа на ноутбуке
– После завершения калибровки необходимо:
• Заново запустить процесс идентификации дублей
• Провести валидацию результатов
• Скорректировать пороговые значения
– Необходимо провести несколько итераций
Опыт внедрения РМП
• Итерационный процесс настройки параметров РМП:
весов, порогов, алгоритмов, словарей, …
– Тонкая настройка для каждого из источников демографической
информации
– Интеграция с внешними информационными системами для
проверки потенциальных совпадений
• Обработка унаследованных массивов данных
– Зачастую такие данные содержат большой процент дублей
• Возможность в короткие сроки получить эффект от запуска
региональной ЭМК – дать врачам доступ к истории оказания
пациенту медицинских услуг
Региональный сегмент ЕГИСЗ
• Внедрение сервисов
однозначной
идентификации –
ключ к эффективному
функционированию
региональных ИС
Вопросы и ответы
• Сергей Кудинов
sergey.kudinov@intersystems.com
http://www.InterSystems.ru

More Related Content

Similar to It med.conf региональный мастер-индекс пациентов

Similar to It med.conf региональный мастер-индекс пациентов (7)

Novel Software Systems priorities 2019
Novel Software Systems priorities 2019Novel Software Systems priorities 2019
Novel Software Systems priorities 2019
 
Big Data Patients and New Requirements for Clinical Systems
Big Data Patients and New Requirements for Clinical SystemsBig Data Patients and New Requirements for Clinical Systems
Big Data Patients and New Requirements for Clinical Systems
 
МИС "Санаториум"
МИС "Санаториум"МИС "Санаториум"
МИС "Санаториум"
 
лекция 35
лекция 35лекция 35
лекция 35
 
ЛИС qMS
ЛИС qMSЛИС qMS
ЛИС qMS
 
В.А. Гомболевский «Стандартизация описания протоколов исследований»
В.А. Гомболевский «Стандартизация описания протоколов исследований»В.А. Гомболевский «Стандартизация описания протоколов исследований»
В.А. Гомболевский «Стандартизация описания протоколов исследований»
 
Кибернетическая медицина 2015 успех или мистификация
Кибернетическая медицина 2015 успех или мистификацияКибернетическая медицина 2015 успех или мистификация
Кибернетическая медицина 2015 успех или мистификация
 

More from Elena Ometova

More from Elena Ometova (12)

владивосток форум Isc community
владивосток форум Isc communityвладивосток форум Isc community
владивосток форум Isc community
 
владивосток форум Deep_see
владивосток форум Deep_seeвладивосток форум Deep_see
владивосток форум Deep_see
 
Meet up khabarovsk_ifind
Meet up khabarovsk_ifindMeet up khabarovsk_ifind
Meet up khabarovsk_ifind
 
It med.conf проекты в красноярском крае
It med.conf проекты в красноярском краеIt med.conf проекты в красноярском крае
It med.conf проекты в красноярском крае
 
It med.conf демография
It med.conf демографияIt med.conf демография
It med.conf демография
 
владивосток форум Inter_systems в сфере малого бизнеса
владивосток форум Inter_systems в сфере малого бизнесавладивосток форум Inter_systems в сфере малого бизнеса
владивосток форум Inter_systems в сфере малого бизнеса
 
владивосток форум Ensemble
владивосток форум Ensembleвладивосток форум Ensemble
владивосток форум Ensemble
 
владивосток форум разработка_больших_приложений
владивосток форум разработка_больших_приложенийвладивосток форум разработка_больших_приложений
владивосток форум разработка_больших_приложений
 
владивосток форум производительность_ha
владивосток форум производительность_haвладивосток форум производительность_ha
владивосток форум производительность_ha
 
владивосток форум регион_проекты_здравоохранении
владивосток форум регион_проекты_здравоохранениивладивосток форум регион_проекты_здравоохранении
владивосток форум регион_проекты_здравоохранении
 
владивосток форум новости технологий 2015
владивосток форум новости технологий 2015владивосток форум новости технологий 2015
владивосток форум новости технологий 2015
 
владивосток форум Keynote 2015
владивосток форум Keynote 2015владивосток форум Keynote 2015
владивосток форум Keynote 2015
 

It med.conf региональный мастер-индекс пациентов

  • 1. Региональный мастер-индекс пациентов на платформе InterSystems HealthShare Сергей Кудинов InterSystems Russia Хабаровск 2015
  • 3. Что дает внедрение мастер-индекса пациентов? • Решение проблемы разрозненности медицинской информации в региональных информационных системах, аккумулирующих данные из разнородных источников – Экономия средств ОМС за счет сокращения количества повторных исследований, уже проведенных данному пациенту в других медицинских организациях – Повышение качества оказания медицинской помощи благодаря снижению числа ошибочных назначений • Доступ к информации о хронических заболеваниях и аллергиях пациента, ранее диагностированных в других организациях – Уменьшение количества повторных госпитализаций • Доступ врачей СМП к данным о назначениях пациенту и о результатах анализов во время недавно проведенной госпитализации
  • 4. Проблемы идентификации пациентов • Неполные данные • Ошибки ввода – Орфография, опечатки, латинские буквы – Специфические ошибки при вводе номеров документов – Перестановки полей, например, имени и фамилии • Использование фиктивных значений в обязательных полях – СНИЛСы: 123-456-789 00,111-111-111 45, … • Ввод чужих данных – Номер паспорта матери в данных новорожденного ребенка • Смена фамилии, имени, паспорта, полиса, … • Варианты написания отчеств – Равшанович / Равшан-оглы • Использование сокращений и аббревиатур
  • 5. Способы идентификации пациентов • Детерминированные алгоритмы – Идентификация пациентов путем применения правил вида • «Идентифицировать пациента по первому непустому значению реквизита из списка [СНИЛС, номер полиса ОМС, номер паспорта, …]» – Требуется абсолютная уверенность в полноте и «чистоте» заполнения ключевых реквизитов • Вероятностные модели – Идентификация пациентов с применением вероятностных моделей, фонетических алгоритмов, алгоритмов нестрогого сопоставления – Корректная идентификация даже при наличии ошибок и пробелов в данных – Низкая производительность по сравнению с детерминированными алгоритмами
  • 6. Способы идентификации пациентов [продолжение] • Комбинированный подход – Поддержка кросс-таблицы «локальных» идентификаторов пациентов, применяемых в системах-источниках данных • Использование вероятностных моделей только в случае отсутствия локального идентификатора в кросс-таблице – Использование детерминированных правил для обработки особых случаев РМП-ID ЛПУ Локальный иденти- фикатор пациента ФИО 1 A A0815 Безухов Петр Кириллович 2 A A1234 Ростова Н.И. 1 A A4711 П.К. Безухов 1 B B987 Безухий П.К. 2 B B911 Растова Н.И. 2 C C22334 Безухова Н.И. 3 C C22335 Безухов Андрей 3 C C22336 Безухов А.П.
  • 7. Региональный мастер-индекс пациентов (РМП) • РМП на платформе InterSystems HealthShare – это… – Единый регистр демографической информации – Сервисы идентификации пациентов, в том числе по неточным или неполным демографическим данным – Интерфейс предметного администратора: список задач на принятие решений о связывании записей – Интеграция с внешними системами • Возможность использования для вычистки дублей из унаследованных массивов демографических данных
  • 8. Вероятностная модель • Используется модель, впервые описанная в статье Fellegi и Sunter “The Theory for Record Linkage” в 1969 году • Наивный байесовский классификатор (Naїve Bayes) - простой вероятностный классификатор, основанный на применении теоремы Байеса со строгими (наивными) предположениями о независимости – Пример: если фрукт красный, круглый и размером около 7см, то есть вероятность, что это яблоко. Применяя наивный байесовский классификатор, мы предполагаем, что эти три свойства фрукта не зависят друг от друга, и наличие каждого из них вносит независимый вклад в вероятность того, что фрукт является яблоком. • http://en.wikipedia.org/wiki/Naive_Bayes_classifier • http://en.wikipedia.org/wiki/Record_linkage
  • 10. Нормализация • Простые преобразования • Замена латинских букв, а также буквы ё • Приведение к единому регистру, удаление концевых пробелов • Удаление null-значений • Для каждого из реквизитов может быть настроен собственный список таких значений, например, «111-111-111 45» для СНИЛС • Специфическая функция нормализации для каждого реквизита • Для СНИЛС, например, учитывается наличие контрольной суммы • Римские цифры в серии свидетельства о рождении • Использование словарей нормализации • Юля => Юлия
  • 11. Индексирование • Быстрый отбор пар потенциально совпадающих записей при помощи набора индексов – Пример правила отбора, реализуемого при помощи индекса: • «Если два из трех следующих утверждений истинны для пары записей, то пометить ее для дальнейшей обработки: – Значения в поле ИМЯ фонетически близки – Значения в поле ФАМИЛИЯ фонетически близки – Значения в поле ДАТА РОЖДЕНИЯ совпадают» – Применение фонетических алгоритмов позволяет нивелировать влияние опечаток
  • 12. Фонетические алгоритмы • Фонетические алгоритмы генерируют одинаковые ключи (хэши) для фонетически близких слов – Soundex • Все гласные отбрасываются кроме первой буквы слова • Генерирует ключи заданной длины (или короче) – Metaphone • Генерирует ключи переменной длины • Был разработан в 1990 году в качестве альтернативы алгоритму Soundex, обладающему рядом недостатков USER>write ##class(isc.mprl.util.Phonic).metaphoneru("семак") СИМАК
  • 13. Классифицирование пар записей • Вычисление весов пар потенциальных совпадений – Вес пары записей равен сумме весов, полученных при сравнении ключевых реквизитов с учетом их специфики с использованием – алгоритмов нестрогого сопоставления – фонетических алгоритмов – частотных словарей Вес “A”: +10 Вес “D”: -5 Вес “A”: +8 Вес “D”: -8 Вес “A”: +15 Вес “D”: -9 Вес “A”: +6 Вес “D”: -1 Вес “A”: +14 Вес “D”: -9 ФИО ДР СНИЛС Адрес Полис ОМС Источник A Иванов Дмитрий Иванович 10/12/1956 123-456-789 64 г. Москва, ул. Харьковская д.1, кв. 23 6175512171 234567 Источник В Иванов Д.И. нет данных 123-456-789 64 Москва, Харьковская 1-23 2343552356 213232 +8 0 +15 +5.5 -9 Вес пары: 19.5
  • 14. Алгоритмы нестрогого сопоставления • jaroSimilarity – мера близости Джаро (Jaro similarity measure) • winklerSimilarity – мера близости Джаро-Винклера • editDistance – расстояние Дамерау-Левенштейна – Разновидность «расстояния редактирования» – Подсчитывается минимальная стоимость набора операций, необходимых для превращения одной строки в другую – Рассматривается четыре типа операций: вставка одного символа, удаление одного символа, замена одного символа на другой, транспозиция - перестановка двух соседних символов – В рамках HealthShare реализован алгоритм Вагнера-Фишера. Стоимость одной операции любого типа принимается за единицу. Описание алгоритма на Хабре - http://habrahabr.ru/post/114997/ USER>write ##class(%MPRL.Utils.Compare).editDistance("привет", "привте") 1
  • 15. Классифицирование: вес пары и пороговые значения
  • 16. Классифицирование: правила для особых случаев • Детерминированные правила для обработки особых случаев без учета вычисленных весов: – Двойняшки – Идентификационные данные матери, указанные для новорожденной дочери – Связывание записей при совпадении набора идентификаторов (применение утвержденных региональных регламентов) • Правила программируются в классах, унаследованных от библиотечных
  • 18. Автоматическая калибровка весов: алгоритм MLE • “Maximum likelihood estimation” - Метод максимального правдоподобия (http://en.wikipedia.org/wiki/Maximum_likelihood) – Выполняется для случайно отобранных пар • Ограниченное число сравнений или пока колебания весов не станут незначительными • Обработка 1 млн. пар ~½ часа на ноутбуке – После завершения калибровки необходимо: • Заново запустить процесс идентификации дублей • Провести валидацию результатов • Скорректировать пороговые значения – Необходимо провести несколько итераций
  • 19. Опыт внедрения РМП • Итерационный процесс настройки параметров РМП: весов, порогов, алгоритмов, словарей, … – Тонкая настройка для каждого из источников демографической информации – Интеграция с внешними информационными системами для проверки потенциальных совпадений • Обработка унаследованных массивов данных – Зачастую такие данные содержат большой процент дублей • Возможность в короткие сроки получить эффект от запуска региональной ЭМК – дать врачам доступ к истории оказания пациенту медицинских услуг
  • 20. Региональный сегмент ЕГИСЗ • Внедрение сервисов однозначной идентификации – ключ к эффективному функционированию региональных ИС
  • 21. Вопросы и ответы • Сергей Кудинов sergey.kudinov@intersystems.com http://www.InterSystems.ru