Medizinische Informatik, Statistik und Dokumentation

Forschungsschwerpunkt Semantik und Ontologien in der Medizin

Teamleiter: Stefan Schulz

Fokus: Schwerpunkt ist die semantische Modellierung von Daten aus Wissenschaft und Klinik. Zwei Wege werden beschritten: einerseits die Konstruktion symbolischen Wissens durch Expert*innen, andererseits automatische Wissensakquisition durch Methoden des maschinellen Lernens. Im ersten Fall werden Daten durch Terminologien, Ontologien und Informationsmodellen standardisiert, im zweiten Fall wird Semantik durch probabilistische und neuronale Modelle ausgedrückt. Da Daten zu großen Teilen nur als Texte vorliegen, stehen Methoden des Text Mining im Vordergrund. Die so gewonnenen normierten Datenextrakte unterstützen Dokumentenrecherche, Datenanalyse und klinische Entscheidungsfindung.

Vernetzung: Derzeit wichtige Kooperationspartner des Teams sind die KAGes und CBmed, Graz, die ELGA GmbH Wien, sowie die Firma Roche Diagnostics (Basel und Belmont). In Deutschland bestehen enge Kontakte zur Text-Mining-Firma Averbis GmbH, Freiburg, EMPIRICA GmbH, Bonn, zu den Universitäten Freiburg und TU München, der Universität Jena, der Charité Berlin und dem DFKI Saarbrücken. Über aktive Mitwirkung in den Standardisierungsorganisationen SNOMED International und HL-7 bestehen weltweite Kontakte. Weiter hervorzuheben sind aktuelle Kooperationen mit Kolleg*innen von den Universitäten Trondheim, Murcia, Bordeaux, Ljubljana, Buffalo, der FH Bern, sowie der PUCPR (Brasilien).

Projekte

AIDAVA - AI-powered Data Curation & Publishing Virtual Assistant

  • Das EU-Projekt AIDAVA verwendet Methoden der künstlichen Intelligenz, um Patient*innendaten unterschiedlichsten Strukturierungsgrades, insbesondere aus Befundtexten und Arztbriefen, in eine kodierte und abfragbare Form zu bringen. Hierbei kommen Methoden der Verarbeitung natürlicher Sprache, aber auch große Sprachmodelle zur Anwendung. Wir sind hierbei insbesondere in die manuelle Annotation von Kliniktexten involviert, mit denen die KI-Modelle trainiert und validiert werden. Die in diesen Texten vorhandenen Informationen werden durch Codes des internationalen ontologiebasierten Terminologiestandards SNOMED CT repräsentiert. Unterstützt wird die Anwendung dieses Standards durch eine umfangreiche, von uns entwickelte Annotationsrichtlinie. Zielrepräsentation für die patient*innenspezifischen Informationen ist ein sogenannter Wissensgraph (Knowledge Graph), anhand dessen klinische Information für Versorgung und Forschung standardisiert abgefragt werden kann. Als klinische Anwendungsdomäne hat AIDAVA die Bereiche Brustkrebs und ischämische Herzkrankheiten.
  • Laufzeit: 2022-2026
  • Gefördert durch: Europäische Kommission
  • Projektpartner*innen: b!loba, KU Leuven, The European Institute for Innovation through Health Data, European Cancer Patient Coalition, European Heart Network AISBL, ONTO - Sirma AI EAD, NEMC - Sihtasutus Põhja-Eesti Regionaalhaigla, Averbis GmbH, European Research and Project Office GmbH, UM - Maastricht University, Egnosis by Gnome Design Srl, MIDATA Cooperative, Digi.me Ltda

GeMTeX - German Medical Text Corpus

  • Wir sind externer Partner von GeMTeX (German Medical Text Corpus), welches das Ziel verfolgt, Texte aus der Patient*innenversorgung für Forschungsprojekte nutzbar zu machen und so den bisher größten medizinischen Textkorpus in deutscher Sprache zu schaffen. Seit Projektstart im Juni 2023 werden an sechs Standorten Kliniktexte gesammelt und manuell von geschulten Hilfskräften annotiert. Diese Daten dienen als Referenz zur Verbesserung automatischer Annotationen und werden für Analysen und statistische Modelle verwendet. GeMTeX nutzt dazu die IT-Infrastruktur der Medizininformatik-Initiative (MII), um klinische Dokumente systematisch anzureichern und anonymisiert bereitzustellen. Unser bisheriger Beitrag bestand im Teilen der Erfahrungen mit Textannotationen, die im Rahmen des EU-Projekts AIDAVA (s.o.) gesammelt wurden. Der AIDAVA-Annotationsguide dient GeMTeX als Ausgangspunkt zur Planung der eigenen Annotationsstrategie.
  • Laufzeit: 2023-2026
  • Projektpartner*innen: Charité – University Hospital Berlin, ID GmbH & Co. KGaA, Technical University of Darmstadt, Dresden University of Technology, University Hospital Erlangen, University Hospital Essen, Averbis GmbH, Hannover Medical School, Heidelberg University Hospital, German National Library of Medicine (ZB MED), Leipzig University, University of Leipzig Medical Center, Ludwig Maximilian University of Munich, Technical University of Munich, University of Münster, Hasso Plattner Institute for Digital Engineering gGmbH, Tübingen University Hospital

SNOMED CT-Lokalisierung

  • Der internationale, ontologiebasierte Terminologiestandard SNOMED CT ist seit langem ein Schwerpunkt des Arbeitsgebiets Semantik. Wir sind hier international beratend tätig, so in der German Translation Group und der Modeling Advisory Group. Mit der German Interface Terminology stellen wir ein großes Indexierungsvokabular für SNOMED CT in deutscher Sprache zur Verfügung, welches erfolgreich für Text-Mining-Aufgaben eingesetzt wird.
  • Laufzeit: 2015 - 2026
  • Averbis GmbH, Freiburg, Deutschland; ELGA GmbH, Wien

Teamleiter

Univ.-Prof. Dr.
Stefan Schulz 
T: +43 316 385 16939