Text Analytics in Life Sciences

Freitextliche Information liegt in vielen verschiedenen Formaten und Formen vor. Meist bleiben freitextliche Ressourcen in vielen Unternehmen und Forschungseinrichtungen ungenutzt, da die Erschließung aufwändig und rechenintensiv zu sein scheint. Oft helfen aber bereits etablierte Ansätze, um Wissen aus den unstrukturierten Freitexten zu extrahieren und ggf. mit anderen Datenquellen zu harmonisieren und gemeinsam auszuwerten. Dies kann entscheidend zum Erfolg von Analyse- und Data-Mining-Projekten in vielen Geschäftsbereichen beitragen. Dazu gehören unter anderem die Bereiche Strategiemanagement, Forschung und Entwicklung, Wissensmanagement sowie Business Intelligence.

 

Zielgruppe: Mitarbeiter von Unternehmen und Forschungsinstituten aus den Lebenswissenschaften (oder angrenzenden Disziplinen), die freitextliche Information erschließen, extrahieren, integrieren und verstehen wollen.

Voraussetzungen: Grundkenntnisse in bzw. Interesse an Freitextanalysen, eventuell im Bereich der Lebenswissenschaften.

Inhalte

Tag 1: Werkzeuge und Ressourcen

Der erste Tag gibt eine kurze Einführung in die vorhandenen Ansätze des Forschungsbereichs Text Mining. Dabei wird verstärkt auf die unterschiedlichen Datenformate von Freitexten (beispielsweise Word, PDF, HTML,...) eingegangen und verschiedene Ressourcen in der Biomedizin aufgezeigt (wie beispielsweise Patente und PubMed Artikel). Außerdem wird der prinzipielle Aufbau eines Workflows zur Textanalyse und dessen wichtigsten Bausteine vorgestellt und praxisnah erläutert. Die einzelnen Bausteine sind: 

  • Einführung in den Bereich des Text Minings
  • Prinzipielle Architektur eines Text Mining Workflows
  • Datentypen, Formate und Datenquellen
  • Werkzeuge für Text Mining am Beispiel Apache UIMA (Open Source Lösung)

Tag 2: Erkennung von Namen in Freitext und Informationsextraktion 

Der zweite Tag legt den Fokus auf die Erkennung von bestimmter Terminologie in Freitexten und auf die strukturierte Erkennung von Information. Dazu gehört der Aufbau von eigenen Terminologien, die Erkennung dieser mittels Named Entity Recognition und die Extraktion von Wissen am Beispiel von Relationen zwischen Entitäten. Der zweite Tage umfasst:

  • Skalierbare Methoden zur Namenserkennung
  • Beispielanwendung: Erkennungen von Genen/Proteinen, Krankheitsnennungen, medizinische Terminologien in wissenschaftlichen Freitext
  • Ressourcen für den Aufbau eigener Terminologien
  • Informationsextraktion: Extraktion von Relationen aus Freitext

Tag 3: Textanalyse, Suche  und Visualisierung

Tag Drei beinhaltet im Wesentlichen verschiedenen Ansätze zur Datenanalyse, Suche und Visualisierung, von Information in Freitexten. Dazu gehören beispielsweise verschiedenen Methoden des maschinellen Lernens, das „Document Retrieval“, die semantische Suche und die Visualisierung von Annotationen in Text. Die vorgestellten Methoden werden praxisnah anhand von verschiedenen Beispielen (Dokumentenklassifikation, Erkennung von Stimmungen im Text, ...) erläutert und diskutiert. Somit umfasst der dritte Tag im Wesentlichen:

  • Maschinelles Lernen für die Textanalyse
    • Beispielanwendung: Klassifikation von Patentkollektionen
    • Beispielanwendung: Erkennung von Stimmungen in Freitexten aus den sozialen Medien
  • Dokumentsuche
    • Semantische Suche und Indizierung
    • Werkzeuge für die semantische Suche
  • Visualisierung
    • Annotationswerkzeug
    • Darstellung von Termen und Relationen
    • Graphvisualisierung
    • Visualisierung von Daten im Tabellenformat

Tag 4: Praktische Arbeiten

Der vierte Tag legt abschließend den Fokus auf die praktische Erfahrung der Teilnehmer selbst. Jeder Teilnehmer kann im Labor am Rechner selber Freitext aus der Originalressource extrahieren, prozessieren und abschließend analysieren. Dabei wird die Apache UIMA Technologie für das Workflow Management eingesetzt.

  • Einarbeitung und Übungen mit dem Apache UIMA Rich Client
  • Einlesen von Rohdaten
  • Erkennung von Terminologie in Freitext
  • Suche von Dokumenten und weitere Textanalysen

 

Rahmen

Dauer: 3,5 Tage

Tagungssprache: Die Tagungssprache ist ggf. Englisch.

Maximale Teilnehmerzahl: 10 
Die Anmeldungen werden in der Reihenfolge des Eingangs berücksichtigt.

Veranstaltungsort

Fraunhofer Institutszentrum Schloss Birlinghoven
53757 Sankt Augustin

Teilnahmegebühr: 3.325 Euro

Die Teilnahmegebühr ist steuerfrei gem. § 4 Nr. 22a UStG. In den Gebühren für die Schulungsmodule sind Begleitunterlagen auf Englisch und Verpflegung enthalten. Im Anschluss an jedes Schulungsmodul erhalten Sie eine Teilnahmebescheinigung.

Bitte beachten Sie die Storno- und Teilnahmebedingungen.

Falls Sie die Anmeldung über eine Bestellung vornehmen, erbitten wir eine Kopie der Bestellung an "datascientist(at)iais.fraunhofer.de".

Termine und Anmeldung

Vielen Dank für Ihre Anmeldung zu unserer Schulung. Sie erhalten eine Bestätigung per E-Mail. 

* Pflichtfelder

Beim Abschicken des Formulars ist ein Fehler aufgetreten. Bitte wenden Sie sich direkt an einen der Ansprechpartner auf unserer Webseite.

Termine
Hinweis: Gemäß § 26.1 Bundesdatenschutzgesetz unterrichten wir Sie über die Speicherung Ihrer Anschrift in einer Datei und die Bearbeitung mit automatischen Verfahren.
Stornogebühren