Internationaler Anbieter von Textanalyse Software
Ausganssituation
Jede größere Firma erzeugt jeden Tag unvorstellbare Mengen von Textinformation – von Word-Dokumenten über Emails bis zu kurzen Slack- und WhatsApp-Nachrichten innerhalb der Belegschaft. Normalerweise verschwindet ein Großteil dieser Daten in den Untiefen der Dateiablagen. Aber es gibt immer wieder Situationen, in denen es wichtig ist, einen Gesamtüberblick über alle Dokumente und die darin enthaltenen – und möglicherweise problematischen – Informationen zu haben:
- Im Falle einer Sicherheitsverletzung oder einer anderen Datenpanne muss ein Unternehmen unmittelbar wissen, wessen persönliche Daten betroffen waren. Und das sogar, wenn die ursprünglichen Dateien gar nicht mehr zugreifbar sind.
- Gemäß DSGVO bzw. GDPR kann jede Person jederzeit anfragen, welche persönlichen Daten eine Firma über sie abgelegt hat. Und Unternehmen müssen zeitnah – und sollten möglichst kostengünstig – antworten können.
- Im Falle einer gerichtlichen Auseinandersetzung ist es in einigen Gerichtsständen unabdingbar, dass elektronische Beweismittel verlässlich vorgelegt werden können. Das bedeutet, dass eine Firma in den USA z.B. verpflichtet werden kann, alle Dokumente zu einem Sachverhalt elektronisch zur Verfügung zu stellen.
Unser Beitrag
Unter unserer Führung wurde eine einzigartige Textanalyselösung für einen multi-nationalen Markt entwickelt.
Diese Lösung ermöglicht es, Millionen von Dokumenten (z.B. den Email-Verkehr mehrerer Firmen) zu importieren, analysieren, aggreggieren und via User Interface und API zurückzuspielen. Hierbei werden diverse Technologien verwendent, um die Recherche in diesen Daten so effizient wie möglich zu machen:
- Automatische Gruppierung von Email-Konversationen (Email-Threads)
- Gruppierung von Duplikaten und ähnlichen Dokumenten
- Zusammenstellung thematisch verwandter Dokumente (Clustering)
- Extraktion von Entitäten und Pivotierung der Daten anhand der extrahierten Informationen
- Automatisch lernende Klassifikation in relevante und nicht-relevante Daten (Continuous Active Learning)
Darüber hinaus konnte der Bekanntheitsgrad der neu entstehenden Marke durch gezieltes Marketing so stark gesteigert werden, dass ein Börsengang im Jahr 2020 erfolgte.