publicplan E-Government Blog Sliderbild

Suchtechnologien / Teil 1: Enterprise Search

Blog

Kontakt

publicplan GmbH

Kennedydamm 24
40476 Düsseldorf

Tel +49 (0)211 635501-80
Fax +49 (0)211 635501-89

infoatpublicplan.de ()

Suchtechnologien / Teil 1: Enterprise Search

Autor
Dr. Christian Knebel
Datum

Auch in diesem Jahr wird sich im Blog von publicplan Einiges tun, da wir für Sie wieder viele informative und spannende Artikel rund um IT-Themen mit Bezug zur öffentlichen Hand bereitstellen. Starten wollen wir mit einer Blog-Reihe zum Thema „Suchtechnologien“, bei der es primär um Suchmaschinen für Unternehmen geht, sowie deren Chancen und praktische Anwendung in der öffentlichen Verwaltung.

Der erste Teil dieser Blog-Reihe beschäftigt sich zunächst mit einigen technischen Grundlagen und soll einen kleinen Einstieg in die Welt der Suchmaschinen geben. Im weiteren Verlauf der Blog-Reihe werden wir uns explizit der Suchmaschine „YaCy“ widmen und unter anderem unser Projekt „Verwaltungssuchmaschine NRW“ näher vorstellen.

Suchmaschinen können in der Disziplin des Information Retrieval (IR) angesiedelt werden. Dieses Fachgebiet dient grob gesagt der Beschaffung von Informationen und beinhaltet Verfahren, die das computergestützte Suchen von Inhalten beherrschen. Teilbereiche sind unter anderem das Web IR, das Internetsuchmaschinen wie zum Beispiel Google abdeckt, sowie das Enterprise IR, bei dem es um Suchmaschinen geht, die speziell in Unternehmen zum Einsatz kommen (Enterprise Search) und einige signifikante Unterschiede zu öffentlich zugänglichen Web IR-Systemen aufweisen.

Die Techniken, die sich hinter dem Web IR und Enterprise IR verbergen, sind jedoch grundsätzlich ähnlich. Beide IR-Systeme betreiben zwei elementare Phasen: die Aufbereitung der Informationen (Informationsakquise) und die Ausführung der Suchanfrage durch den Benutzer (Query). Bei der Informationsakquise kommen sogenannte Crawler zum Einsatz, die für die Beschaffung der Informationen zuständig sind. Im Falle des Web IR interpretieren diese automatisierten Programme den HTML-Code von Webseiten und folgen den darauf enthaltenen Hyperlinks. Anschließend werden die gewonnenen Informationen aufbereitet und in eine effizient durchsuchbare Struktur überführt (Index). Dem Indexierungsvorgang unterliegen einige Verfahren, auf die wir hier nicht näher eingehen wollen.

Beim Ausführen einer Suchanfrage wird der erstellte Index nach Treffern durchsucht, so dass der Benutzer eine Liste mit Ergebnissen erhält, die idealerweise vorher mit einem Ranking-Verfahren sortiert wird. Auch hier gibt es verschiedene Funktionen, die dafür sorgen, dass die Suchanfrage des Benutzers möglichst relevante Treffer ausgibt (Relevance Ranking). Die Personalisierung des Suchvorgangs durch den Benutzer kann ebenfalls Einfluss auf die wiedergegebene Treffermenge haben, wie zum Beispiel die Einbeziehung des Standorts des Suchenden. Im Falle eines Enterprise IR-Systems ist die Grundlage zur Personalisierung der Suchergebnisse die Identifikation des Anwenders, bei der benutzerspezifische Zugriffsrechte berücksichtigt werden.

Dies ist bereits einer der Unterschiede zwischen Enterprise IR-Systemen und herkömmlichen Internetsuchmaschinen. So spielen bei einer unternehmensweiten Suchmaschine zum Beispiel administrative Aspekte eine außerordentliche Rolle, da festgelegt werden muss, welcher Mitarbeiter welche Informationen abrufen darf. Im Enterprise IR kann der Administrator die Personalisierung vornehmen, indem dieser Benutzerprofile anlegt und diese mit Zugriffsrechten ausstattet. Zusätzlich haben Administratoren Einfluss auf die Menge der Informationsobjekte, die vom Crawler aufgespürt und indexiert werden. Der Index, der die Inhalte repräsentiert, sowie die Benutzerdaten, die für die Zugriffsverwaltung genutzt werden, liegen demnach auf einer Ebene, die bei einem Enterprise IR-Systems aus Sicherheitsgründen unter Aufsicht stehen.

Ein weiterer Unterschied zu herkömmlichen Web IR-Systemen sind die unterschiedlichen Informationsquellen in einem Unternehmen. Neben vielfältigen Dateiformaten, wie beispielsweise Office Dateien, PDF, etc., spielt die Berücksichtigung der Speicherorte ebenfalls eine große Rolle, da relevante Informationen zum Beispiel auch in Datenbanken abgelegt sind. So muss sich ein Enterprise IR-System der Herausforderung stellen, dass die Informationen aus einer Vielzahl digitaler Formen entstammen, wie zum Beispiel aus Intranet-Textinhalten, Datenbanken, E-Mails oder Dokumente. Auch Informationen, die nur in Drittsystemen, wie etwa Dokumentenmanagement-Systemen, enthalten sind, müssen unter Umständen mit einbezogen werden.

Genau aus diesem Grund steigt auch die Bedeutung von Suchinstrumenten in Unternehmen und dementsprechend auch in der öffentlichen Verwaltung, da neben der Vielfalt der Informationsquellen auch die Menge der digital verfügbaren Informationen stetig zunimmt. Ein wichtiger Aspekt ist sicherlich die Verkürzung der Suchzeit, da für die Informationsbeschaffung unter Umständen ein hoher Zeit- und damit automatisch ein höherer Kostenaufwand entstehen kann. Die Herausforderung eines Enterprise IR-Systems ist demnach wie bei allen IR-Systemen eine Effizienzsteigerung bezüglich der wiedergegebenen Trefferliste. Das Relevance Ranking muss dafür sorgen, dass der Informationsbedarf des Benutzers gestillt wird, ohne dass dieser mit unnötigen Informationen konfrontiert wird. Hinzu kommt, vor allem im Bereich des öffentlichen Diensts, dass eine Enterprise IR-Lösung als zentraler Informationszugang kein Sicherheitsrisiko darstellen darf.

Zusammenfassend lässt sich sagen, dass Suchmaschinen, auch im Hinblick auf die öffentliche Verwaltung, ein unausweichliches technisches Hilfsmittel darstellen, um der stetig zunehmenden Informationsflut gewachsen zu sein.

Ihre Vorteile auf einen Blick:

  • Unterstützung bei der Suche nach arbeitsrelevanten Informationen
  • Zeit- und Kostenersparnis dank kürzerer Suchzeiten
  • Gesteigerte Handlungsfähigkeit und damit Effektivitätssteigerung
  • Erschließung von Informationen in sämtlichen Datenquellen

Im nächsten Artikel unserer Blog-Reihe „Suchtechnologien“ möchten wir ein Anwendungsbeispiel der öffentlichen Verwaltung näher betrachten, das auf die technischen Grundlagen dieses Artikels aufbauen wird.