04.08.2016  

Volltextsuche

Zusätzlich zu der vom WebGenesis®-Basissystem bereitgestellten Suche in Feldern ist mit Hilfe des Application Service IREngine eine Freitextsuche in Inhalten, alternativer Darstellung und auf externe Seiten, die durch einen globalen Verweis beschrieben sind, möglich.

Die technischen Anforderungen an ein solches System sind in /IREngine/ beschrieben.

Volltextsuche

Vorgehensweise und Funktionalität

  1. Erzeuge / Aktualisiere Suchindex
  2. Suche über den Index
  3. Festlegung der Indizierung von externen Links
Glossarbegriff


Neuen Such-Index erzeugen

Um eine performante Suche zu ermöglichen, legt die IR-Engine mit Hilfe des automatisch im Hintergrund ablaufenden Indexierungsprozesses regelmäßig Hilfsinformationen, den sog. Index ab. Suchanfragen führen nicht zu einer direkten Suche in den Dokumenten; vielmehr wird der Index durchsucht.

Der Gesamtindex besteht aus 3 Teilindices:

Index für Metadaten Alle Felder von WebGenesis® Einträgen werden in diesem Index gespeichert.
Index für Inhalte und alternative Darstellung (Layoutdateien) Hier werden alle hochgeladenen Dateien gespeichert
Index für "Global Links" Hier werden Dateien gespeichert auf die durch einen globalen Verweis verwiesen wird. Ein Administrator kann angeben bis zu welcher Tiefe die externen Seiten indiziert werden sollen.

Da der Index beträchtlich groß werden kann, wird er nicht im Hauptspeicher gehalten, sondern auf einem Sekundärspeicher.

Der Indexierungsprozeß führt in einem festgelegten Intervall eine automatische Reorganisation des gesamten Index durch. Er prüft, welche Dokumente seit der letzten Erzeugung des Index gelöscht, hinzugefügt oder verändert wurden und trägt diese Veränderungen in den Index ein. Die Standardeinstellung für ein Intervall beträgt 1 Stunde. Sie kann durch Konfigurierung geändert werden.

Die Indexierung bezieht momentan folgende Inhaltsformate mit ein:

.txt
(reine Texte im ANSI oder DOS-Zeichensatz)
.html
(wie .txt, jedoch mit Markierungen (tags) zur Browser-Steuerung)
.doc
(Microsoft Word-Dokumente)
.ppt
(Microsoft Powerpoint-Dokumente)
.xls
(Microsoft Excel-Dokumente)
.pdf
(Adobe PDF-Dokumente)


Suche über den Index

Ist die IREngine installiert, bietet die Liste der Suchergebnisse ein Ranking an, d.h. die Suchergebnisse mit der besten Übereinstimmung stehen am Anfang. Die Übereinstimmung eines Suchergebnisses wird als Prozentzahl angezeigt. Die Sortierung nach Titel, Datum, etc. ist jedoch weiterhin möglich.

Ein einzelnes Suchergebnis kann ein WebGenesis Eintrag, ein Dokument in den Inhalten (oder im Layout) oder ein externes Dokument auf das mit einem globalen Verweis verwiesen wurde.

Ergebnis der Suche

Beim Anklicken eines gefundenen Eintrages oder eines Dateinamens wird diese(r) angezeigt, die Suchbegriffe werden dabei markiert. Muss eine Datei zur Darstellung erst heruntergeladen werden (lokaler Viewer), kann die Markierung der Suchbegriffe nicht wie gewohnt angezeigt werden.



Festlegung der Indizierung von externen Links

Administratoren können bei der Bearbeitung eines Eintrags der Kategorie Globaler Verweis die Indizierung des Zieles angeben.

Bearbeitung eines globalen Verweises

Folgende Optionen stehen zur Verfügung:

Verweis indizieren Ist hier ein Haken gesetzt wird die Zielseite des globalen Verweises indiziert und ist über die Suche von WebGenesis auffindbar.
Indizierungstiefe Hier kann angegeben werden ob auch Seiten die von der Zielseite verlinkt werden indiziert werden. Die Tiefe gibt an wie weit weitere Links verfolgt werden.
Server beibehalten Ist dieser Haken gesetzt werden Links nur auf dem gleichen Server weiterverfolgt (s. Indizierungstiefe) welcher im Startziel enthalten ist.


Konfiguration

Der System Administrator hat die Möglichkeit folgende Konfigurationen vorzunehmen:

Indexierungs-
intervall
Zeitabstand (in Sekunden), in dem der Indexierungsprozess angestoßen wird (Standardwert 1 Stunde). Durch die Angabe von 0 kann der Indexierungsprozess abgeschaltet werden.
Die Erzeugung eines neuen Index kann erzwungen werden, indem der Server heruntergefahren, der alte Index gelöscht und danach der Server wieder hochgefahren wird.
Beim Hochfahren, stellt das System fest, dass kein Index vorhanden ist und generiert unmittelbar einen neuen.
Stellt das System beim Hochfahren fest, dass ein Index vorhanden ist, wird das Indexierungsintervall abgewartet und danach die Aktualisierung (update) des Index angestoßen.
Während der Aktualisierungsphase bleibt der "alte" Index aktiv. Die Umschaltung erfolgt, wenn der Aktualisierungslauf vollständig abgeschlossen ist.
Reader Die IREngine stellt mehrere Reader bereit, das sind Einleseprozeduren für bestimmte Dokumenttypen (siehe Dokumenttypen). Die Reader werden automatisch konfiguriert. Jedoch besteht die Möglichkeit einem Reader noch weitere Dateiendungen zuzuweisen. Die Standardkonfiguration sieht folgendermaßen aus:

IREngine.Reader.ASCIItoText=txt text
IREngine.Reader.HTMLtoText=html htm
IREngine.Reader.DOCtoText=doc
IREngine.Reader.XLStoText=xls
IREngine.Reader.PPTtoText=ppt
IREngine.Reader.PDFtoText=pdf

Das bedeutet, dass z.B. der Reader

IREngine.Reader.HTMLtoText

für das Einlesen von Dokumenten mit den Endungen html oder htm verwendet wird.
Stoppwort-
liste
Soll eine Stoppwortliste verwendet werden, muss sie in das Verzeichnis des Indexierungsprozesses unter dem Namen stoplist.txt kopiert werden. Eine Standard-Stoppwortliste wird mit ausgeliefert.
Ausschluss-
liste
Soll eine Ausschlussliste verwendet werden, muss sie in das Verzeichnis des Indexierungsprozesses unter dem Namen excludelist.txt kopiert werden. Alle Dateien, die sich in einem der hier eingetragenen Verzeichnisse (absolute Pfade oder relativ zum Index-Ordner) befinden, werden von der Indexerzeugung ausgeschlossen.