Wer Texte aus Dateien wie zum Beispiel PDF oder Word extrahieren muss um sie dann zu analysieren oder um sie einer Volltextsuche wie Lucene zu übergeben, der sollte sich das Projekt Apache Tika mal genauer ansehen. Apache Tika ist eine Library die Text und Metadaten aus verschiedenen Dateien auslesen kann. Dabei nutzt Tika existierende Parser [...]
Lucene Index in der Datenbank
In diesem Blog wird beschrieben wie man den Lucene Index in der Datenbank abspeichern kann. Lucene enthält bereits ein entsprechendes Interface (JdbcDirectory), allerdings wird keine Implementation dazu geliefert. Das Compass Projekt füllt nun diese Lücke und liefert eine entsprechende Implementation. Dies ist eine interessante Lösung um einen Volltextsuche Index in einer clustered Umgebung aufzubauen. Auf diese [...]