Die Nadel im Heuhaufen finden

16. Juli 2007 - Factspotter von Xerox vereint umgangssprachliche Abfragen mit einer linguistischen Suchmethodik. Sie ist für datenintensive Umgebungen gedacht.

Wissenschaftler des Xerox Research Center Europe in Grenoble haben ­eine neue Software für die Informations­sucher entwickelt, welche die Bedeutung von Worten in ihrem Umfeld ­erkennt. Da die Software auf die menschliche Denk- und Sprechweise hin programmiert ist, kann sie, wie Xerox schreibt, im Unterschied zu üblichen Suchmaschinen anstelle von Tausenden wenig relevanter Treffern die genau passenden Fundstellen ausgeben. Die Technologie erkennt aufgrund des Kontextes beispielsweise, ob ein Zahn im Gebiss eines Menschen oder an einem Zahnrad gemeint ist.


Angelina verzweifelt gesucht

Es werden auch Textstellen berücksichtigt, welche die eigentlichen Suchbegriffe nicht beinhalten. Eine normale Suchmaschine liefert für die Schauspielerin Angelina Jolie nur ­Dokumente und Bilder, in denen die Begriffe «Angelina» und/oder «Jolie» vorkommen. Daher finden herkömmliche Data-Mining-Produkte nur gerade 40 Prozent aller relevanten Informationen, darunter zudem vieles von zweitrangiger Bedeutung. Factspotter dagegen listet auch Fundstellen auf, in denen Jolie nur mit «sie» oder «die Schauspielerin» bezeichnet wird. Ausserdem kann Factspotter mit abstrakten Begriffen wie «Leute» oder «Gebäude» umgehen.
Dafür listet die Suchtechnik nicht das gesamte Dokument auf, sondern nur Passagen, welche die Suchkriterien erfüllten. Diese Eigenschaften ermöglichen es Factspotter im Gegensatz zur reinen Begriffssuche, nur schwer zu findende Informationen schnell aufzuspüren und komplexere Zusammenhänge zu erkennen.


Nicht fürs Internet

Factspotter wurde nicht fürs Web, sondern für abgegrenzte Themen­bereiche entwickelt, weil zunächst eine Klassifizierung der Worte in Themenbereiche und die Zuordnung zu weiteren Begriffen erfolgen muss. Der riesigen Themenvielfalt und Datenmenge im Internet ist jedoch nur mit Algorithmen beizukommen. Entsprechende Verfahren existieren zwar, sind aber zu ungenau, um zufriedenstellende Ergebnisse zu liefern.
Die Suchmaschine wird daher vor allem in datenintensiven Umgebungen wie Risikomanagement oder pharmazeutischer und rechtlicher Recherche eingesetzt werden. Als erstes will ­Xerox Global Services die Software im Rahmen der neuen Xerox Litigation Services anbieten, die Anwälten und Behörden ermöglichen, spezifische Fakten aus juristischen Dokumenten herauszufiltern. (fis)

Copyright by Swiss IT Media 2022