Serie: Kennen Sie die Pragmatis-PL/SQL-Libraries?

Techinfo 1: pragmatisConvert.phonetischDeutsch

 
Pragmatis entwickelt und pflegt für den Einsatz in Datenbankwendungen eine PL/SQL-Bibliothek, mit kleinen Helferlein und mächtigen Logikbausteinen.
Der erste Teil einer Serie behandelt ein "deutsches" SOUNDEX. SOUNDEX dient zur phonetischen Ähnlichkeitssuche. Damit ist es beispielsweise möglich, in einer Namensliste Einträge wie "Meier" auch unter anderen Schreibweisen, wie "Maier", "Mayer" oder "Mayr", zu finden.  Wie die meisten PL/SQL- und SQL-Entwickler wissen, liefert die originale Oracle-Funktion SOUNDEX für die deutsche Sprache oft nur unbefriedigende Ergebnisse. Eine speziell für die deutschsprachige Ähnlichkeitssuche entwickelte Funktion steht nun mit PragmatisConvert.phonetischDeutsch zur Verfügung. Diese Funktion ist z.B. zur Konsolidierung von Adressstämmen hilfreich, weil damit ähnlich klingende Einträge als potentielle Duplikate isoliert werden können.

Grundlage Kölner Phonetik:
Die Kölner Phonetik (auch Kölner Verfahren) ist ein phonetischer Algorithmus, der Wörtern nach ihrem Sprachklang eine Zeichenfolge zuordnet, den phonetischen Code. Ziel dieses Verfahrens ist es, gleich klingenden Wörtern denselben Code zuzuordnen, um bei Suchfunktionen eine Ähnlichkeitssuche zu implementieren. Damit ist es beispielsweise möglich, in einer Namensliste Einträge wie "Meier" auch unter anderen Schreibweisen, wie "Maier", "Mayer" oder "Mayr", zu finden. Die Kölner Phonetik ist, im Vergleich zum bekannteren Russell-Soundex-Verfahren, besser auf die deutsche Sprache abgestimmt. Sie wurde 1969 von Postel veröffentlicht.
(Quelle http://de.wikipedia.org/wiki/K%C3%B6lner_Phonetik)

Beispiel:

SQL> select soundex('jaroschewitz')  as jaroschewitz, soundex('jaroszewicz')  as jaroszewicz from dual;

JAROSCHEWITZ JAROSZEWICZ
------------ -----------
J623         J622

SQL> select pragmatisconvert.phonetischDeutsch('jaroschewitz') as jaroschewitz, pragmatisconvert.phonetischDeutsch('jaroszewicz') as jaroszewicz  from dual;

JAROSCHEWITZ                                                                     JAROSZEWICZ
-------------------------------------------------------------------------------- --------------------------------------------------------------------------------
07838                                                                            07838

Hier scheitert z.B.  SOUNDEX, obwohl die Aussprache im Deutschen gleich wäre!


Interessiert? Für weitere Informationen wenden Sie sich bitte an  oder
verwenden das Kontaktformular http://www.pragmatis.de/kontakt/kontaktformular.
(#PL/SQL, #Pragmatis-Libraries)