Juan Carlos Delgado Loyola
Analítika, Revista de análisis estadístico, (2015), Vol. 9
102
peraron el l´ımite (45.10 %) seguida de Levenshtein (43.40), Levenshtein-Damerau (43.16 %),
Guth (13.71 %), de N-gram (3.70 %), de Jaro (4.65 %) y la de Jaro-Winkler (5.31 %). Para
casos de nombrespropios, se obtuvo una distribuci´on de resultados similar: Editex (69.87 %),
Levenshtein (66.67 %), Levenshtein-Damerau (67.25 %), Guth (24.82 %), de N-gram (2.66 %),
de Jaro (6.90 %) y la de Jaro-Winkler (8.71 %).
De la comparaci´on de tiempos de procesamiento entre t´ecnicas se encontr´o que las t´ecni-
cas fon´eticas son relativamente mucho m´as r´apidas que las t´ecnicas de deletreo y distan-
cia.Tomando en cuenta que la indexaci´on de nombres mediante c´odigos fon´eticos se la hizo
una sola vez en cuesti´on de pocos minutos, la operaci´on de juntura entre nombres simila-
res entre la muestra M1 y la muestra M2 se la hizo a su vez en cuesti´on de segundos, con
un m´aximo de 80 segundos en apellidos y de 159.5 segundos en nombres propios para la
t´ecnica Metaphone, seguido de las otras t´ecnicas Soundex, Soundex-SP, Phonex y NYSIIS,
respectivamente. Sin embargo el tiempo empleado en la ejecuci´on de t´ecnicas de deletreo y
distancia, aplicadas para emparejar las mismas muestras, fue del orden de horas de proce-
samiento, siendo la de Levenshtein-Damerau (6.15 horas) la que mayor tiempo obtuvo. En
cuanto a la t´ecnica combinada Editex, esta super´o a todas en tiempo de ejecuci´on: (10.38
horas).
Con los resultados de la comparaci´on de t´ecnicas se analiz´o la factibilidad de construir
el algoritmo RNE en 5 fases. El flujo de dicho algoritmo se muestra en la Figura 1.
7