Página 108 - ANAlitika9

Versión de HTML Básico

Juan Carlos Delgado Loyola
Analítika, Revista de análisis estadístico, (2015), Vol. 9
104
Fase de limpieza de nombres.
En esta fase, se trat´o de que los nombres se simplificaran hacia un alfabeto est´andar. En
efecto se hizo una traducci´on de ciertos fonemas a su equivalente fon´etico ´unico utilizado en la
mayor´ıa de lenguajes. Por ejemplo, para las letras que representan el sonido ‘S’ cuando tienen
la misma pronunciaci´on que la C o la Z se las convirti´o al car´acter ‘S’. Adem´as, tuvieron que
ser retirados los espacios dentro del texto y se trat´o de evitar al m´aximo todos los caracteres
especiales tales como “-”, “.”,”, “(“,”)”. El resultado de esta fase fue la transformaci´on a
datos estandarizados y limpios.
Fase de codificaci´on fon´etica.
Tanto los nombres propios como los apellidos en cada conjunto de datos debieron ser
traducidos a su equivalencia de c´odigo fon´etico. Por consiguiente, se utiliz´o el algoritmo
Soundex-SP por el hecho se produc´ıan m´as emparejamientos que con otros algoritmos. Lo
que se consigui´o en esta fase es un resultado preliminar de registros por similitud fon´etica.
Fase de emparejamiento fon´etico.
Se aplic´o una simple operaci´on de juntura para emparejar nombres propios y apellidos
codificados con la t´ecnica fon´etica. Para tal efecto se dividi´o la muestra grande de 15,746
registros en 17 peque˜nas muestras. A trav´es de esto consigui´o mayor rapidez en la ejecuci´on
del algoritmo. Para reducir el n´umero de coincidencias entre los conjuntos de la muestra N1
(i = 1. . . n) y la muestra N2 (j = 1. . . m), donde n = m se compararon los c´odigos fon´eticos
en lugar de los nombres originales y no se introdujo ninguna condici´on adicional con otros
campos de la base de datos. Una operaci´on de diferencia entre conjuntos (N1 - (N1 - N2))
permiti´o simular la juntura de dos bases de datos. Lo que se consigui´o en esta fase fue
una gran cantidad emparejamientos aproximados por similitud fon´etica con un total de k
registros, donde k
<
(m * n).
Fase de deletreo y distancia.
Una vez que el conjunto de datos de emparejamiento fon´etico fue generado por la opera-
ci´on de juntura en la fase previa, la similitud de cada par de nombres emparejados fon´etica-
mente (N1 - (N1 - N2) fue calificada por la operaci´on de distancia de Damerau-Levenshtein
que bien pudo haber sido tambi´en un algoritmo de deletreo m´as complejo tal como Editex o
Ngrams. Un coeficiente de similitud expresado en porcentaje se mostr´o con los resultados de
distancia calculada para cada componente de nombres de persona: apellidos y nombres pro-
pios. Luego, un coeficiente promedio se calcul´o para todo el nombre. Si se hubiera requerido
una mayor precisi´on con menos emparejamientos, Jaro y Jaro Winkler pudo haberse usado.
Lo que se consigui´o en esta fase fue una alta completitud, exactitud y precisi´on. Adem´as, se
9