Página 108 - ANAlitika9

Juan Carlos Delgado Loyola

Analítika, Revista de análisis estadístico, (2015), Vol. 9

104

Fase de limpieza de nombres.

En esta fase, se trat´o de que los nombres se simplificaran hacia un alfabeto est´andar. En

efecto se hizo una traducci´on de ciertos fonemas a su equivalente fon´etico ´unico utilizado en la

mayor´ıa de lenguajes. Por ejemplo, para las letras que representan el sonido ‘S’ cuando tienen

la misma pronunciaci´on que la C o la Z se las convirti´o al car´acter ‘S’. Adem´as, tuvieron que

ser retirados los espacios dentro del texto y se trat´o de evitar al m´aximo todos los caracteres

especiales tales como “-”, “.”,”, “(“,”)”. El resultado de esta fase fue la transformaci´on a

datos estandarizados y limpios.

Fase de codificaci´on fon´etica.

Tanto los nombres propios como los apellidos en cada conjunto de datos debieron ser

traducidos a su equivalencia de c´odigo fon´etico. Por consiguiente, se utiliz´o el algoritmo

Soundex-SP por el hecho se produc´ıan m´as emparejamientos que con otros algoritmos. Lo

que se consigui´o en esta fase es un resultado preliminar de registros por similitud fon´etica.

Fase de emparejamiento fon´etico.

Se aplic´o una simple operaci´on de juntura para emparejar nombres propios y apellidos

codificados con la t´ecnica fon´etica. Para tal efecto se dividi´o la muestra grande de 15,746

registros en 17 peque˜nas muestras. A trav´es de esto consigui´o mayor rapidez en la ejecuci´on

del algoritmo. Para reducir el n´umero de coincidencias entre los conjuntos de la muestra N1

(i = 1. . . n) y la muestra N2 (j = 1. . . m), donde n = m se compararon los c´odigos fon´eticos

en lugar de los nombres originales y no se introdujo ninguna condici´on adicional con otros

campos de la base de datos. Una operaci´on de diferencia entre conjuntos (N1 - (N1 - N2))

permiti´o simular la juntura de dos bases de datos. Lo que se consigui´o en esta fase fue

una gran cantidad emparejamientos aproximados por similitud fon´etica con un total de k

registros, donde k

<

(m * n).

Fase de deletreo y distancia.

Una vez que el conjunto de datos de emparejamiento fon´etico fue generado por la opera-

ci´on de juntura en la fase previa, la similitud de cada par de nombres emparejados fon´etica-

mente (N1 - (N1 - N2) fue calificada por la operaci´on de distancia de Damerau-Levenshtein

que bien pudo haber sido tambi´en un algoritmo de deletreo m´as complejo tal como Editex o

Ngrams. Un coeficiente de similitud expresado en porcentaje se mostr´o con los resultados de

distancia calculada para cada componente de nombres de persona: apellidos y nombres pro-

pios. Luego, un coeficiente promedio se calcul´o para todo el nombre. Si se hubiera requerido

una mayor precisi´on con menos emparejamientos, Jaro y Jaro Winkler pudo haberse usado.

Lo que se consigui´o en esta fase fue una alta completitud, exactitud y precisi´on. Adem´as, se

9