Página 105 - ANAlitika9

Versión de HTML Básico

Analíti a
k
9
Revista de Análisis Estadístico
Journal of Statistical Analysis
Analítika, Revista de análisis estadístico, (2015), Vol. 9
Hacia un Algoritmo Optimo de Emparejamiento de Nombres
101
distintas m´etricas orientadas a las tareas de emparejamiento han sido completadas con ´exito,
el presente estudio tambi´en ha utilizado la distancia de edici´on como una medida confiable
de probabilidad de similitud entre nombres. Desafortunadamente, no hay una sola t´ecnica de
emparejamiento que consiga lo mejor en todas las situaciones. Lo que este y otros trabajos
proponen es una combinaci´on de t´ecnicas. Son de inter´es los estudios de Navarro (2001) y
Peng et al. (2001).
Desde su inicio, las pr´acticas experimentales con estas t´ecnicas han tratado de simplificar
el trabajo de los emparejamientos con tareas de pre-procesamiento. Para el presente caso de
estudio, los registros de la muestra han sido preparados con el fin de evitar casos de nom-
bres incompletos o con caracteres especiales y abreviaturas. Sin embargo, no se han hecho
correcciones ortogr´aficas o sint´acticas en los nombres, ya que se ha tratado que el algoritmo
propuesto sea independiente del lenguaje. En un futuro cercano se podr´ıa especializar dicho
algoritmo a las lenguas m´as utilizadas en los nombres, retomando el trabajo de Nayan et al.
(2002), el cual inclu´ıa reconocimiento de nombres en lenguas hind´ues e ingl´es. Lo que podr´ıa
decirse de experimentos anteriores es que en realidad no hay una sola t´ecnica que pueda
resolver todas las tareas del emparejamiento, especialmente cuando hay una gran diversidad
de or´ıgenes etimol´ogicos en los nombres de las personas, y adem´as, porque hay muchas ma-
neras de medir la aproximaci´on de caracteres en los nombres comparados utilizando deletreo
y distancia de edici´on.
3. Principales resultados
Un algoritmo de reconocimiento de entidades, al que se lo ha nombrado aqu´ı con las
siglas RNE, se dise˜n´o, se construy´o e implement´o a partir de la captura de nombres desde
dos bases institucionales del Estado, con informaci´on de los mismos individuos pero con
variantes en la escritura de los mismos. Mediante el algoritmo se llev´o a su forma can´onica
cada componente del nombre de la persona: su nombre propio y sus apellidos. Se utiliz´o el
algoritmo fon´etico Soundex-SP. Se compararon los c´odigos fon´eticos y se obtuvo un primer
resultado. La t´ecnica de distancia, a trav´es del algoritmo Levenshtein-Damerau sirvi´o para
clasificar los resultados obtenidos y descartar las coincidencias de baja calidad. Finalmente
se calcul´o un factor de exactitud para evaluar el algoritmo antes y despu´es de aplicarlo.
La prueba estad´ıstica T de muestras relacionadas aplicada sobre los valores de dicho factor
permiti´o contar con evidencias claras para establecer si hubo o no diferencia significativa por
efecto del algoritmo y no por virtud del azar.
3.1. Muestras experimentales de datos
Una muestra N1 de 15,746 registros se cre´o a partir de nombres completos tomados al azar
de entre los 14, 483,499 de empadronados que estuvieron cedulados en el Censo de Poblaci´on
y Vivienda 2010. A esta muestra se emparej´o con otra N2, de 15,746 personas ceduladas
5
en Registro Civil y que se presume estuvieron presentes en el d´ıa del censo, es decir el 28
de noviembre de 2010. Las muestras se prepararon para emparejar los nombres de la base
de empadronados con los nombres de la base de cedulados utilizando el algoritmo RNE,
sin que intervenga otro campo adicional ni tampoco las c´edulas, ´unicamente los nombres de
ciudadanos.
3.2. Construcci´on del algoritmo RNE
El algoritmo RNE se construy´o para aplicarlo en un caso de estudio destinado a evaluar
similitudes de a) nombres propios y b) apellidos a la vez entre los registros N1 (1. . . n) de
la base de empadronados (CPV2010) y los registros de la muestra N2 (1. . . m) de cedulados
(RCIVIL). En este caso n = m. El objetivo de la implementaci´on fue fusionar registros por
nombres de las personas, por lo cual el algoritmo realizar´ıa un promedio general de los valores
probabil´ısticos de similitud obtenidos en (a) y en (b). Antes de la utilizaci´on de los resultados
en el an´alisis se descartaron casos de hom´onimos, es decir, cuando para un mismo registro
de N1 (1. . . n) le corresponde m´as de un registro similar en N2 (1. . . m).
Para la construcci´on del algoritmo fue necesario realizar un experimento preliminar para
comparar e identificar las t´ecnicas de emparejamiento a aplicar acordes con el caso de estudio
citado. Una muestra de 2,375 nombres propios, y otra de 2,253 apellidos principales, cada
uno con al menos diez variantes en su escritura y pronunciaci´on en el pa´ıs, se seleccionaron
entre los m´as frecuentes para comparar dichas t´ecnicas.
En cuanto a t´ecnicas de emparejamiento fon´etico, los resultados de este primer expe-
rimento indicaron que un alto porcentaje (82.08 %) de ciudadanos con apellidos de origen
hispano en el pa´ıs, y un porcentaje similar (70.03 %) de estas personas con nombres propios
tambi´en de origen hispano, influ´ıan significativamente en la cantidad de coincidencias de-
tectadas mediante una u otra t´ecnica fon´etica. Por consiguiente, se tom´o como pivote a la
t´ecnica Soundex-SP para comparar el n´umero de coincidencias aproximadas que eran capa-
ces de reconocer las otras t´ecnicas. Se obtuvo que la t´ecnica Soundex (71.97 % de casos) era
la que mayor se acercaba al n´umero de casos de nombres propios detectados por la t´ecnica
Soundex-SP, seguida de las otras t´ecnicas: Phonex (78.38 %), Metaphone (41.77 %) y NYSIIS
(21.83 %). En forma similar se compararon los n´umeros de casos de similitud aproximada de
apellidos entre la t´ecnica Soundex-SP y las otras t´ecnicas, encontrando la misma distribu-
ci´on con similares porcentajes: Soundex (77.36 %), seguida de Phonex (71.42 %), Metaphone
(28.82 %) y NSIIS (18,09 %).
En cuanto a t´ecnicas de emparejamiento de deletreo y distancia, para el mismo experimen-
to se estableci´o un l´ımite porcentual de similitud aproximada de
>
= 95 % tanto para nombres
propios como apellidos. Dicho porcentaje corresponde a valores m´ınimos de distancia de edi-
ci´on entre 1 y 2 puntos entre las palabras comparadas y para t´ecnicas de deletreo corresponde
alos valores m´aximos de su coeficiente de proximidad superior al dicho l´ımite porcentual. De
todas estas t´ecnicas, con la de Editexse obtuvo un rango mayor de casos de apellidos que su-
6