Página 109 - ANAlitika9

Versión de HTML Básico

Analíti a
k
9
Revista de Análisis Estadístico
Journal of Statistical Analysis
Analítika, Revista de análisis estadístico, (2015), Vol. 9
Hacia un Algoritmo Optimo de Emparejamiento de Nombres
105
obtuvo un conjunto de registros menor del que se obtendr´ıa con el producto cartesiano entre
N1 y N2 equivalente a la operaci´on N1 + N2 de (m * n) si es que solamente se aplicara una
t´ecnica de deletreo con todos los registros N1 (i = 1. . . n) y N2 (j = 1. . . m). En lugar de esto
se aplic´o la distancia solo a los registros fon´eticamente coincidentes.
Fase de evaluaci´on.
Los registros obtenidos en la fase previa tuvieron que ser clasificados por coeficiente de
similitud en orden descendiente. Aquellos emparejamientos con el m´as alto coeficiente se se-
pararon en un conjunto de datos final. El resto de valores bajos de emparejamientos fueron
rechazados. Los emparejamientos duplicados con valores altos o bajos tuvieron que ser ana-
lizados para detectar la presencia de hom´onimos. No se obtuvieron casos de hom´onimos pero
en caso de que se hubieren presentado, se pudo haber utilizado una condici´on de restricci´on
(ej. lugar de nacimiento). Lo que se consigui´o en esta fase fue un conjunto emparejamientos
altamente aproximado. Al final se encontr´o, por cada persona, el promedio de los valores de
similitud alcanzados para las cadenas de caracteres de nombres propios y de apellidos. Luego
se ordenaron los registros finales en forma descendente por el valor promedio de similitud
para cada persona y se descartaron los registros que ten´ıan valores de similitud inferiores al
95 %. El criterio para elegir este valor fue experimental y se bas´o en una revisi´on hist´orica
de casos correctos en muestras de prueba mientras se probaba el algoritmo. Los casos de
sinonimia entre un registro de persona en N1 con varios id´enticos de los similares en N2 pu-
dieron haberse comparado con relaci´on a otra variable com´un como el lugar de nacimiento,
sin embargo para efectos de este caso de estudio, solo fue indispensable evaluar las similitu-
des a trav´es de las t´ecnicas sin introducir otro tipo de comparaciones que involucraran otros
campos, es decir, se elimin´o el ruido en el algoritmo.
4. Resultados de ejecuci´on del algoritmo RNE
Para aplicar el algoritmo RNE a la b´usqueda de coincidencias de personas, se dividi´o la
muestra aleatoria N1 de 15,746 empadronados en 32 sub-muestras homog´eneas de alrede-
dor de 524 casos. A cada una de las sub-muestras se la emparej´o con la muestra N2 de
15,746 cedulados. Como resultado se obtuvo un total de 9,092 registros emparejados de
4,097 coincidencias exactas y 4,995 coincidencias aproximadas. As´ı, la completitud de casos
emparejados fue del 57.7 %.del total de N1, con un 45.0 % coincidencias exactas antes de
aplicar el algoritmo y un 54 % de coincidencias aproximadas despu´es de aplicar el algoritmo.
5. Evaluaci´on del algoritmo RNE
Se estableci´o como unidad de an´alisis el algoritmo RNE medido a trav´es de su factor de
exactitud (F1). Se hicieron varias corridas sucesivas con las 32 sub-muestras tomadas de la
10