Página 102 - ANAlitika9

Versión de HTML Básico

Juan Carlos Delgado Loyola
Analítika, Revista de análisis estadístico, (2015), Vol. 9
98
1. Introducci´on
Las t´ecnicas de emparejamiento de nombres tienen su fundamento te´orico en el Procesa-
miento del Lenguaje Natural (PLN) y el reconocimiento de entidades (RE) a partir de textos
escritos en cualquier idioma y generalmente las utilizan los algoritmos de b´usqueda. Aquellas
t´ecnicas que tienen el prop´osito de emparejar nombres provenientes de diferentes fuentes se
las ha denominado aqu´ı:T´ecnicas de Reconocimiento de Nombres de Entidad (RNE). Los
trabajos de Reynar (1998), y Huang et al. (2007) son ´utiles en este an´alisis.
La aplicaci´on sistem´atica de las t´ecnicas de emparejamiento de nombres en grandes bases
de datos ha hecho posible algunas aplicaciones como: el cobro efectivo de impuestos, la
ubicaci´on de historias cl´ınicas, la verificaci´on de datos para chequeo de visas, el seguimiento
a refugiados y personas sospechosas de terrorismo, la identificaci´on de clientes potenciales,
el censo basado en registros, etc. Dichos estudios han sido tratados por Hermansen (2006).
Son ´utiles tambi´en las aplicaciones y t´ecnicas RNE tratadas en Schay (2011). Finalmente,
hay estudios de estad´ısticas basadas en registros administrativos que sugieren estos tipos de
emparejamiento como los nombrados por Wallgren (2012).
Con la finalidad de obtener un registro ´unico de ciudadanos partiendo de la informaci´on
del ´ultimo censo de poblaci´on y vivienda de Ecuador y los registros de cedulados del Registro
Civil, se ha propuesto un algoritmo optimizado de emparejamiento de nombres de personas,
pues no se cuenta con c´edulas de identidad en el censo. Este art´ıculo trata sobre la evaluaci´on
de dicho algoritmo y se ha organizado de la siguiente forma: Una referencia a las t´ecnicas
RNE se presenta en el cap´ıtulo II. En el cap´ıtulo III se presenta los resultados de la evaluaci´on
del algoritmo RNE a trav´es de la medici´on de su factor de exactitud. La confirmaci´on de
validez estad´ıstica de resultados propone el rechazo de la hip´otesis nula, relacionada con la
uniformidad de eventos antes y despu´es del experimento, con una certeza de significaci´on del
95 %.
2. Marco conceptual
2.1. T´ecnicas de emparejamiento
Establecer una comparaci´on aproximada entre dos textos diferentes que tienen diferentes
or´ıgenes de datos es una tarea compleja que requiere m´as de una t´ecnica. Para el proceso de
emparejamiento de nombres se consideran tres grupos de t´ecnicas: 1) fon´eticas; 2) de deletreo
y distancia; y 3) combinadas. Las t´ecnicas fon´eticas establecen comparaciones de palabras por
similitud en la percepci´on de sonidos, cuando hay m´as de una forma escrita para representar
el mismo nombre. Estas t´ecnicas asignan c´odigos a cada secuencia de caracteres basados en
el sonido que estos producen. El emparejamiento se hace entre las formas can´onicas de los
nombres. Las t´ecnicas de deletreo y distancia, por su parte, generan un valor m´aximo de
similitud equivalente al valor m´ınimo de distancia que resulta de operaciones de insersi´on,
2