Página 111 - ANAlitika9

Versión de HTML Básico

Analíti a
k
9
Revista de Análisis Estadístico
Journal of Statistical Analysis
Analítika, Revista de análisis estadístico, (2015), Vol. 9
Hacia un Algoritmo Optimo de Emparejamiento de Nombres
107
La prueba de Kolmogorov Smirnov (KS) para una muestra dio como resultado valores de
significancia menores a 0.05 para las series de valores de F1 correspondiente a los empareja-
mientos N1 vs. N2 de la Tabla 1. De esta manera, ambas series para F1 antes y F1 despu´es
no se aproximan a la curva Normal, por lo tanto no justifica aplicar la prueba normal
t
de
muestras relacionadas. En su lugar se aplic´o la prueba no param´etrica de rango de Wisconsin
para muestras relacionadas.
De acuerdo con los resultados de la Tabla 2, en los 32 casos de ejecuci´on del algoritmo
en las sub-muestras, el estad´ıstico significativo (2 colas) es inferior a 0.05.
Tabla 2
:
Prueba t del signo rango de Wilcoxon
N Rango Medio
Suma de Rangos
POST Factor de Exactitud
Rangos Negativos 1
a
2.00
2.00
PRE Factor de Exactitud
Rangos Positivos 30
b
16.47
494.00
Lazos
1
c
Total
32
Test Estad´ısticas
POST Factor de Exactitud PRE Factor de Exactitud
Z
-4.821
a
Asymp. Sig. (2-colas)
.000
a. Basado en rangos negativos
b.Test del Signo Rango de Wilcoxon
Fuente:
Resultados SPSS de Prueba t para muestras Relacionadas
6. Conclusiones
Las t´ecnicas fon´eticas permiten reducir el n´umero de casos de nombres coincidentes
para un volumen de datos muy grande en un tiempo relativamente corto, del orden de
unos cuantos segundos. Adem´as funcionan eficientemente como m´etodos de indexaci´on
para b´usquedas de nombres similares. Sin embargo, carecen de precisi´on en la valoraci´on
de la similitud entre nombres y solamente detectan semejanzas de escritura debido a
una pronunciaci´on equivocada utilizando a reglas conocidas del lenguaje.
Las t´ecnicas de deletreo y distancia son independientes del lenguaje en la que est´an
escritas las palabras. Sin embargo necesitan del m´aximo de comparaciones posibles
entre los caracteres presentes en los nombres y requieren de mucho m´as tiempo de
procesamiento. Un caso de excepci´on de mejora a estas t´ecnicas es la t´ecnica combinada
Editex, sin embargo, al introducir un peso de similitud fon´etica en las operaciones de
la distancia de edici´on, multiplica considerablemente el tiempo de procesamiento y se
vuelve dependiente de las reglas del lenguaje en que est´an escritas las palabras.
Un algoritmo combinado de t´ecnicas de emparejamiento como el propuesto aqu´ı tiene
un efecto ´optimo para encontrar similitudes entre nombres de personas en las bases
institucionales del Estado, sumando las ventajas de ambos tipos de t´ecnicas. El an´alisis
12