Página 111 - ANAlitika9

Analíti a

k

9

Revista de Análisis Estadístico

Journal of Statistical Analysis

Analítika, Revista de análisis estadístico, (2015), Vol. 9

Hacia un Algoritmo Optimo de Emparejamiento de Nombres

107

La prueba de Kolmogorov Smirnov (KS) para una muestra dio como resultado valores de

significancia menores a 0.05 para las series de valores de F1 correspondiente a los empareja-

mientos N1 vs. N2 de la Tabla 1. De esta manera, ambas series para F1 antes y F1 despu´es

no se aproximan a la curva Normal, por lo tanto no justifica aplicar la prueba normal

t

de

muestras relacionadas. En su lugar se aplic´o la prueba no param´etrica de rango de Wisconsin

para muestras relacionadas.

De acuerdo con los resultados de la Tabla 2, en los 32 casos de ejecuci´on del algoritmo

en las sub-muestras, el estad´ıstico significativo (2 colas) es inferior a 0.05.

Tabla 2

:

Prueba t del signo rango de Wilcoxon

N Rango Medio

Suma de Rangos

POST Factor de Exactitud

−

Rangos Negativos 1

a

2.00

PRE Factor de Exactitud

Rangos Positivos 30

b

16.47

494.00

Lazos

1

c

Total

32

Test Estad´ısticas

POST Factor de Exactitud PRE Factor de Exactitud

Z

-4.821

a

Asymp. Sig. (2-colas)

.000

a. Basado en rangos negativos

b.Test del Signo Rango de Wilcoxon

Fuente:

Resultados SPSS de Prueba t para muestras Relacionadas

6. Conclusiones

Las t´ecnicas fon´eticas permiten reducir el n´umero de casos de nombres coincidentes

para un volumen de datos muy grande en un tiempo relativamente corto, del orden de

unos cuantos segundos. Adem´as funcionan eficientemente como m´etodos de indexaci´on

para b´usquedas de nombres similares. Sin embargo, carecen de precisi´on en la valoraci´on

de la similitud entre nombres y solamente detectan semejanzas de escritura debido a

una pronunciaci´on equivocada utilizando a reglas conocidas del lenguaje.

Las t´ecnicas de deletreo y distancia son independientes del lenguaje en la que est´an

escritas las palabras. Sin embargo necesitan del m´aximo de comparaciones posibles

entre los caracteres presentes en los nombres y requieren de mucho m´as tiempo de

procesamiento. Un caso de excepci´on de mejora a estas t´ecnicas es la t´ecnica combinada

Editex, sin embargo, al introducir un peso de similitud fon´etica en las operaciones de

la distancia de edici´on, multiplica considerablemente el tiempo de procesamiento y se

vuelve dependiente de las reglas del lenguaje en que est´an escritas las palabras.

Un algoritmo combinado de t´ecnicas de emparejamiento como el propuesto aqu´ı tiene

un efecto ´optimo para encontrar similitudes entre nombres de personas en las bases

institucionales del Estado, sumando las ventajas de ambos tipos de t´ecnicas. El an´alisis

12