Página 104 - ANAlitika9

Versión de HTML Básico

Juan Carlos Delgado Loyola
Analítika, Revista de análisis estadístico, (2015), Vol. 9
100
d
(
i, j
) = m´ın
{
d
(
i
1
, j
) + 1
, insersion
d
(
i, j
1) + 1
, borrado
d
(
i
1
, j
1) +
c
(
i, j
)
, sustitucion
d
(
i
2
, j
2) +
c
(
i, j
1) +
c
(
i
1
, j
) + 1)
}
transposicion
(2)
Cabe mencionar otras t´ecnicas de deletreo como la de Guth, en la cual se obtiene un valor
de similitud por acumulaci´on de resultados en las variables dicot´omicas de cumplimiento
(1 =
Si
; 0 =
No
) de hasta doce reglas de similitud entre posiciones anteriores o posteriores
a cada caracter en dos palabras supuestamente similares. Sin embargo sus resultados no son
muy convincentes para nombres cortos.
De las t´ecnicas de deletreo que analizan caracteres comunes en los nombres para obtener
un valor m´aximo de similitud, las m´as exhaustivas en la b´usqueda y, por lo general; m´as
precisas son las de Jaro y Jaro-Winkler, analizadas por Christen (2006). El algoritmo de Jaro
calcula un valor de similitud entre dos cadenas, aceptando los caracteres que est´an dentro
de la mitad de la longitud de la cadena m´as larga. La similitud de Winkleres una medida
mejorada a la de Jaro. La ecuaci´on 3 muestra este valor de similitud.
sim
jaro
(
s
1
, s
2
) =
1
3
c
|
s
1
|
+
c
|
s
2
|
+
c
t
c
(3)
D´onde
s
1 y
s
2 son las dos cadenas de caracteres a comparar, c es el n´umero de caracteres
comunes y t es el n´umero de transposiciones:
2.2. Trabajos relacionados
Al igual que Kumar et al. (2010), este estudio propone utilizar el potencial de las t´ecnicas
fon´eticas en la indexaci´on de nombres, con el fin de reducir el gran volumen de datos iniciales
a un conjunto de registros similares en pronunciaci´on en poco tiempo de proceso. Ante la
pregunta ¿Puede desarrollarse una codificaci´on fon´etica adaptada al origen etimol´ogico de los
nombres?, se encontr´o que existen ciertos estudios de lenguajes latinos, los cuales proveen
una descripci´on de procesos fonol´ogicos en la creaci´on de nombres personales y c´omo los
cambios ling¨u´ısticos y culturales afectan a dichos nombres. En trabajos futuros pueden ser
de utilidad los estudios de Fall and Giraud-Carrier (2005), pues construyen chequeadores
de deletreo fon´etico para mejorar en la precisi´on del emparejamiento fon´etico. Tambi´en se
puede encontrar algo similar en los experimentos de Mendoza and Zamudio (2005), Christen
(2006) y Tib´on (2005).
El emparejamiento de nombres a trav´es de los algoritmos de distancia de edici´on ha tenido
una amplia aceptaci´on en la comunidad cient´ıfica que se dedica a la fusi´on probabil´ıstica
de registros. Tomando en cuenta el trabajo iniciado por Cohen et al. (2001), d´onde las
4