Página 103 - ANAlitika9

Versión de HTML Básico

Analíti a
k
9
Revista de Análisis Estadístico
Journal of Statistical Analysis
Analítika, Revista de análisis estadístico, (2015), Vol. 9
Hacia un Algoritmo Optimo de Emparejamiento de Nombres
99
borrado o sustituci´on de caracteres hechas para equiparar dos palabras; esta t´ecnica se conoce
como Distancia de Leveinshtein-Damerau. Otras t´ecnicas de deletreo obtienen el valor de
similitud mediante otros m´etodos como el relacionado con el reconocimiento de patrones de
texto y la divisi´on de palabras en sub-unidades de N caracteres (N-grams). Estos m´etodos no
necesitan de ninguna transformaci´on fon´etica. Finalmente, todo lo que se fusione a trav´es de
m´etodos fon´eticos con m´etodos de distancia de edici´on se conoce como t´ecnicas combinadas.
La m´as conocida es Editex. Esta ´ultima introduce verificaci´on de sonidos iguales en las
operaciones de distancia de la T´ecnica de Levenshtein y Damerau para descartar errores en
la medici´on debido a la presencia de similitud fon´etica en los nombres.
Lo relevante de las t´ecnicas de emparejamiento fon´etico son las adaptaciones que de ellas
se han hecho a lo largo de los a˜nos para obtener un mayor n´umero de similitudes aproximadas
de nombres. Lo que comenz´o con un simple algoritmo de indexaci´on de apellidos en lenguas
anglosajonas, mediante reducci´on de su representaci´on escrita a 6 d´ıgitos (Soundex), ha dado
origen a una serie de algoritmos similares con reglas adicionales de representaci´on adaptados
a nombres en lenguas europeas (Metaphone, Phonex, NYSIIS), hind´ues y ahora tambi´en,
asi´aticas. De inter´es experimental para el presente estudio son las dos nuevas adaptaciones
al c´odigo Soundex para la lengua castellana. La primera es propuesta por Fernandez L.
(2010) conocida como Soundex-SP y contempla reglas de indexaci´on para las letras Y, LL,
y CH. La segunda es de Mazariegos O. (2012) y va m´as all´a al introducir reglas adaptadas
a la pronunciaci´on centroamericana como la asignaci´on del d´ıgito 7 a las letras Q y J y la
reducci´on del sonido de la ‘CH’ a ‘V’ y el de la ‘LL’ a ‘J’.
La similitud de dos cadenas de caracteres es determinada por el valor de retorno de
la funci´on que calcula la distancia m´ınima de edici´on entre las cadenas de caracteres s y
t, denominada distancia de Leveinshtein (distld). La ecuaci´on 1 muestra el c´alculo de esta
distancia. El valor m´ınimo se obtiene de la sumatoria de transformaciones entre todas las
combinaciones posibles entre las posiciones de la cadena s y la cadena t. En la sumatoria;
x, y son los valores absolutos para las operaciones de inserci´on, borrado y sustituci´on de
caracteres.
W
i
es un valor de peso aplicado a cada operaci´on i.
distld
(
s, t
) = m´ın
N
i
=1
W
i
(
|
x
|
,
|
y
|
)
(1)
Par comprender mejor este c´alculo, a cada transformaci´on de (
|
x
|
,
|
y
|
) se la registra en
una matriz
d
(
i
= 1
..s, j
= 1
..t
), donde la posici´on i es de la primera cadena de caracteres
(
s
) y la posici´on j es de la segunda cadena (
t
). Las operaciones de una transformaci´on se
expresan en la ecuaci´on 2. El vector
c
(
i, j
) tiene los valores asignados durante el proceso. El
vector
W
i
es el peso asignado a cada operaci´on. Damerau introdujo en la ecuaci´on original
una nueva operaci´on: la de transposici´on. Esta identifica cuando un car´acter ha ocupado el
lugar que le correspond´ıa al siguiente o anterior en el nombre. Por ejemplo, la transposici´on
en los nombres ‘Gabriel’ y ‘Grabiel’ son muy comunes.
3