Rodrigo Cajamarca y Hermann Mena
Analíti a
k
3
Revista de Análisis Estadístico
Journal of Statistical Analysis
Algoritmo 3
Aprendizaje desde el ejemplo modificado
entrada-salida múltiple
Entrada:
X
M
×
n
matriz de las variables de entrada
Y
M
×
H
matriz de las variables de salida
ε
f
>
0,
ω
>
0
1:
R
←
1
2:
b
1
←
y
1
3:
ˆ
θ
←
b
4:
c
1
j
←
x
1
j
j
=
1, . . . ,
n
5:
para
h
←
1,
H
hacer
6:
para
i
←
1,
M
hacer
7:
para
l
←
1,
R
hacer
8:
µ
il
←
n
∏
j
=
1
exp
−
1
2
x
i
j
−
c
l
j
σ
l
j
!
2
9:
fin para
10:
ξ
il
←
µ
il
∑
R
l
=
1
µ
il
11:
f
l
(
x
)
←
ˆ
θ
⊤
ξ
(
x
)
12:
si
|
f
l
h
(
x
)
−
y
l
h
|
>
ε
f
entonces
13:
R
←
R
+
1
14:
b
R
←
y
l
h
15:
ˆ
θ
h
←
b
16:
c
R
j
←
x
l
j
j
=
1, . . . ,
n
17:
n
∗
j
←
arg
m´ın
{|
c
l
′
j
−
c
l
j
|
:
l
′
=
1, 2, . . . ,
R
,
l
′
6
=
l
}
18:
σ
l
j
←
1
ω
|
c
l
j
−
c
n
∗
j
j
|
19:
fin si
20:
fin para
21:
devolver
f
h
(
x
|
ˆ
θ
h
)
←
ˆ
θ
h
⊤
ξ
h
(
x
)
22:
fin para
donde
m
>
1 es un parámetro que sirve para determi-
nar la sobreposición entre las clases,
M
es el número de
pares de entrada-salida (
x
i
,
y
i
) en el conjunto de entrena-
miento
G
,
R
es el número de reglas que se quiere calcular
(clases o grupos),
v
l
= [
v
l
1
,
v
l
2
, . . . ,
v
l
n
]
⊤
para
l
=
1, . . . ,
R
es el vector de centros de clases y
µ
il
para
i
=
1, . . . ,
M
y
l
=
1, . . . ,
R
es el grado de pertenencia de
x
i
en el
l
-ésimo
grupo,
|
x
|
=
√
x
⊤
x
, [17].
El sistema difuso considera que la salida es una función
lineal de las entradas,
i.e.
,
Si
H
l
entonces
g
l
(
x
) =
a
l
,0
+
a
l
,1
x
1
+
· · ·
+
a
l
,
n
x
n
,
(15)
donde
n
es el número de entradas y
H
l
es un conjunto di-
fuso de entrada dado por
H
l
=
{
(
x
,
µ
H
l
(
x
))
:
x
∈ X
1
× · · · × X
n
}
,
X
i
es el
i
-ésimo universo y
µ
H
l
(
x
)
es la función de per-
tenencia asociada a
H
l
, la cual representa la premisa pa-
ra la regla
l
y
g
l
(
x
) =
a
⊤
l
ˆ
x
;
a
⊤
l
= [
a
l
,0
,
a
l
,1
x
1
, . . . ,
a
l
,
n
x
n
]
y
ˆ
x
= [
1,
x
⊤
]
⊤
para
l
=
1, . . . ,
R
. El sistema difuso resultante
es el promedio ponderado de las salidas
g
l
(
x
)
y esta defi-
nido por
f
(
x
|
θ
) =
R
∑
l
=
1
g
l
(
x
)
µ
H
l
(
x
)
R
∑
l
=
1
µ
H
l
(
x
)
,
(16)
donde
R
es el número de reglas en la regla-base. El algorit-
mo funciona de la siguiente manera:
1) inicialización de parámetros
: se especifica el “factor de
solapamiento”
m
. Si
m
>
1 los puntos con menor gra-
do de pertenencia tienen menor influencia en el cálculo
de un nuevo centro. Luego, se especifica el número de
grupos (clases)
R
que se desea calcular; el cual es igual
al número de reglas en la regla base y debe ser menor
o igual al número de datos en el conjunto de entrena-
miento
G
,
i.e.
,
R
≤
M
. Entonces, se especifica la toleran-
cia
ǫ
c
>
0 que determina el error permitido en el cálculo
para los centros de los grupos. Finalmente, se procede a
inicializar los centros de los grupos
v
l
0
.
2) cálculo de los nuevos centros
: se utilizan los centros ini-
ciales
v
l
0
de manera que la función objetivo (14) sea mi-
nimizada. Las condiciones para la minimización
J
están
dadas por:
v
l
new
=
M
∑
i
=
1
x
i
(
µ
new
il
)
m
M
∑
i
=
1
(
µ
new
il
)
m
,
(17)
donde,
µ
new
il
=
R
∑
k
=
1
|
x
i
−
v
l
old
|
2
|
x
i
−
v
k
old
|
2
1
m
−
1
−
1
,
(18)
para
i
=
1, 2, . . . ,
M
y
l
=
1, 2, . . . ,
R
y
∑
R
l
=
1
µ
new
il
=
1
3) evaluación
: se compara la distancia entre los centros
nuevos de los grupos
v
l
new
y los centros previos
v
l
old
me-
diante,
|
v
l
new
−
v
l
old
|
<
ǫ
c
l
=
1, 2, . . . ,
R
(19)
si se cumple (19) significa que los centros
v
l
new
represen-
tan correctamente a los datos, el algoritmo de agrupa-
miento termina y se procede con la decodificación de la
salida (Paso 4). Caso contrario, se continua iterando me-
diante (17) y (18) hasta que los nuevos centros satisfagan
(19).
4) decodificación de la salida
: se calcula la función
g
l
(
x
) =
a
⊤
l
(
ˆ
x
)
,
l
=
1, 2, . . . ,
R
para cada regla, es de-
cir para cada centro de grupo
v
l
, se minimiza la función
J
l
J
l
=
M
∑
i
=
1
(
µ
il
)
2
(
y
i
−
(
ˆ
x
i
)
⊤
a
l
)
2
(20)
28
Analítika,
Revista de análisis estadístico
, 2 (2012), Vol. 3(1): 23-42