Rodrigo Cajamarca y Hermann Mena
Analíti a
k
3
Revista de Análisis Estadístico
Journal of Statistical Analysis
1 Introducción
Actualmente, existen muchos métodos y técnicas di-
señadas para modelar fenómenos económicos. Lamenta-
blemente, muchos de estos métodos no han dado buenos
resultados debido, sobre todo, a la presencia de incerti-
dumbre en los datos; este es el caso de varias técnicas tra-
dicionales,
e.g.
, regresión clásica. En general, la falta de
conocimiento del sistema, confianza en la información, o
la presencia de datos incompletos/imputados constituyen
los obstáculos más grandes que los métodos de modeliza-
ción deben enfrentar. Afortunadamente, en situaciones co-
mo esta la modelación difusa constituye una opción real y
competitiva. [9, 15].
La idea fundamental de la regresión difusa es genera-
lizar conceptos de la regresión tradicional a datos que se
pueden modelar con conjuntos difusos. Estos conjuntos,
en general, describen de mejor manera los fenómenos in-
mersos en el sistema. La regresión probabilística solamente
puede modelar el fenómeno de la incertidumbre median-
te la inclusión de intervalos de confianza. La aleatoriedad
puede considerarse como uno de los componentes de la
vaguedad, junto a la imprecisión. Otras formas de incer-
tidumbre se pueden encontrar en la ambigüedad, la incon-
gruencia, problemas de especificación y factores no consi-
derados por la alta complejidad del sistema. En algunos
casos, es posible incorporar estas restricciones a ciertos mo-
delos de regresión probabilística. Sin embargo, la inclusión
de estas restricciones implica que algunos supuestos reque-
ridos por la teoría ya no se satisfagan,
e.g.
, que el valor es-
perado de los residuos sea cero [6]. Esto no ocurre en la re-
gresión difusa, método en el que la presencia de un número
mayor de restricciones no constituye un impedimento para
su aplicación, puesto que las desviaciones entre los valores
de pertenencia observados y los valores de pertenencia es-
timados se asumen dependientes de la incertidumbre.
Este trabajo está orientado a revisar y extender algunas
propuestas que se han formulado en la literatura sobre la
regresión difusa, con el objetivo de proporcionar un instru-
mento metodológico a problemas reales en los cuales los
datos disponibles se ven afectados por factores como la im-
precisión e incertidumbre. En particular, nos enfocamos en
los métodos automáticos de regresión difusa. En la Sección
2 se revisan algunas definiciones y los métodos de míni-
mos cuadrados por lotes, mínimos cuadrados recursivo,
aprendizaje desde el ejemplo modificado, agrupamiento
difuso combinado; además, se propone el método de mí-
nimos cuadrados recursivo combinado. Cada uno de estos
métodos ha sido descrito e implementado para el caso uni-
dimensional, y generalizado para el caso de entradas y
salidas múltiples. En la Sección 3, se muestran resultados
numéricos de la Reserva Internacional de Libre Disponi-
bilidad (RILD) y un índice de liquidez financiera, en los
cuales se visualiza el comportamiento y desempeño de los
métodos. Finalmente, en la Sección 4 se presentan algunas
consideraciones sobre lo analizado y planteamientos para
trabajos futuros.
2 Metodología
2.1 Principales definiciones
La teoría de conjuntos difusos fue propuesta original-
mente por Lotfi Zadeh [18] para describir matemáticamen-
te la imprecisión y la vaguedad que se presentan en el len-
guaje diario. Formalmente, un conjunto difuso
∼
A
en el con-
junto universo
X
, está caracterizado por una
función de per-
tenencia
µ
∼
A
que toma valores en el intervalo
[
0, 1
]
, [18]. En
este sentido, un conjunto difuso es una generalización de
un conjunto clásico pues la función de pertenencia permi-
te que tome valores en el intervalo
[
0, 1
]
en lugar de solo
{
0, 1
}
(no pertenece o pertenece, respectivamente). Concre-
tamente, el conjunto
∼
A
se representa como el conjunto de
pares,
∼
A
=
{
(
x
,
µ
∼
A
(
x
))
|
x
∈
X
}
donde
µ
∼
A
:
X
→
[
0, 1
]
es la función de pertenencia para
∼
A
;
para más detalles ver [5].
Sea
g
: ¯
X −→
¯
Y
; ¯
X ⊂
R
n
y ¯
Y ⊂
R
, la función que des-
cribe el sistema en estudio; se quiere construir un sistema
difuso representado por la función
f
:
X
−→
Y
;
X
⊂
¯
X
y
Y
⊂
¯
Y
, mediante la elección de un vector de parámetros
θ
.
Se espera aproximar la función
g
de la forma:
g
(
x
) =
f
(
x
|
θ
) +
e
(
x
)
,
(1)
para todo
x
= [
x
1
,
x
2
, . . . ,
x
n
]
⊤
∈
X
; donde
e
(
x
)
represen-
ta el error aproximación. La
i
-ésima entrada-salida de la
función
g
se nota como
(
x
i
,
y
i
)
donde
x
i
∈
X
,
y
i
∈
Y
con
y
i
=
g
(
x
i
)
, para
i
=
1, . . . ,
M
. Luego
x
i
= [
x
i
1
,
x
i
2
, . . . ,
x
i
n
]
⊤
corresponde el vector de entradas para el
i
-ésimo par de
datos. El conjunto de parejas ordenadas de entrada-salida
del sistema se conoce como
conjunto de datos de entrenamien-
to
y se nota
G
=
{
(
x
1
,
y
1
)
, . . . ,
(
x
M
,
y
M
)
} ⊂
X
×
Y
(2)
donde
M
es la cardinalidad de
G
.
Los métodos automáticos presentados en este trabajo
generan reglas base,
i.e.
, reglas que describen la relación
que existe entre las variables de entrada y salida, o en su
defecto, usan una regla base predeterminada para modelar
el sistema. En cualquier caso, las reglas están compuestas
por antecedentes y consecuentes,
i.e.
,
SI
antecedente
ENTONCES
consecuente
,
las reglas permiten predecir y/o gobernar la salida del sis-
tema con conocimiento a priori de sus entradas [12].
24
Analítika,
Revista de análisis estadístico
, 2 (2012), Vol. 3(1): 23-42