Página 124 - ANALITIK-11

Versión de HTML Básico

Jaime Fernández
Analítika, Revista de análisis estadístico, (2016), Vol. 11
120
texturizaci´on y correcci´on de im´agenes, reconocimiento de objetos, detecci´on de movimiento,
etc. En las citadas aplicaciones, la idea central es “ense˜narle” al computador a realizar estas
tareas en un tiempo razonable, dada ´unicamente una serie de arreglos bidimensionales con
los valores de la intensidad de los pixeles. Un aspecto esencial para el desarrollo de la visi´on
artificial consiste en encontrar modelos te´oricos s´olidos y computacionalmente factibles para
llevar a cabo el aprendizaje y la inferencia. En este contexto, los CAM’s proveen dicho marco
te´orico para gran parte de los problemas involucrados en la visi´on artificial.
Para ilustrar la funcionalidad de los CAM’s, consid´erese un ejemplo en el que se desea
inferir la distancia que hay desde el observador a los objetos que conforman cierta escena. Se
dispone de una imagen en escala de grises de 1000 x 1000 p´ıxeles y el problema consiste en
inferir las distancias
d
i
correspondientes a los valores de intensidad de los p´ıxles
I
i
, i
= 1
,
2
, ...,
1000000; es decir, el ´ındice recorre cada una de las posiciones de la matriz 1000 x 1000.
En el caso general, se asumir´a que existen ciertas propiedades observables de la imagen
notadas por
y
i
y que otras propiedades
x
i
deben ser inferidas. Los ´ındices
i
no necesariamen-
te representar´an las posiciones de los p´ıxeles individualmente, dependiendo de la aplicaci´on
podr´an representar regiones vecinas de ´estos. Se asume tambi´en la existencia de alguna
dependencia estad´ıstica entre
x
i
y
y
i
para cada posici´on
i
. A dicha dependencia se le cono-
cer´a como la funci´on de compatibilidad conjunta (tambi´en se le suele llamar la“evidencia”
para
x
i
) y se la notar´a como
φ
(
x
i
, y
i
). Por ´ultimo, para que los problemas de visi´on artificial
sean factibles de resolver, aunque sea de manera aproximada, es necesario hacer un supuesto
acerca de la estructura para las
x
i
. Se codifica la estructura asumida de la escena suponiendo
que los nodos
i
est´an organizados en una grilla bidimensional y que las variables
x
i
deber´ıan,
en la medida de lo posible, ser compatibles con las variables vecinas en la escena
x
j
. Dicha
compatibilidad estar´a representada por la funci´on notada
ψ
ij
(
x
i
, x
j
). Con estas considera-
ciones, se define la probabilidad conjunta total de una escena
x
(escondida) y una imagen
y
(observable) como:
P
(
{
x
}
,
{
y
}
) =
1
z
ij
ψ
ij
(
x
i
, x
j
)
i
φ
i
(
x
i
, y
i
)
(5)
Donde
Z
es la constante de normalizaci´on y el producto sobre (
ij
) es sobre los vecinos
m´as cercanos en el latice cuadrado. La Figura 2 presenta una descripci´on gr´afica del modelo
planteado.
En la Figura 2, los c´ırculos vac´ıos representan a los nodos ocultos (escena)
x
i
y los c´ırculos
rellenos representan a los nodos observables (imagen)
y
i
. Como se evidencia, en este modelo
las aristas no son dirigidas, por lo cual, no existe la noci´on de causalidad o parentalidad
entre nodos que si tiene lugar en las redes bayesianas. En lugar de dichas relaciones, en los
CAM’s se dispone de la funciones de compatibilidad
ψ
ij
(
xi, xj
) y no de las probabilidades
condicionales
P
(
x
i
|
x
j
).
Al igual que en el caso anterior, el objetivo es calcular los beliefs
b
(
x
i
) para todas las
posiciones
i
, es decir inferir las propiedades ocultas de la imagen. De manera similar, el
13