Página 44 - ANAlitica5

Versión de HTML Básico

Marco Flores
Analíti a
k
5
Revista de Análisis Estadístico
Journal of Statistical Analysis
Tabla 1.
Funciones de densidad utilizadas para modelar la frecuencia
Nombre
distribución
Densidad
F
N
(
x
)
Estimación de
parámetros
Poisson
(
λ
)
,
λ
>
0,
x
=
0, 1, 2, . . .
λ
x
e
λ
x
!
ˆ
λ
= =
1
n
n
i
=
1
x
i
Binomial
(
n
,
p
)
p
(
0, 1
)
,
n
>
1
x
=
0, 1, . . . ,
n
(
n
x
)
p
x
(
1
p
)
n
x
Método numérico
propuesto por
Klugman
et al.
[3]
Binomial
negativa
(
r
,
β
)
r
>
0,
β
>
0
x
=
0, 1, . . .
(
x
+
r
1
x
)(
1
1
+
β
)
r
(
β
1
+
β
)
x
ˆ
r
=
X
2
(
Var
(
X
)
X
)
ˆ
β
=
Var
(
x
)
X
1
Geométrica
(
β
)
β
>
0
x
>
0, 1, 2, . . .
β
x
(
1
+
β
)
x
+
1
ˆ
β
=
X
=
1
n
n
i
=
1
x
i
La distribución Geométrica modela el número de fa-
llas que ocurrirían antes de un suceso. Esta función tiene
un decaimiento exponencial y la propiedad de pérdida de
memoria. Finalmente, en el caso de las distribuciones Bi-
nomial Negativa y Geométrica,
β
está caracterizado por la
probabilidad de éxito
p
, a través de
p
=
1
1
+
β
.
En los casos Poisson y Geométrica, sus parámetros han
sido calculados por el método de máxima verosimilitud [5].
Para la distribución Binomial se ha utilizado un método
numérico [3], y en el caso de la Binomial Negativa se ha
utilizado el método de momentos [4].
3.2 Elección de la mejor distribución para la
frecuencia
Para elegir la mejor distribución que se ajusta a los da-
tos de la frecuencia se ha utilizado el test Chi-cuadrado
[11], viene dado por (4):
Q
=
k
=
0
(
n
k
E
k
)
2
E
k
(4)
donde
E
k
es el número esperado de eventos dados por
E
k
=
n
Pr
(
N
=
k
; ˆ
θ
)
(5)
y ˆ
θ
representa los parámetros estimados y
n
k
es el número
de eventos en la clase
k
. Para la implementación compu-
tacional se ha seguido las sugerencias planteadas por Klug-
man
et al
[3], para calcular el número de clases. Este test
consiste en medir la mayor distancia entre las distribucio-
nes involucradas. En la práctica se elige la distribución con
el menor valor del test, o equivalentemente, el mayor
p
-
valor.
3.3 Modelación de la severidad
Para modelar la severidad se han utilizado cinco distri-
buciones continuas, las mismas que son ampliamente uti-
lizadas en este caso [3], [4]. Sus parámetros han sido es-
timados utilizando los métodos de máxima verosimilitud
(MLE), de momentos y de percentiles [5], [6], sus resulta-
dos se presentan en la Tabla 2.
Las distribuciones LogNormal, Weibull, Rayleigh y Ex-
ponencial pertenecen a las denominadas distribuciones de
cola ligera (light-tailed). Mientras que la distribución Pare-
to pertenece a la familia de distribuciones de cola pesada
(heavy-tailed).
En los casos LogNormal, Rayleigh y Exponencial, sus
parámetros han sido calculados por el método de máxima
verosimilitud [5], [6]. Mientras que en el caso Pareto se ha
utilizado el método de momentos [5], [4], y para la Weibull
se ha implementado el método de percentiles [3].
3.4 Elección de la mejor distribución para la
severidad
Para elegir la mejor función de densidad que se ajus-
ta a los datos de severidad se ha utilizando el test de
Kolmogorov–Smirnov (KS) [4], [11]
D
n
=
m´ax
|
F
n
(
x
)
F
(
x
)
|
(6)
donde
D
n
es la distancia KS,
n
es el tamaño de la mues-
tra,
F
n
(
x
)
es la función de distribución acumulada empí-
rica [15] y
F
(
x
)
es la función de distribución acumulada,
evaluada en los parámetros estimados para el mejor caso.
En la práctica, para elegir la mejor distribución se escoge la
que corresponde al menor valor de test, o equivalentemen-
te, el mayor
p
-valor.
42
Analítika,
Revista de análisis estadístico
, 3 (2013), Vol. 5(1): 39-48