Adrián Gutiérrez Cabello y Andrés Salama
Analíti a
k
3
Revista de Análisis Estadístico
Journal of Statistical Analysis
1 Introducción
En este trabajo, se analiza el tipo de actividades que fi-
nancian los préstamos en la Argentina. Concretamente, se
busca ver como es la distribución de los préstamos en el
país y en las provincias de acuerdo al sector productivo que
financian; así también determinar si hay diferencias signi-
ficativas entre las provincias en esta distribución. Para eso,
utilizaremos la metodología de análisis de clúster de acuer-
do al Método de Ward.
2 Marco Teórico o Metodología utili-
zada
El análisis de clúster o conglomerados es una técnica di-
señada para clasificar distintas observaciones en grupos de
tal forma que,
1. Cada grupo (conglomerados o clúster) sea homogé-
neo respecto a las variables utilizadas para caracte-
rizarlos; es decir, que cada observación contenida en
él sea parecida a todas las que estén incluidas en ese
grupo.
2. Que los grupos sean lo más distintos posibles unos
de otros, respecto a las variables consideradas.
El análisis establece dichos grupos basándose en la simili-
tud que presenta un conjunto de entidades respecto de una
serie de características que el investigador ha especificado
previamente. Al final, se extrae los grupos de sujetos y sus
características definitorias: número de segmentos, número
de integrantes de cada segmento. Si las variables de aglo-
meración están en escalas muy diferentes, será necesario
estandarizarlas previamente. Es necesario observar tam-
bién los valores atípicos y desaparecidos, porque los mé-
todos jerárquicos no tienen solución con valores perdidos,
y porque los valores atípicos deforman distancias y pro-
ducen clúster unitarios. Es perjudicial la presencia de va-
riables correlacionadas, por lo que es conveniente realizar
primero un análisis de multicolinealidad. Los conglomera-
dos deben tener sentido conceptual y no variar mucho al
cambiar la muestra o método de aglomeración.
Para la formación de clúster en este trabajo se utilizó
la técnica de
Análisis de Clúster Jerárquico
, con el
Método
de Ward
, que tiene por objeto maximizar la homogeneidad
dentro de cada conglomerado. Para ello, plantea todas las
posibles combinaciones de observaciones para el número
de grupos que se esté considerando en cada etapa concre-
ta.
Este método, propuesto por Ward en 1963 es uno de los
más utilizados en la práctica; posee casi todas las ventajas
del método de la media, y suele ser más discriminativo en
la determinación de los niveles de agrupación. Este méto-
do, además, es capaz de encontrar mejor una clasificación
óptima en comparación con otros métodos.
1
Ward propuso que la pérdida de información que se
produce al integrar los distintos individuos en clústeres
puede medirse a base de la suma total de los cuadrados
de las desviaciones entre cada punto (individuo) y la me-
dia del clúster en el que se integra. Para que el proceso de
“
clusterización
” resultara óptimo, en el sentido de que los
grupos formados no distorsionen los datos originales, pro-
ponía la siguiente estrategia: en cada paso del análisis, con-
siderar la posibilidad de la unión de cada par de grupos y
optar por la fusión de aquellos dos grupos que menos in-
crementasen la suma de los cuadrados de las desviaciones
al unirse.
La ventaja del método de Ward es que no deja ningún
tipo de “cabos sueltos”. No quedan formados grupos que
tengan uno o muy pocos elementos. Todos los datos se
agrupan en clústeres que tienen varios elementos. Así, las
principales ventajas del método de Ward son: la formación
de clústeres más compactos y de similar tamaño y la mi-
nimización de la pérdida de información en el proceso de
organización de los conglomerados.
La medida de similitud a base de la cual se formaron
los grupos fue la
distancia
, esto es, las distintas medidas en-
tre los puntos del espacio definido por los individuos. La
distancia euclídea al cuadrado
es la medida utilizada para la
formación de conglomerados en este trabajo y se expresa:
distancia euclídea al cuadrado
d
(
i
,
j
)
2
=
∑
k
(
x
ik
−
x
jk
)
2
.
Se observa que la distancia euclídea al cuadrado entre dos
individuos se define como la suma de los cuadrados de las
diferencias de todas las coordenadas de los dos puntos. Pa-
ra la determinación de los grupos se hace uso del gráfico
denominado
dendograma
, que puede emplearse para eva-
luar la cohesión de los conglomerados que se han formado
y proporcionar información sobre el número adecuado de
conglomerados que deben conservarse.
El tipo de variable utilizada en este trabajo es métri-
ca y es la participación de cada sector económico, a nivel
provincial en la demanda de créditos bancarios. El softwa-
re utilizado para realizar los conglomerados y el resto del
análisis fue el SPSS.
3 Aplicación o Resultados
3.1 La demanda de crédito
El destino del crédito puede dividirse en tres categorías.
La primera es el capital necesario para montar un nuevo
negocio o para expandir considerablemente las líneas de
producción existentes: El mercado de crédito que satisface
estas necesidades se denomina de capital fijo: capital que se
1
Ver [11].
46
Analítika,
Revista de análisis estadístico
, 2 (2012), Vol. 3(1): 45-59