Cuadro resumen de la Investigación
Líneas de investigación
Análisis de datos composicionales
La temática central que da cohesión al grupo de investigación
es el análisis estadístico de los datos composicionales.
Este tipo de datos se caracteriza por ser vectores aleatorios de componentes
positivas y de suma constante (p.e., 100, 1, 1 millón). Esta restricción
hace que las técnicas de análisis e interpretación
estadísticas estándares no sean aplicables. Si bien se trata
de un problema antiguo que ha provocado muchas controversias entre los
investigadores, no es hasta los años 80 cuando el profesor J. Aitchison
da, desde una perspectiva estrictamente estadística, las primeras
indicaciones para analizar de forma coherente este tipo de datos. A partir
de estas primeras indicaciones se ha observado que la fundamentación
matemática y rigurosa de estos análisis estadísticos
se basa en la definición de una geometría específica
sobre el símplex (espacio soporte de los datos composicionales)
a partir del cual se pueden ir desarrollando con rigor todos los análisis
habituales (análisis cluster, análisis discriminante, análisis
factorial, modelos de regresión, etc.). Todo esto conlleva que la
temática del grupo de investigación no se limite solamente
al desarrollo de las técnicas propias del análisis estadístico
de los datos composicionales, si no que aborde también los aspectos
estrictamente matemáticos que fundamentan estas técnicas
y que pertenecen a los ámbitos de la geometría, de la teoría
de la medida y del cálculo diferencial e integral sobre el símplex
y que pueden ser aplicados a otros soportes, como R+,R2+,
(0,1) y otros.
En Geología, Petrología, Química, Economía,
Arqueometría, etc. es habitual trabajar con vectores de datos cuyas
componentes representan la contribución relativa de diferentes partes
en relación a un total, dando lugar a muestras composicionales.
El objetivo genérico del grupo es progresar en el análisis
estadístico de los datos composicionales y su fundamentación
matemática. Este objetivo general se concreta actualmente en los
siguientes objetivos parciales:
-
Fundamentación matemática del análisis de datos
composicionales. A partir de la definición de composición
como una clase de equivalencia, se abre la posibilidad de aplicar al espacio
cociente de las composiciones toda la metodología que se ha estado
elaborando sobre el símplex y, a además, ampliarla. De esta
manera se fundamentan con rigor y precisión las técnicas
de análisis estadístico de datos composicionales que se han
desarrollado últimamente. Esta fundamentación matemática
obliga a definir sobre el espacio cociente composicional -o equivalentemente
sobre el símplex- conceptos propios de la geometría, de la
teoría de la medida y del cálculo diferencial e integral.
-
Ortogonalidad e independencia en el símplex. Dado que, con
la métrica adecuada, el símplex es un espacio euclídeo,
este hecho permite introducir el concepto de base ortonormal en el símplex
y la transformación logcociente isométrica asociada. Desde
aquí, se plantea el estudio de la independencia subcomposicional,
íntimamente ligada a la ortogonalidad de subespacios en el símplex.
-
Análisis cluster paramétrico de datos composicionales.
Durante los últimos años se han abordado las metodologías
no paramétricas de clasificación de datos composicionales,
basadas fundamentalmente en la distancia introducida por Aitchison. Se
abordan ahora las metodologías paramétricas de clasificación
de datos composicionales basadas en la hipótesis que los grupos
o clusters son muestras procedentes de distribuciones de probabilidad
de clase aln (normal logística aditiva). Por otro lado, es conocido
que en los datos composicionales de procedencia geoquímica es bastante
habitual que algunas de las componentes o partes sean casi nulas por ser
su nivel de presencia en el conjunto de la composición inferior
al límite de detección de los aparatos de medida. Esto comporta
que estas componentes "casi nulas" se tengan que sustituir por valores
no nulos antes de proceder a la clasificación de los datos. Será
necesario analizar hasta que punto la metodología multiplicativa
de sustitución -introducida en su día por J.A. Martín,
miembro del grupo de investigación- es compatible con las técnicas
paramétricas de clasificación.
-
La distribución normal asimétrica logística aditiva
(alsn). Está a punto de finalizar el estudio de la modelización
de datos composicionales a partir de la utilización de la distribución
normal asimétrica introducida por Azzalini (1996), utilizando la
misma estrategia que Aitchison utilizó en su día a partir
de la distribución normal y complementarla con resultados procedentes
de la teoría de la medida. Esto lleva a introducir las distribuciones
alsn
y a estudiar sus propiedades en relación a la estructura del símplex
como espacio vectorial real, y en relación a las subcomposiciones.
Dado que la composición que resulta de la amalgama de dos o más
partes de una composición aleatoria de clase aln no tiene porqué
ajustarse necesariamente a una composición del mismo tipo, este
hecho abre las puertas al estudio de hasta que punto las distribuciones
de clase alsn pueden complementar este déficit que presentan las
distribuciones de clase aln.
-
Tablas de bondad de ajuste de distribuciones normales asimétricas.
El hecho que la distribución normal asimétrica haya sido
introducida tan recientemente comporta que no haya aun herramientas disponibles
para contrastar estadísticamente si un conjunto de datos puede ser
ajustado suficientemente por una distribución de este tipo. Esto
ha obligado al grupo de investigación a elaborar tablas específicas
para llevar a término este tipo de contrastes de bondad de ajuste.
Estas tablas se están desarrollando en base a la metodología
propuesta por Stephens, para diferentes tamaños de muestras y para
diferentes niveles de significación.
-
Análisis estadístico de datos composicionales con dependencia
espacial. Es muy habitual en geoestadística (desde aplicaciones
ne minería hasta estudios medioambientales) disponer de datos composicionales
que presentan dependencia espacial. Hasta ahora, las técnicas estándares
de cokriging -que se aplican para el análisis de este tipo
de datos- se han basado en una extensión al caso espacial de las
técnicas de transformación propuestas por Aitchison, pero
sin tener en cuenta la estructura de espacio vectorial del símplex.
Así pues, se pretende reformular estas técnicas desde la
metodología del análisis composicional basada en la métrica
euclídea definida sobre el símplex.
-
Modelos lineales y no lineales en el símplex. Los recientes
desarrollos en la estructura algebraica-geométrica del símplex
obligan a reformular -desde la óptica de la geometría composicional-
las técnicas de modelado de procesos lineales y no lineales en términos
de procesos composicionales. Se ha empezado a utilizar estos modelos sobre
datos reales procedentes del ámbito de la Geología y los
resultados obtenidos resultan prometedores.
-
Software composicional (CoDaPack).
Desde principios del siglo XXI el grupo de investigación ha desarrollado un paquete llamado CoDaPack
que contiene un conjunto de rutinas destinadas a usuarios finales sin excesiva experiencia en el uso
de ordenadores. Mediante menús el usuario se comunica con el paquete y éste devuelve tanto salidas
numéricas como gráficas. Las salidas gráficas pueden ser en 3D y se les puede aplicar zoom y rotaciones.
Originalmente CoDaPack estaba asociado, mediante rutinas en VisualBasic, el software Excel de tal manera
que se ejecutaba como un menú más de Excel y los resultados se depositaban, también, en hojas Excel.
Más adelante se mejoraron los gráficos y se programaron en OpenGL, aún sin salir de Excel.
Desde mayo de 2011 está disponible una nueva versión del CoDaPack, 2.0, que ya no depende de Excel.
Esta versión está programada en Java y sólo requiere tener instalado la máquina virtual de Java
(versión mínima 1.5). Esto ha permitido que el CoDaPack 2.0 se pueda ejecutar bajo cualquier sistema
operativo que disponga de máquina virtual de java. En concreto los ordenadores de la familia Mac de Apple
y los sistemas operativos basados en Unix pueden ahora ejecutar el CoDaPack 2.0.
Este paquete se va ampliando constantemente con nuevas rutinas y mejoras en las ya existentes..
Análisis factorial de datos
Diseño y tratamiento de encuestas