Cuadro resumen de la Investigación

      Resumen desde el GREC (Aplicativo de la Gestión de la Investigación)

Líneas de investigación

Análisis de datos composicionales

La temática central que da cohesión al grupo de investigación es el análisis estadístico de los datos composicionales. Este tipo de datos se caracteriza por ser vectores aleatorios de componentes positivas y de suma constante (p.e., 100, 1, 1 millón). Esta restricción hace que las técnicas de análisis e interpretación estadísticas estándares no sean aplicables. Si bien se trata de un problema antiguo que ha provocado muchas controversias entre los investigadores, no es hasta los años 80 cuando el profesor J. Aitchison da, desde una perspectiva estrictamente estadística, las primeras indicaciones para analizar de forma coherente este tipo de datos. A partir de estas primeras indicaciones se ha observado que la fundamentación matemática y rigurosa de estos análisis estadísticos se basa en la definición de una geometría específica sobre el símplex (espacio soporte de los datos composicionales) a partir del cual se pueden ir desarrollando con rigor todos los análisis habituales (análisis cluster, análisis discriminante, análisis factorial, modelos de regresión, etc.). Todo esto conlleva que la temática del grupo de investigación no se limite solamente al desarrollo de las técnicas propias del análisis estadístico de los datos composicionales, si no que aborde también los aspectos estrictamente matemáticos que fundamentan estas técnicas y que pertenecen a los ámbitos de la geometría, de la teoría de la medida y del cálculo diferencial e integral sobre el símplex y que pueden ser aplicados a otros soportes, como  R+,R2+, (0,1) y otros.

En Geología, Petrología, Química, Economía, Arqueometría, etc. es habitual trabajar con vectores de datos cuyas componentes representan la contribución relativa de diferentes partes en relación a un total, dando lugar a muestras composicionales.

El objetivo genérico del grupo es progresar en el análisis estadístico de los datos composicionales y su fundamentación matemática. Este objetivo general se concreta actualmente en los siguientes objetivos parciales:

  1. Fundamentación matemática del análisis de datos composicionales. A partir de la definición de composición como una clase de equivalencia, se abre la posibilidad de aplicar al espacio cociente de las composiciones toda la metodología que se ha estado elaborando sobre el símplex y, a además, ampliarla. De esta manera se fundamentan con rigor y precisión las técnicas de análisis estadístico de datos composicionales que se han desarrollado últimamente. Esta fundamentación matemática obliga a definir sobre el espacio cociente composicional -o equivalentemente sobre el símplex- conceptos propios de la geometría, de la teoría de la medida y del cálculo diferencial e integral.
  2. Ortogonalidad e independencia en el símplex. Dado que, con la métrica adecuada, el símplex es un espacio euclídeo, este hecho permite introducir el concepto de base ortonormal en el símplex y la transformación logcociente isométrica asociada. Desde aquí, se plantea el estudio de la independencia subcomposicional, íntimamente ligada a la ortogonalidad de subespacios en el símplex.
  3. Análisis cluster paramétrico de datos composicionales. Durante los últimos años se han abordado las metodologías no paramétricas de clasificación de datos composicionales, basadas fundamentalmente en la distancia introducida por Aitchison. Se abordan ahora las metodologías paramétricas de clasificación de datos composicionales basadas en la hipótesis que los grupos o clusters son muestras procedentes de distribuciones de probabilidad de clase aln (normal logística aditiva). Por otro lado, es conocido que en los datos composicionales de procedencia geoquímica es bastante habitual que algunas de las componentes o partes sean casi nulas por ser su nivel de presencia en el conjunto de la composición inferior al límite de detección de los aparatos de medida. Esto comporta que estas componentes "casi nulas" se tengan que sustituir por valores no nulos antes de proceder a la clasificación de los datos. Será necesario analizar hasta que punto la metodología multiplicativa de sustitución -introducida en su día por J.A. Martín, miembro del grupo de investigación- es compatible con las técnicas paramétricas de clasificación.
  4. La distribución normal asimétrica logística aditiva (alsn). Está a punto de finalizar el estudio de la modelización de datos composicionales a partir de la utilización de la distribución normal asimétrica introducida por Azzalini (1996), utilizando la misma estrategia que Aitchison utilizó en su día a partir de la distribución normal y complementarla con resultados procedentes de la teoría de la medida. Esto lleva a introducir las distribuciones alsn y a estudiar sus propiedades en relación a la estructura del símplex como espacio vectorial real, y en relación a las subcomposiciones. Dado que la composición que resulta de la amalgama de dos o más partes de una composición aleatoria de clase aln no tiene porqué ajustarse necesariamente a una composición del mismo tipo, este hecho abre las puertas al estudio de hasta que punto las distribuciones de clase alsn pueden complementar este déficit que presentan las distribuciones de clase aln.
  5. Tablas de bondad de ajuste de distribuciones normales asimétricas. El hecho que la distribución normal asimétrica haya sido introducida tan recientemente comporta que no haya aun herramientas disponibles para contrastar estadísticamente si un conjunto de datos puede ser ajustado suficientemente por una distribución de este tipo. Esto ha obligado al grupo de investigación a elaborar tablas específicas para llevar a término este tipo de contrastes de bondad de ajuste. Estas tablas se están desarrollando en base a la metodología propuesta por Stephens, para diferentes tamaños de muestras y para diferentes niveles de significación.
  6. Análisis estadístico de datos composicionales con dependencia espacial. Es muy habitual en geoestadística (desde aplicaciones ne minería hasta estudios medioambientales) disponer de datos composicionales que presentan dependencia espacial. Hasta ahora, las técnicas estándares de cokriging -que se aplican para el análisis de este tipo de datos- se han basado en una extensión al caso espacial de las técnicas de transformación propuestas por Aitchison, pero sin tener en cuenta la estructura de espacio vectorial del símplex. Así pues, se pretende reformular estas técnicas desde la metodología del análisis composicional basada en la métrica euclídea definida sobre el símplex.
  7. Modelos lineales y no lineales en el símplex. Los recientes desarrollos en la estructura algebraica-geométrica del símplex obligan a reformular -desde la óptica de la geometría composicional- las técnicas de modelado de procesos lineales y no lineales en términos de procesos composicionales. Se ha empezado a utilizar estos modelos sobre datos reales procedentes del ámbito de la Geología y los resultados obtenidos resultan prometedores.
  8. Software composicional (CoDaPack). Desde principios del siglo XXI el grupo de investigación ha desarrollado un paquete llamado CoDaPack que contiene un conjunto de rutinas destinadas a usuarios finales sin excesiva experiencia en el uso de ordenadores. Mediante menús el usuario se comunica con el paquete y éste devuelve tanto salidas numéricas como gráficas. Las salidas gráficas pueden ser en 3D y se les puede aplicar zoom y rotaciones.
    Originalmente CoDaPack estaba asociado, mediante rutinas en VisualBasic, el software Excel de tal manera que se ejecutaba como un menú más de Excel y los resultados se depositaban, también, en hojas Excel. Más adelante se mejoraron los gráficos y se programaron en OpenGL, aún sin salir de Excel. Desde mayo de 2011 está disponible una nueva versión del CoDaPack, 2.0, que ya no depende de Excel.
    Esta versión está programada en Java y sólo requiere tener instalado la máquina virtual de Java (versión mínima 1.5). Esto ha permitido que el CoDaPack 2.0 se pueda ejecutar bajo cualquier sistema operativo que disponga de máquina virtual de java. En concreto los ordenadores de la familia Mac de Apple y los sistemas operativos basados en Unix pueden ahora ejecutar el CoDaPack 2.0.
    Este paquete se va ampliando constantemente con nuevas rutinas y mejoras en las ya existentes..

Análisis factorial de datos

 

Diseño y tratamiento de encuestas