El análisis de datos (también llamado análisis exploratorio de datos o EDA ) es una familia de métodos estadísticos cuyas principales características deben ser multidimensionales y descriptivas. En el sentido francés, la terminología "análisis de datos", por lo tanto, designa un subconjunto de lo que generalmente se llama estadísticas multivariadas . Ciertos métodos, en su mayor parte geométricos , ayudan a resaltar las relaciones que pueden existir entre los distintos datos y derivar de ellos información estadística que permite describir de manera más sucinta la principal información contenida en estos datos. Otras técnicas permiten agrupar los datos para mostrar claramente qué los hace homogéneos y así comprenderlos mejor.
El análisis de datos permite procesar una gran cantidad de datos e identificar los aspectos más interesantes de su estructura. El éxito de esta disciplina en los últimos años se debe, en gran medida, a las representaciones gráficas que aporta. Estos gráficos pueden resaltar las relaciones que son difíciles de capturar mediante el análisis directo de datos; pero sobre todo, estas representaciones no están ligadas a una opinión “a priori” sobre las leyes de los fenómenos analizados, a diferencia de los métodos de la estadística clásica.
Fundamentos matemáticos de análisis de datos comenzaron a desarrollarse a principios del XX ° siglo, pero es el equipo que hizo que esta disciplina operativa, y que ayudaron en un uso muy amplio. Las matemáticas y la informática están estrechamente vinculadas aquí.
En el sentido francés, la terminología "análisis de datos" designa un subconjunto de lo que generalmente se llama estadísticas multivariadas . El análisis de datos es un conjunto de técnicas descriptivas, cuya principal herramienta matemática es el álgebra matricial, y que se expresa sin asumir a priori un modelo probabilístico.
Incluye el análisis de componentes principales (PCA), utilizado para datos cuantitativos, y sus métodos derivados: análisis de correspondencia factorial (CFA) utilizado sobre datos cualitativos (tabla de asociación) y análisis de correspondencia factorial múltiplos (AFCM o ACM) generalizando el anterior. El análisis canónico y la correlación canónica generalizada , que son marcos más teóricos como métodos de fácil aplicación, amplían varios de estos métodos y van más allá de las técnicas de descripción. El Análisis de factores múltiples es adecuado para tablas en las que las variables están estructuradas en grupos y pueden ser cuantitativas y / o cualitativas. La clasificación automática , el análisis discriminante (FDA) o el análisis discriminante se utilizan para identificar grupos homogéneos dentro de la población desde la perspectiva de las variables estudiadas.
Además del análisis de datos , el análisis de componentes independientes (ICA) más reciente, derivado de la física de señales e inicialmente conocido como método de separación de fuente ciega , está intuitivamente más cerca de los métodos de clasificación no supervisados. La iconografía de correlaciones para datos cualitativos y cuantitativos, organiza las correlaciones entre variables en forma de gráficos. El análisis entre baterías de Tucker es intermedio entre el análisis canónico y el análisis de componentes principales, el análisis de redundancia también llamado análisis de componentes principales en variables instrumentales es similar a la regresión ya que las variables de uno de los grupos analizados se consideran dependientes, las otras como independientes, y que la función a maximizar es una suma de coeficientes de correlación entre los dos grupos.
Aparte de la escuela francesa, el análisis de datos multivariados se completa con el método de seguimiento de proyección de John Tukey y los métodos de cuantificación de Chikio Hayashi , cuya cuantificación tipo III es similar al análisis de correspondencias. El análisis factorial anglosajón, o “ Análisis factorial ” , se acerca al análisis en componentes principales, sin ser equivalente, porque utiliza las técnicas de regresión para descubrir las “variables latentes”.
Estos métodos permiten, en particular, manipular y sintetizar la información procedente de grandes tablas de datos, utilizando la estimación de las correlaciones entre las variables que se están estudiando. La herramienta estadística utilizada es la matriz de correlación o la matriz de varianza-covarianza .
Los padres del análisis de datos moderno son Jean-Paul Benzécri , Louis Guttman , Chikio Hayashi (diseñador de los métodos conocidos como “ Data Sciences ” ), Douglas Carroll y RN Shepard.
Pero mucho antes de su tiempo, las técnicas básicas de análisis de datos ya se conocían. Las tablas de contingencias , por ejemplo, están presentes temprano en la historia: la armada invencible es descrita por Álvarez Paz Salas y en un libro publicado en 1588 en forma de tabla donde las filas representan las flotas de barcos y las columnas para características. tales como tonelaje, número de personal armado, etc. Nicolas de Lamoignon de Basville, intendente del rey Luis XIV , contó y caracterizó los conventos y monasterios de la región de Languedoc en 1696.
La clasificación encuentra su maestro, entre 1735 y 1758, en la persona de Carl von Linné, quien en ese momento sentó las bases de la nomenclatura binomial y la taxonomía moderna. Robert R. Sokal y Peter HA Sneath en 1963 presentan métodos cuantitativos aplicados a la taxonomía .
Los conceptos necesarios para el análisis de los datos modernos comenzaron a ser dominado al principio de la XIX ª siglo. Adolphe Quetelet , astrónomo y estadístico belga, usa lo que sabe de la ley gaussiana a la antropometría para examinar la dispersión alrededor de la media (la varianza ) de las medidas de los tamaños de un grupo de hombres. Entonces, Francis Galton , porque quiere estudiar el tamaño de padres e hijos, está interesado en la variación conjunta (la covarianza y la correlación ) de dos cantidades, que está en el origen de lo que hoy llamamos regresión hui.
Cuando Karl Pearson y Raphael Weldon se apoderaron del trabajo de Francis Galton, pudieron generalizar la regresión de Galton a datos multidimensionales, luego Karl Pearson tuvo la idea de cambiar los ejes de presentación para expresarlos en función de variables independientes en 1901, estableciendo así las premisas del análisis de componentes principales . Esto fue desarrollado en 1933 por Harold Hotelling, quien definió el Análisis Canónico en 1936 .
Marion Richardson y Frederic Kuder en 1933, buscando mejorar la calidad de los vendedores de " Procter & Gamble " , utilizan lo que ahora se llama el algoritmo ( " Promedio recíproco " ), muy conocido en la ACP. Herman Otto Hirschfeld , en su publicación “ Una conexión entre correlación y contingencia ” , descubre las ecuaciones del análisis de correspondencias.
Es la psicometría la que más desarrolla el análisis de datos. Cuando Alfred Binet definió sus pruebas psicométricas para medir la inteligencia en los niños, Charles Spearman las utilizó para definir, en 1904, su teoría de los factores generales y específicos que miden la aptitud general y la aptitud particular para una actividad, necesaria para realizar esta actividad. Louis Leon Thurstone desarrolló las ecuaciones inducidas por la teoría de factores en forma de matriz en 1931 y las completó estudiando el término de error. También introduce la noción de ejes principales de inercia. En 1933, Harold Hotelling propuso el uso de la iteración para la diagonalización de matrices y la búsqueda de autovectores.
Jean-Paul Benzécri y Brigitte Escofier-Cordier propusieron el Análisis de Correspondencia Factorial en 1962-65, pero en 1954 Chikio Hayashi ya había establecido las bases de este método bajo el nombre de Cuantificación Tipo III.
El análisis de correspondencia múltiple fue iniciado por Louis Guttman en 1941, Cyril Burt en 1950 y Chikio Hayashi en 1956. Esta técnica fue desarrollada en Japón en 1952 por Shizuhiko Nishisato con el nombre de “ Dual Scaling ” y en los Países Bajos en 1990 con el nombre de " Análisis de homogeneidad ” del colectivo Albert Gifi.
La llegada de la computadora, y especialmente de la microcomputadora, es un salto tecnológico que posibilita cálculos complejos, diagonalizaciones, búsquedas de autovalores en grandes tablas de datos, con retrasos muy largos en la obtención de resultados. en el pasado.
El análisis de datos se utiliza en todos los campos cuando hay demasiados datos para ser entendidos por la mente humana.
En las ciencias humanas , esta técnica se utiliza para identificar los resultados de las encuestas de opinión, por ejemplo, con Análisis de correspondencia múltiple o Análisis de correspondencia de factores. La sociología se basa en el análisis de datos para comprender la vida y el desarrollo de determinadas poblaciones como el Líbano cuya evolución se muestra en dos estudios en 1960 y 1970, presentados por Jean-Paul Benzécri, y la estructura del nivel de vida y su mejoramiento son analizados mediante el análisis de componentes principales. El análisis de correspondencia múltiple se utiliza a menudo en sociología para analizar las respuestas a un cuestionario. Los sociólogos Christian Baudelot y Michel Gollac utilizan el análisis de correspondencia múltiple para estudiar la relación de los franceses con su trabajo. Inspirándose en Pierre Bourdieu para estudiar un "campo" específico, el sociólogo Frédéric Lebaron utiliza el MCA para analizar el campo de los economistas franceses y Hjellbrekke y sus coautores aplican el mismo método para analizar el campo de las élites noruegas. Asimismo, François Denord y sus coautores utilizan un ACM para analizar el campo de poder en Francia desde Who's Who. También en las obras inspiradas por Pierre Bourdieu, podemos tomar como ejemplo el análisis del campo del cine francés de Julien Duval. Los lingüistas utilizan las técnicas de análisis de texto y análisis de datos para localizar a un miembro del espectro político examinando la frecuencia de uso de ciertas palabras. Brigitte Escofier-Cordier estudió algunos elementos del vocabulario utilizado en la obra de Racine, Phèdre , para mostrar cómo el autor usa las palabras para anclar a sus personajes en la jerarquía social. En economía , C. Desroussilles estudió los balances de las empresas para describir la estructura y el tamaño de estas organizaciones utilizando una clasificación ascendente y un análisis de correspondencia. La estructura del consumo de los hogares en la CEE es presentada por Jean-Paul Benzécri et al. sobre los dos ejes de un análisis de correspondencias y un primer paso para establecer una clasificación de actividades económicas en la industria muestra la utilidad de un análisis de correspondencias y clasificación jerárquica en este tipo de operaciones.
En el campo de la ciencia y la tecnología, algunos investigadores están adoptando estos métodos estadísticos para descifrar varias características del genoma . Otros utilizan el análisis de datos para establecer un proceso necesario para reconocer rostros . En epidemiología , Inserm aporta sus datos, que Husson et al. mediante análisis de correspondencia factorial para describir grupos de edad en Francia según sus causas de mortalidad . Jean-Paul Benzécri también ofrece ejemplos del uso del análisis de correspondencia en el contexto del aprendizaje , la hidrología y la bioquímica . Un ejemplo en las ciencias ambientales es el del estudio de trazas de metales en el trigo en función de suelos cultivados, que utiliza el análisis de correlaciones canónicas generalmente consideradas como una herramienta más bien teórica. En la primera década de este siglo, el Observatoire des Maladies du Bois de la Vigne buscó medir la evolución de tres enfermedades de la vid practicando, entre otros métodos, el análisis de correspondencias múltiples y el análisis en componentes principales en una epidemiología vegetal. proyecto .
El campo del deporte es muy aficionado a la estadística: un médico deportivo se pregunta por la edad de los practicantes, sus motivaciones y el deporte que practican. En otro estudio, el deporte se interesa por las motivaciones de los deportistas que van desde la amistad y el compañerismo hasta la asertividad representada en un eje, y desde la naturaleza y la belleza hasta la combatividad en un segundo eje. El sociólogo busca saber si la sociabilidad de los seguidores de un deporte está influenciada por su práctica, la biometría humana caracteriza la morfología del deportista según el deporte que practica, y en el caso de los deportes de equipo el puesto que ocupa en el equipo, etc.
Las microfinanzas también se han hecho cargo del análisis de datos para evaluar el riesgo e identificar las poblaciones de prestatarios. La industria de los seguros utiliza el análisis de datos para conocer los riesgos y establecer precios por adelantado.
Representar datos multidimensionales en un espacio de dimensiones reducidas es el campo de los análisis de factores, análisis de factores de correspondencia, análisis de componentes principales, análisis de correspondencias múltiples. Estos métodos permiten representar la nube de puntos a analizar en un plano o en un espacio tridimensional, sin demasiada pérdida de información y sin hipótesis estadísticas previas. En matemáticas , explotan el cálculo de matrices y el análisis de vectores y valores propios .
El análisis de componentes principales se utiliza para reducir p variables correlacionadas a un número q de variables no correlacionadas, de modo que las q variables son combinaciones lineales de las p variables originales, su varianza es máxima y las nuevas variables son ortogonales entre ellas siguen una distancia particular. En PCA, las variables son cuantitativas.
Los componentes, las nuevas variables, definen un subespacio q-dimensional sobre el que se proyectan los individuos con una mínima pérdida de información. En este espacio, la nube de puntos es más fácil de representar y el análisis es más sencillo. En el análisis de correspondencias, la representación de individuos y variables no se realiza en un mismo espacio.
La medición de la calidad de la representación de los datos se puede realizar mediante el cálculo de la contribución de la inercia de cada componente a la inercia total. En el ejemplo de las dos imágenes opuestas, el primer componente contribuye con el 45,89% de la inercia total, el segundo con el 21,2%.
Cuanto más cercanas están las variables a los componentes, más se correlacionan con ellos. El analista utiliza esta propiedad para la interpretación de los ejes. En el ejemplo de la figura 01, los dos componentes principales representan la actividad principal y la actividad secundaria más frecuente en la que Mujeres (F) y Hombres (M) casados (M) o solteros (C) en los Estados Unidos (U) o Europa Occidental (W) comparten su día. En la figura 02 se ilustra el círculo de correlaciones donde se representan las variables según su proyección en el plano de los dos primeros componentes. Cuanto más bien representadas estén las variables, más cerca estarán del círculo. El coseno del ángulo formado por dos variables es igual al coeficiente de correlación entre estas dos variables.
Asimismo, cuanto menor sea el ángulo generado por el individuo y el eje del componente, mejor estará representado el individuo. Si dos individuos, bien representados por un eje, están cerca, están cerca en su espacio. Si dos individuos están distantes en proyección, están distantes en su espacio.
El objetivo de la AFC, definida por Jean-Paul Benzécri y sus equipos, es encontrar vínculos o correspondencias entre dos variables cualitativas (nominales). Esta técnica procesa las tablas de contingencia de estas dos variables. De hecho, un AFC es un PCA en estas tablas derivado de la tabla inicial proporcionada con la métrica du . El principio del AFC es idéntico al del PCA. Los ejes explicativos que subyacen en la tabla de frecuencias de dos variables cualitativas se buscan y presentan en un gráfico.
Hay al menos dos diferencias entre PCA y CFA: la primera es que podemos representar individuos y variables en el mismo gráfico, la segunda se refiere a la similitud. Dos puntos de línea están cerca en la representación gráfica, si los perfiles de columna son similares. Por ejemplo, en el gráfico de la figura 03, París y los Yveline votaron de manera similar, lo que no es obvio cuando miramos la tabla de contingencia inicial, ya que el número de votantes es bastante diferente en los dos departamentos. Asimismo, dos puntos de columna (en el ejemplo de las figuras 03 y 04, los puntos de columna son los candidatos) están gráficamente próximos si los perfiles de fila son similares. En el ejemplo (fig. 04), los departamentos votaron por Bayrou y Le Pen de la misma forma. Los puntos de fila y los puntos de columna no se pueden comparar de forma sencilla.
En cuanto a la interpretación de los factores, Jean-Paul Benzécri es muy claro:
"... interpretar un eje es encontrar lo que es análogo por un lado entre todo lo que está escrito a la derecha del origen, por otro lado entre todo lo que se desvía hacia la izquierda; y expresar, de manera concisa y precisa, la oposición entre los dos extremos ..... A menudo, la interpretación de un factor es refinada por la consideración de quienes le siguen. "
- Jean-Paul Benzécri, Análisis de datos: 2 análisis de correspondencia
La calidad de la representación gráfica se puede evaluar globalmente por la parte de explicada por cada eje (medida de la calidad global), por la inercia de un punto proyectado sobre un eje dividido por la inercia total del punto (medida de la calidad para cada modalidad), la contribución de un eje a la inercia total o la relación entre la inercia de una nube (line_profiles o column_profiles) proyectada sobre un eje por la inercia total de la misma nube.
El análisis de correspondencia múltiple (MCA) es una extensión de AFC.
El ACM propone analizar p (p ≥ 2) variables cualitativas de observaciones en n individuos. Al tratarse de un análisis factorial da como resultado la representación de los datos en un espacio de dimensión reducida generado por los factores. El MCA es el equivalente del PCA para las variables cualitativas y se reduce al AFC cuando el número de variables cualitativas es igual a 2.
Formalmente, un ACM es un AFC aplicado a la tabla disyuntiva completa , o bien un AFC aplicado a la tabla Burt , estas dos tablas se toman de la tabla inicial. Una tabla disyuntiva completa es una tabla donde se reemplazan las variables por sus modalidades y los elementos por 1 si se cumple la modalidad 0 en caso contrario para cada individuo. Una tabla de Burt es la tabla de contingencia de las p variables tomadas en pares.
La interpretación se realiza a nivel de las modalidades cuyas proximidades se examinan. Los autovalores solo se utilizan para determinar el número de ejes, ya sea por el método del codo o tomando solo los autovalores mayores que . Se analiza la contribución de la inercia de las modalidades a la de los diferentes ejes como en AFC.
El uso de variables adicionales, variables que no participan en la constitución de los ejes ni en el cálculo de los autovalores, puede ayudar a interpretar los ejes.
La calidad de la representación de un individuo sobre un eje factorial se mide por dónde es el ángulo formado por la proyección del vector individual sobre el espacio factorial con el eje factorial. Cuanto más se acerque el valor de a 1, mejor será la calidad.
El análisis canónico permite comparar dos grupos de variables cuantitativas aplicadas a los mismos individuos. El objetivo del análisis canónico es comparar estos dos grupos de variables para ver si describen el mismo fenómeno, en cuyo caso el analista puede prescindir de uno de los dos grupos de variables.
Un ejemplo revelador es el de los análisis médicos realizados sobre las mismas muestras por dos laboratorios diferentes. El análisis canónico generaliza métodos tan diversos como la regresión lineal , el análisis discriminante y el análisis de correspondencia factorial .
Más formalmente, si y son dos grupos de variables, el análisis canónico busca pares de vectores , combinaciones lineales de las variables de y respectivamente, las más correlacionadas posible. Estas variables se denominan variables canónicas. En el espacio son los autovectores de las proyecciones y respectivamente en el subespacio de y , donde pyq representan el número de variables de los dos grupos, generadas por los dos conjuntos de variables. mide la correlación entre los dos grupos. Cuanto mayor es esta medida, más correlacionados están los dos grupos de variables y más expresan el mismo fenómeno en los individuos.
En la ilustración de la figura 08, las correlaciones entre las variables dentro de los dos grupos están representadas por los correlogramas superiores, la correlación entre los dos grupos se explica a continuación. Si el color dominante fuera el verde claro, no se habría detectado ninguna correlación. En la figura 07, los dos grupos de variables se agrupan en el círculo de correlaciones relacionadas con las dos primeras variables canónicas.
Finalmente, el análisis canónico generalizado en el sentido de Caroll (después de JDCaroll) extiende el análisis canónico ordinario al estudio de p grupos de variables (p> 2) aplicadas al mismo espacio de individuos. Admite como casos especiales PCA, AFC y MCA, análisis canónico simple, pero también regresión simple y múltiple, análisis de varianza , análisis de covarianza y análisis discriminante.
Para utilizar esta técnica, las tablas no deben ser variables propias de los individuos sino “distancias” entre individuos. El analista desea estudiar las similitudes y diferencias entre estos individuos.
El posicionamiento multidimensional ( “ escalamiento multidimensional ” o MDS) es, por tanto, un método factorial aplicable sobre matrices de distancia entre individuos. Este método no forma parte de lo que se suele llamar análisis de datos "al estilo francés". Pero tiene las mismas características que los métodos anteriores: se basa en el cálculo matricial y no requiere una hipótesis probabilística. Los datos pueden ser medidas de p variables cuantitativas en n individuos, y en este caso el analista calcula la matriz de distancias o directamente una tabla de distancias entre individuos.
En el caso clásico llamado métrico, la medida de disimilitudes utilizada es una distancia euclidiana. Permite aproximar las diferencias entre los individuos en el espacio de dimensión reducida. En el caso no métrico, los datos son ordinales, de rango de tipo. El analista está más interesado en el orden de las diferencias que en su extensión. El MDS no métrico utiliza un índice de disimilitud (equivalente a una distancia pero sin la desigualdad triangular) y permite la aproximación del orden de las entradas en la matriz de disimilitudes por el orden de las distancias en el espacio de dimensión reducida.
Como en PCA, es necesario determinar el número de dimensiones del espacio objetivo, y la calidad de la representación se mide por la relación de la suma de la inercia del subespacio de dimensión reducida a la inercia total. De hecho, la métrica MDS es equivalente a un PCA donde los objetos del análisis MDS serían los individuos del PCA. En el ejemplo opuesto, las ciudades serían los individuos de la PCA y el posicionamiento GPS reemplazaría las distancias entre ciudades. Pero MDS Analysis extiende PCA, ya que puede usar funciones de similitud / disimilitud menos restrictivas que las distancias.
Con el posicionamiento multidimensional, visualizar matrices de disimilitudes, analizar puntos de referencia y realizar visualmente particiones en datos o matrices de disimilitudes son operaciones fáciles de realizar.
El análisis factorial múltiple (AMF) se dedica a tablas en las que un conjunto de individuos se describe mediante varios grupos de variables, ya sean cuantitativas, cualitativas o mixtas. Este método es menos conocido que los anteriores, pero su gran potencial de aplicación merece una mención especial.
Ejemplos de aplicaciónEn todos estos ejemplos, es útil tener en cuenta, en el propio análisis y no solo en la interpretación, la estructura de las variables en grupos. Esto es lo que hace el AFM que:
Estos métodos, desarrollados más recientemente, son menos conocidos que los anteriores.
La clasificación de los individuos es el dominio de la clasificación automática y el análisis discriminante. Clasificar consiste en definir clases, clasificar es la operación que permite poner un objeto en una clase definida de antemano. La clasificación automática se conoce como clasificación no supervisada de minería de datos ( " minería de datos " ), el análisis discriminante es una técnica estadística conocida como nombre de agrupación de minería de datos.
El objetivo de la clasificación automática es dividir todos los datos estudiados en uno o más subconjuntos llamados clases, cada subconjunto debe ser lo más homogéneo posible. Los miembros de una clase se parecen más a otros miembros de la misma clase que a los miembros de otra clase. Se pueden identificar dos tipos de clasificación: por un lado la clasificación (partición o superposición) "plana" y por otro lado la división jerárquica. En ambos casos, clasificar equivale a elegir una medida de similitud / disimilitud, un criterio de homogeneidad, un algoritmo y, a veces, varias clases que componen la partición.
Clasificación "plana"La semejanza (similitud / disimilitud) de los individuos se mide mediante un índice de similitud, un índice de disimilitud o una distancia. Por ejemplo, para datos binarios es frecuente el uso de índices de similitud como el índice de Jaccard , el índice de Dice, el índice de concordancia o el de Tanimoto . Para datos cuantitativos, la distancia euclidiana es la más apropiada, pero a veces se adopta la distancia de Mahalanobis . Los datos son matrices de p variables cualitativas o cuantitativas medidas en n individuos, o directamente datos de distancia o datos de disimilitud.
El criterio de homogeneidad de clases se expresa generalmente mediante la diagonal de una matriz de varianza-covarianza entre clases o intraclase (inercia). Este criterio permite converger los algoritmos de reasignación dinámica que minimizan la inercia intraclase o maximizan la inercia interclase.
Los principales algoritmos utilizan la reasignación dinámica aplicando el método BW Forgy de centros móviles , o una de sus variantes: el método k-medias , el método de nube dinámica o PAM ( " Partitioning Around Medoids (PAM) " ).
Los métodos basados en el método Condorcet , el algoritmo de maximización de expectativas y las densidades también se utilizan para construir una clasificación.
No existe una clasificación mejor que las demás, especialmente cuando el número de clases en la partición no está predeterminado. Por tanto, debemos medir la calidad de la clasificación y hacer concesiones. La calidad de la clasificación se puede medir utilizando el índice que es la relación entre la inercia entre clases y la inercia total, calculada para varios valores del número total de clases, obteniéndose el compromiso por el método del codo.
La interpretación de las clases, posibilitando la comprensión de la partitura, se puede realizar analizando los individuos que componen cada clase. El estadístico puede contar los individuos de cada clase, calcular el diámetro de las clases, es decir, la distancia máxima entre los individuos de cada clase. Puede identificar individuos cercanos al centro de gravedad, establecer la separación entre dos clases, operación que consiste en medir la distancia mínima entre dos miembros de estas clases. También puede analizar las variables, por ejemplo, calculando la frecuencia de ciertos valores de variables tomados por los individuos de cada clase, o caracterizando las clases por ciertos valores de variables tomados por los individuos de cada clase.
Clasificación jerárquicaLos datos de entrada de una clasificación jerárquica ascendente (HAC) se presentan en forma de una tabla de disimilitudes o una tabla de distancias entre individuos.
Primero tuvimos que elegir una distancia (euclidiana, Manhattan, Chebyshev u otra) o un índice de similitud (Jacard, Sokal, Sorensen, coeficiente de correlación lineal u otro).
La clasificación ascendente propone clasificar a los individuos mediante un algoritmo iterativo. En cada paso, el algoritmo produce una partición agregando dos clases de la partición obtenida en el paso anterior.
El criterio para elegir las dos clases depende del método de agregación. El más utilizado es el método de Ward que consiste en agregar las dos clases que reducen al mínimo la inercia entre clases. Existen otros índices de agregación como el del salto mínimo ( " enlace único " ) donde se agregan dos particiones para las cuales dos elementos, el primero perteneciente a la primera clase, el segundo al segundo, son los más cercanos según la distancia. o el del diámetro ( “ encadenamiento completo ” ) para el cual las dos clases a agregar son las que tienen el par de elementos más distante.
El algoritmo ascendente finaliza cuando solo queda una clase.
La calidad de la clasificación se mide por la relación entre la inercia entre clases y la inercia total.
Las estrategias mixtas, que combinan una clasificación “plana” con una clasificación jerárquica, ofrecen algunas ventajas. La realización de una ACH sobre clases homogéneas obtenidas mediante una clasificación por reasignación dinámica permite procesar grandes tablas de varios miles de individuos, lo que no es posible solo con una ACH. La realización de una ACH después del muestreo y un análisis factorial permite obtener clases homogéneas con respecto al muestreo.
El análisis de factores discriminantes (DFA), que es la parte descriptiva del análisis discriminante, también se conoce como análisis discriminante lineal, análisis discriminante de Fisher y análisis discriminante canónico. Esta técnica proyecta clases predefinidas sobre planos factoriales que discriminan tanto como sea posible. La tabla de datos describe n individuos en los que se midieron p variables cuantitativas y una variable cualitativa con q modalidades. La variable cualitativa permite definir las q clases y la agrupación de individuos en estas clases. AFD propone encontrar q-1 variables, denominadas variables discriminantes, cuyos ejes separan más las proyecciones de las q clases que cortan la nube de puntos.
Como en todos los análisis factoriales descriptivos, no se realizan supuestos estadísticos de antemano; sólo en la parte predictiva del análisis discriminante se hacen supuestos a priori .
La medición de la calidad de la discriminación se realiza mediante el método de Wilks que es igual a la relación del determinante de la matriz de varianza-covarianza intraclase sobre la determinación de la matriz total de varianza-covarianza. Un Wilks débil indica una fuerte discriminación por diseños factoriales. Por ejemplo, en los datos de Iris, es 0.0234 en los dos primeros factores. Además, si el primer valor propio está cerca de 1, el AFD es de calidad.
La correlación entre las variables y los factores permite interpretarlos.
Un AFD es un PCA realizado en los baricentros de las clases de individuos formados utilizando las modalidades de la variable cualitativa. También es un análisis canónico entre el grupo de variables cuantitativas y el conformado por la tabla disyuntiva de la variable cualitativa.
Basándose en lo que escriben Henry Rouanet y sus coautores, el análisis de datos descriptivos y el análisis predictivo pueden ser complementarios y, en ocasiones, producir resultados similares.
El enfoque PLS es más predictivo que descriptivo, pero los vínculos con ciertos análisis que acabamos de ver se han establecido claramente.
El algoritmo de Herman Wold , denominado primero NILES ( " Estimación no lineal por mínimos cuadrados iterativos " ), luego NIPALS ( " Estimación no lineal por mínimos cuadrados iterativos parciales " ) se diseñó por primera vez para el análisis de componentes .
Además, PLS permite encontrar análisis canónico con dos bloques de variables, análisis entre baterías de Tucker, análisis de redundancia y análisis canónico generalizado en el sentido de Carroll. La práctica muestra que el algoritmo PLS converge hacia los primeros valores propios en el caso del análisis entre baterías de Tucker, análisis canónico con dos bloques de variables y análisis de redundancia.
La Regresión de Componentes Principales (PCR) utiliza PCR para reducir el número de variables reemplazándolas con los componentes principales que tienen la ventaja de no estar correlacionados. PLS y PCR a menudo se comparan entre sí en la literatura.
Ya mencionado anteriormente en este artículo, el análisis canónico es equivalente a la regresión lineal cuando uno de los dos grupos se reduce a una sola variable.
El análisis de datos moderno no puede separarse del uso de computadoras; Se pueden citar muchos programas de software que permiten el uso de los métodos de análisis de datos que se ven en este artículo. SPSS , Statistica , HyperCube , SAS y CORICO proporcionan módulos completos de análisis de datos; Software R también con bibliotecas como FactoMineR, Ade4 o MASS; Braincube, solución de análisis de big data para la industria.