Análisis de datos

El análisis de datos (también llamado análisis exploratorio de datos o EDA ) es una familia de métodos estadísticos cuyas principales características deben ser multidimensionales y descriptivas. En el sentido francés, la terminología "análisis de datos", por lo tanto, designa un subconjunto de lo que generalmente se llama estadísticas multivariadas . Ciertos métodos, en su mayor parte geométricos , ayudan a resaltar las relaciones que pueden existir entre los distintos datos y derivar de ellos información estadística que permite describir de manera más sucinta la principal información contenida en estos datos. Otras técnicas permiten agrupar los datos para mostrar claramente qué los hace homogéneos y así comprenderlos mejor.

El análisis de datos permite procesar una gran cantidad de datos e identificar los aspectos más interesantes de su estructura. El éxito de esta disciplina en los últimos años se debe, en gran medida, a las representaciones gráficas que aporta. Estos gráficos pueden resaltar las relaciones que son difíciles de capturar mediante el análisis directo de datos; pero sobre todo, estas representaciones no están ligadas a una opinión “a priori” sobre las leyes de los fenómenos analizados, a diferencia de los métodos de la estadística clásica.

Fundamentos matemáticos de análisis de datos comenzaron a desarrollarse a principios del XX ° siglo, pero es el equipo que hizo que esta disciplina operativa, y que ayudaron en un uso muy amplio. Las matemáticas y la informática están estrechamente vinculadas aquí.

Definición

En el sentido francés, la terminología "análisis de datos" designa un subconjunto de lo que generalmente se llama estadísticas multivariadas . El análisis de datos es un conjunto de técnicas descriptivas, cuya principal herramienta matemática es el álgebra matricial, y que se expresa sin asumir a priori un modelo probabilístico.

Incluye el análisis de componentes principales (PCA), utilizado para datos cuantitativos, y sus métodos derivados: análisis de correspondencia factorial (CFA) utilizado sobre datos cualitativos (tabla de asociación) y análisis de correspondencia factorial múltiplos (AFCM o ACM) generalizando el anterior. El análisis canónico y la correlación canónica generalizada , que son marcos más teóricos como métodos de fácil aplicación, amplían varios de estos métodos y van más allá de las técnicas de descripción. El Análisis de factores múltiples es adecuado para tablas en las que las variables están estructuradas en grupos y pueden ser cuantitativas y / o cualitativas. La clasificación automática , el análisis discriminante (FDA) o el análisis discriminante se utilizan para identificar grupos homogéneos dentro de la población desde la perspectiva de las variables estudiadas.

Además del análisis de datos , el análisis de componentes independientes (ICA) más reciente, derivado de la física de señales e inicialmente conocido como método de separación de fuente ciega , está intuitivamente más cerca de los métodos de clasificación no supervisados. La iconografía de correlaciones para datos cualitativos y cuantitativos, organiza las correlaciones entre variables en forma de gráficos. El análisis entre baterías de Tucker es intermedio entre el análisis canónico y el análisis de componentes principales, el análisis de redundancia también llamado análisis de componentes principales en variables instrumentales es similar a la regresión ya que las variables de uno de los grupos analizados se consideran dependientes, las otras como independientes, y que la función a maximizar es una suma de coeficientes de correlación entre los dos grupos.

Aparte de la escuela francesa, el análisis de datos multivariados se completa con el método de seguimiento de proyección de John Tukey y los métodos de cuantificación de Chikio Hayashi , cuya cuantificación tipo III es similar al análisis de correspondencias. El análisis factorial anglosajón, o “ Análisis factorial ” , se acerca al análisis en componentes principales, sin ser equivalente, porque utiliza las técnicas de regresión para descubrir las “variables latentes”.

Estos métodos permiten, en particular, manipular y sintetizar la información procedente de grandes tablas de datos, utilizando la estimación de las correlaciones entre las variables que se están estudiando. La herramienta estadística utilizada es la matriz de correlación o la matriz de varianza-covarianza .

Historia

Los padres del análisis de datos moderno son Jean-Paul Benzécri , Louis Guttman , Chikio Hayashi (diseñador de los métodos conocidos como “ Data Sciences ” ), Douglas Carroll y RN Shepard.

Pero mucho antes de su tiempo, las técnicas básicas de análisis de datos ya se conocían. Las tablas de contingencias , por ejemplo, están presentes temprano en la historia: la armada invencible es descrita por Álvarez Paz Salas y en un libro publicado en 1588 en forma de tabla donde las filas representan las flotas de barcos y las columnas para características. tales como tonelaje, número de personal armado, etc. Nicolas de Lamoignon de Basville, intendente del rey Luis XIV , contó y caracterizó los conventos y monasterios de la región de Languedoc en 1696.

La clasificación encuentra su maestro, entre 1735 y 1758, en la persona de Carl von Linné, quien en ese momento sentó las bases de la nomenclatura binomial y la taxonomía moderna. Robert R. Sokal y Peter HA Sneath en 1963 presentan métodos cuantitativos aplicados a la taxonomía .

Los conceptos necesarios para el análisis de los datos modernos comenzaron a ser dominado al principio de la XIX ª siglo. Adolphe Quetelet , astrónomo y estadístico belga, usa lo que sabe de la ley gaussiana a la antropometría para examinar la dispersión alrededor de la media (la varianza ) de las medidas de los tamaños de un grupo de hombres. Entonces, Francis Galton , porque quiere estudiar el tamaño de padres e hijos, está interesado en la variación conjunta (la covarianza y la correlación ) de dos cantidades, que está en el origen de lo que hoy llamamos regresión hui.

Cuando Karl Pearson y Raphael Weldon se apoderaron del trabajo de Francis Galton, pudieron generalizar la regresión de Galton a datos multidimensionales, luego Karl Pearson tuvo la idea de cambiar los ejes de presentación para expresarlos en función de variables independientes en 1901, estableciendo así las premisas del análisis de componentes principales . Esto fue desarrollado en 1933 por Harold Hotelling, quien definió el Análisis Canónico en 1936 .

Marion Richardson y Frederic Kuder en 1933, buscando mejorar la calidad de los vendedores de " Procter & Gamble " , utilizan lo que ahora se llama el algoritmo ( " Promedio recíproco " ), muy conocido en la ACP. Herman Otto Hirschfeld , en su publicación “ Una conexión entre correlación y contingencia ” , descubre las ecuaciones del análisis de correspondencias.

Es la psicometría la que más desarrolla el análisis de datos. Cuando Alfred Binet definió sus pruebas psicométricas para medir la inteligencia en los niños, Charles Spearman las utilizó para definir, en 1904, su teoría de los factores generales y específicos que miden la aptitud general y la aptitud particular para una actividad, necesaria para realizar esta actividad. Louis Leon Thurstone desarrolló las ecuaciones inducidas por la teoría de factores en forma de matriz en 1931 y las completó estudiando el término de error. También introduce la noción de ejes principales de inercia. En 1933, Harold Hotelling propuso el uso de la iteración para la diagonalización de matrices y la búsqueda de autovectores.

Jean-Paul Benzécri y Brigitte Escofier-Cordier propusieron el Análisis de Correspondencia Factorial en 1962-65, pero en 1954 Chikio Hayashi ya había establecido las bases de este método bajo el nombre de Cuantificación Tipo III.

El análisis de correspondencia múltiple fue iniciado por Louis Guttman en 1941, Cyril Burt en 1950 y Chikio Hayashi en 1956. Esta técnica fue desarrollada en Japón en 1952 por Shizuhiko Nishisato con el nombre de “ Dual Scaling ” y en los Países Bajos en 1990 con el nombre de " Análisis de homogeneidad ” del colectivo Albert Gifi.

La llegada de la computadora, y especialmente de la microcomputadora, es un salto tecnológico que posibilita cálculos complejos, diagonalizaciones, búsquedas de autovalores en grandes tablas de datos, con retrasos muy largos en la obtención de resultados. en el pasado.

Áreas de aplicación

El análisis de datos se utiliza en todos los campos cuando hay demasiados datos para ser entendidos por la mente humana.

En las ciencias humanas , esta técnica se utiliza para identificar los resultados de las encuestas de opinión, por ejemplo, con Análisis de correspondencia múltiple o Análisis de correspondencia de factores. La sociología se basa en el análisis de datos para comprender la vida y el desarrollo de determinadas poblaciones como el Líbano cuya evolución se muestra en dos estudios en 1960 y 1970, presentados por Jean-Paul Benzécri, y la estructura del nivel de vida y su mejoramiento son analizados mediante el análisis de componentes principales. El análisis de correspondencia múltiple se utiliza a menudo en sociología para analizar las respuestas a un cuestionario. Los sociólogos Christian Baudelot y Michel Gollac utilizan el análisis de correspondencia múltiple para estudiar la relación de los franceses con su trabajo. Inspirándose en Pierre Bourdieu para estudiar un "campo" específico, el sociólogo Frédéric Lebaron utiliza el MCA para analizar el campo de los economistas franceses y Hjellbrekke y sus coautores aplican el mismo método para analizar el campo de las élites noruegas. Asimismo, François Denord y sus coautores utilizan un ACM para analizar el campo de poder en Francia desde Who's Who. También en las obras inspiradas por Pierre Bourdieu, podemos tomar como ejemplo el análisis del campo del cine francés de Julien Duval. Los lingüistas utilizan las técnicas de análisis de texto y análisis de datos para localizar a un miembro del espectro político examinando la frecuencia de uso de ciertas palabras. Brigitte Escofier-Cordier estudió algunos elementos del vocabulario utilizado en la obra de Racine, Phèdre , para mostrar cómo el autor usa las palabras para anclar a sus personajes en la jerarquía social. En economía , C. Desroussilles estudió los balances de las empresas para describir la estructura y el tamaño de estas organizaciones utilizando una clasificación ascendente y un análisis de correspondencia. La estructura del consumo de los hogares en la CEE es presentada por Jean-Paul Benzécri et al. sobre los dos ejes de un análisis de correspondencias y un primer paso para establecer una clasificación de actividades económicas en la industria muestra la utilidad de un análisis de correspondencias y clasificación jerárquica en este tipo de operaciones.

En el campo de la ciencia y la tecnología, algunos investigadores están adoptando estos métodos estadísticos para descifrar varias características del genoma . Otros utilizan el análisis de datos para establecer un proceso necesario para reconocer rostros . En epidemiología , Inserm aporta sus datos, que Husson et al. mediante análisis de correspondencia factorial para describir grupos de edad en Francia según sus causas de mortalidad . Jean-Paul Benzécri también ofrece ejemplos del uso del análisis de correspondencia en el contexto del aprendizaje , la hidrología y la bioquímica . Un ejemplo en las ciencias ambientales es el del estudio de trazas de metales en el trigo en función de suelos cultivados, que utiliza el análisis de correlaciones canónicas generalmente consideradas como una herramienta más bien teórica. En la primera década de este siglo, el Observatoire des Maladies du Bois de la Vigne buscó medir la evolución de tres enfermedades de la vid practicando, entre otros métodos, el análisis de correspondencias múltiples y el análisis en componentes principales en una epidemiología vegetal. proyecto .

El campo del deporte es muy aficionado a la estadística: un médico deportivo se pregunta por la edad de los practicantes, sus motivaciones y el deporte que practican. En otro estudio, el deporte se interesa por las motivaciones de los deportistas que van desde la amistad y el compañerismo hasta la asertividad representada en un eje, y desde la naturaleza y la belleza hasta la combatividad en un segundo eje. El sociólogo busca saber si la sociabilidad de los seguidores de un deporte está influenciada por su práctica, la biometría humana caracteriza la morfología del deportista según el deporte que practica, y en el caso de los deportes de equipo el puesto que ocupa en el equipo, etc.

Las microfinanzas también se han hecho cargo del análisis de datos para evaluar el riesgo e identificar las poblaciones de prestatarios. La industria de los seguros utiliza el análisis de datos para conocer los riesgos y establecer precios por adelantado.

Análisis por reducción de dimensiones

Representar datos multidimensionales en un espacio de dimensiones reducidas es el campo de los análisis de factores, análisis de factores de correspondencia, análisis de componentes principales, análisis de correspondencias múltiples. Estos métodos permiten representar la nube de puntos a analizar en un plano o en un espacio tridimensional, sin demasiada pérdida de información y sin hipótesis estadísticas previas. En matemáticas , explotan el cálculo de matrices y el análisis de vectores y valores propios .

Análisis de componentes principales

El análisis de componentes principales se utiliza para reducir p variables correlacionadas a un número q de variables no correlacionadas, de modo que las q variables son combinaciones lineales de las p variables originales, su varianza es máxima y las nuevas variables son ortogonales entre ellas siguen una distancia particular. En PCA, las variables son cuantitativas.

Los componentes, las nuevas variables, definen un subespacio q-dimensional sobre el que se proyectan los individuos con una mínima pérdida de información. En este espacio, la nube de puntos es más fácil de representar y el análisis es más sencillo. En el análisis de correspondencias, la representación de individuos y variables no se realiza en un mismo espacio.

La medición de la calidad de la representación de los datos se puede realizar mediante el cálculo de la contribución de la inercia de cada componente a la inercia total. En el ejemplo de las dos imágenes opuestas, el primer componente contribuye con el 45,89% de la inercia total, el segundo con el 21,2%.

Cuanto más cercanas están las variables a los componentes, más se correlacionan con ellos. El analista utiliza esta propiedad para la interpretación de los ejes. En el ejemplo de la figura 01, los dos componentes principales representan la actividad principal y la actividad secundaria más frecuente en la que Mujeres (F) y Hombres (M) casados (M) o solteros (C) en los Estados Unidos (U) o Europa Occidental (W) comparten su día. En la figura 02 se ilustra el círculo de correlaciones donde se representan las variables según su proyección en el plano de los dos primeros componentes. Cuanto más bien representadas estén las variables, más cerca estarán del círculo. El coseno del ángulo formado por dos variables es igual al coeficiente de correlación entre estas dos variables.

Asimismo, cuanto menor sea el ángulo generado por el individuo y el eje del componente, mejor estará representado el individuo. Si dos individuos, bien representados por un eje, están cerca, están cerca en su espacio. Si dos individuos están distantes en proyección, están distantes en su espacio.

Análisis de correspondencia factorial

El objetivo de la AFC, definida por Jean-Paul Benzécri y sus equipos, es encontrar vínculos o correspondencias entre dos variables cualitativas (nominales). Esta técnica procesa las tablas de contingencia de estas dos variables. De hecho, un AFC es un PCA en estas tablas derivado de la tabla inicial proporcionada con la métrica du . El principio del AFC es idéntico al del PCA. Los ejes explicativos que subyacen en la tabla de frecuencias de dos variables cualitativas se buscan y presentan en un gráfico. $\ chi ^ 2$

Hay al menos dos diferencias entre PCA y CFA: la primera es que podemos representar individuos y variables en el mismo gráfico, la segunda se refiere a la similitud. Dos puntos de línea están cerca en la representación gráfica, si los perfiles de columna son similares. Por ejemplo, en el gráfico de la figura 03, París y los Yveline votaron de manera similar, lo que no es obvio cuando miramos la tabla de contingencia inicial, ya que el número de votantes es bastante diferente en los dos departamentos. Asimismo, dos puntos de columna (en el ejemplo de las figuras 03 y 04, los puntos de columna son los candidatos) están gráficamente próximos si los perfiles de fila son similares. En el ejemplo (fig. 04), los departamentos votaron por Bayrou y Le Pen de la misma forma. Los puntos de fila y los puntos de columna no se pueden comparar de forma sencilla.

En cuanto a la interpretación de los factores, Jean-Paul Benzécri es muy claro:

"... interpretar un eje es encontrar lo que es análogo por un lado entre todo lo que está escrito a la derecha del origen, por otro lado entre todo lo que se desvía hacia la izquierda; y expresar, de manera concisa y precisa, la oposición entre los dos extremos ..... A menudo, la interpretación de un factor es refinada por la consideración de quienes le siguen. "

- Jean-Paul Benzécri, Análisis de datos: 2 análisis de correspondencia

La calidad de la representación gráfica se puede evaluar globalmente por la parte de explicada por cada eje (medida de la calidad global), por la inercia de un punto proyectado sobre un eje dividido por la inercia total del punto (medida de la calidad para cada modalidad), la contribución de un eje a la inercia total o la relación entre la inercia de una nube (line_profiles o column_profiles) proyectada sobre un eje por la inercia total de la misma nube. $\ chi ^ 2$

Análisis de correspondencia múltiple

El análisis de correspondencia múltiple (MCA) es una extensión de AFC.

El ACM propone analizar p (p ≥ 2) variables cualitativas de observaciones en n individuos. Al tratarse de un análisis factorial da como resultado la representación de los datos en un espacio de dimensión reducida generado por los factores. El MCA es el equivalente del PCA para las variables cualitativas y se reduce al AFC cuando el número de variables cualitativas es igual a 2.

Formalmente, un ACM es un AFC aplicado a la tabla disyuntiva completa , o bien un AFC aplicado a la tabla Burt , estas dos tablas se toman de la tabla inicial. Una tabla disyuntiva completa es una tabla donde se reemplazan las variables por sus modalidades y los elementos por 1 si se cumple la modalidad 0 en caso contrario para cada individuo. Una tabla de Burt es la tabla de contingencia de las p variables tomadas en pares.

La interpretación se realiza a nivel de las modalidades cuyas proximidades se examinan. Los autovalores solo se utilizan para determinar el número de ejes, ya sea por el método del codo o tomando solo los autovalores mayores que . Se analiza la contribución de la inercia de las modalidades a la de los diferentes ejes como en AFC. ${\ tfrac {1} {p}}$

El uso de variables adicionales, variables que no participan en la constitución de los ejes ni en el cálculo de los autovalores, puede ayudar a interpretar los ejes.

La calidad de la representación de un individuo sobre un eje factorial se mide por dónde es el ángulo formado por la proyección del vector individual sobre el espacio factorial con el eje factorial. Cuanto más se acerque el valor de a 1, mejor será la calidad. $\ cos ^ {2} (\ theta)$ $\ theta$ $\ cos ^ {2} (\ theta)$

Análisis canónico

El análisis canónico permite comparar dos grupos de variables cuantitativas aplicadas a los mismos individuos. El objetivo del análisis canónico es comparar estos dos grupos de variables para ver si describen el mismo fenómeno, en cuyo caso el analista puede prescindir de uno de los dos grupos de variables.

Un ejemplo revelador es el de los análisis médicos realizados sobre las mismas muestras por dos laboratorios diferentes. El análisis canónico generaliza métodos tan diversos como la regresión lineal , el análisis discriminante y el análisis de correspondencia factorial .

Más formalmente, si y son dos grupos de variables, el análisis canónico busca pares de vectores , combinaciones lineales de las variables de y respectivamente, las más correlacionadas posible. Estas variables se denominan variables canónicas. En el espacio son los autovectores de las proyecciones y respectivamente en el subespacio de y , donde pyq representan el número de variables de los dos grupos, generadas por los dos conjuntos de variables. mide la correlación entre los dos grupos. Cuanto mayor es esta medida, más correlacionados están los dos grupos de variables y más expresan el mismo fenómeno en los individuos. $X _ {{1}}$ $X _ {{2}}$ $(\ xi _ {{1i}}, \ eta _ {{2i}})$ $X _ {{1}}$ $X _ {{2}}$ $P _ {{1}}$ $P _ {{2}}$ $\ scriptstyle {\ mathbb {R}} ^ {p}$ $\ scriptstyle {\ mathbb {R}} ^ {q}$ $\ cos ^ {2} (\ xi _ {{1}}, \ eta _ {{2}})$

En la ilustración de la figura 08, las correlaciones entre las variables dentro de los dos grupos están representadas por los correlogramas superiores, la correlación entre los dos grupos se explica a continuación. Si el color dominante fuera el verde claro, no se habría detectado ninguna correlación. En la figura 07, los dos grupos de variables se agrupan en el círculo de correlaciones relacionadas con las dos primeras variables canónicas.

Finalmente, el análisis canónico generalizado en el sentido de Caroll (después de JDCaroll) extiende el análisis canónico ordinario al estudio de p grupos de variables (p> 2) aplicadas al mismo espacio de individuos. Admite como casos especiales PCA, AFC y MCA, análisis canónico simple, pero también regresión simple y múltiple, análisis de varianza , análisis de covarianza y análisis discriminante.

Posicionamiento multidimensional

Para utilizar esta técnica, las tablas no deben ser variables propias de los individuos sino “distancias” entre individuos. El analista desea estudiar las similitudes y diferencias entre estos individuos.

El posicionamiento multidimensional ( “ escalamiento multidimensional ” o MDS) es, por tanto, un método factorial aplicable sobre matrices de distancia entre individuos. Este método no forma parte de lo que se suele llamar análisis de datos "al estilo francés". Pero tiene las mismas características que los métodos anteriores: se basa en el cálculo matricial y no requiere una hipótesis probabilística. Los datos pueden ser medidas de p variables cuantitativas en n individuos, y en este caso el analista calcula la matriz de distancias o directamente una tabla de distancias entre individuos. $n \ veces n$

En el caso clásico llamado métrico, la medida de disimilitudes utilizada es una distancia euclidiana. Permite aproximar las diferencias entre los individuos en el espacio de dimensión reducida. En el caso no métrico, los datos son ordinales, de rango de tipo. El analista está más interesado en el orden de las diferencias que en su extensión. El MDS no métrico utiliza un índice de disimilitud (equivalente a una distancia pero sin la desigualdad triangular) y permite la aproximación del orden de las entradas en la matriz de disimilitudes por el orden de las distancias en el espacio de dimensión reducida.

Como en PCA, es necesario determinar el número de dimensiones del espacio objetivo, y la calidad de la representación se mide por la relación de la suma de la inercia del subespacio de dimensión reducida a la inercia total. De hecho, la métrica MDS es equivalente a un PCA donde los objetos del análisis MDS serían los individuos del PCA. En el ejemplo opuesto, las ciudades serían los individuos de la PCA y el posicionamiento GPS reemplazaría las distancias entre ciudades. Pero MDS Analysis extiende PCA, ya que puede usar funciones de similitud / disimilitud menos restrictivas que las distancias.

Con el posicionamiento multidimensional, visualizar matrices de disimilitudes, analizar puntos de referencia y realizar visualmente particiones en datos o matrices de disimilitudes son operaciones fáciles de realizar.

Análisis de factores múltiples

El análisis factorial múltiple (AMF) se dedica a tablas en las que un conjunto de individuos se describe mediante varios grupos de variables, ya sean cuantitativas, cualitativas o mixtas. Este método es menos conocido que los anteriores, pero su gran potencial de aplicación merece una mención especial.

Ejemplos de aplicación

En las encuestas de opinión, los cuestionarios siempre se estructuran por temas. Es posible que desee analizar varios temas simultáneamente.
Para una categoría de productos alimenticios, existen calificaciones otorgadas por expertos y calificaciones otorgadas por los consumidores sobre diferentes aspectos de los productos. Es posible que desee analizar datos de expertos y datos de consumidores simultáneamente.
Para un conjunto de ambientes naturales, tenemos datos biológicos (abundancia de un cierto número de especies) y datos ambientales (características del suelo, relieve, etc.). Es posible que desee analizar estos dos tipos de datos simultáneamente.
Para un conjunto de tiendas, tenemos la facturación por producto en distintas fechas. Cada fecha constituye un grupo de variables. Es posible que desee estudiar estas fechas simultáneamente.

Interesar

En todos estos ejemplos, es útil tener en cuenta, en el propio análisis y no solo en la interpretación, la estructura de las variables en grupos. Esto es lo que hace el AFM que:

pondera las variables para equilibrar la influencia de diferentes grupos, lo que es particularmente valioso cuando se trata de grupos cuantitativos y cualitativos;
proporciona resultados clásicos de análisis factorial: representación de individuos, variables cuantitativas y modalidades de variables cualitativas;
proporciona resultados específicos de la estructura del grupo: representación de los propios grupos (un punto = un grupo), los individuos vistos por cada uno de los grupos (un individuo = tantos puntos como grupos hay), factores de los análisis separados de los grupos (PCA o ACM según la naturaleza de los grupos).

Otros metodos

Estos métodos, desarrollados más recientemente, son menos conocidos que los anteriores.

El Análisis de factores múltiples jerárquico ( " Análisis factorial múltiple jerárquico " ) tiene en cuenta una jerarquía de variables variables y no solo una partición como lo hace el AFM
El Análisis Procusto Generalizado ( " Análisis Procusteano Generalizado " ) yuxtapone las mejores representaciones múltiples de la misma nube de puntos.
El análisis de factores múltiples Duale ( " Análisis de factores múltiples duales " ) tiene en cuenta una puntuación de individuos.
El análisis factorial de datos mixtos ( " Análisis factorial de datos mixtos " ) se adapta a tablas que muestran variables tanto cuantitativas como cualitativas.

La iconografía de las correlaciones representa las correlaciones entre variables (cualitativas y cuantitativas) así como entre individuos "notables". Este método sin supervisión se presta bien a la restitución de una organización, ya sea de estructura de árbol o en bucle, jerárquica o no. Cualquiera que sea el tamaño de los datos, hay variables e individuos notables en la superficie de una esfera; por tanto, no es necesario interpretar ejes. Más que en la posición de los puntos, la interpretación se basa fundamentalmente en la organización de los enlaces.
El ACI descompone una variable multivariante en componentes lineales y estadísticamente independientes.
El algoritmo t-SNE permite la visualización de datos en un espacio bidimensional o tridimensional teniendo en cuenta las proximidades locales.

Análisis de clasificación

La clasificación de los individuos es el dominio de la clasificación automática y el análisis discriminante. Clasificar consiste en definir clases, clasificar es la operación que permite poner un objeto en una clase definida de antemano. La clasificación automática se conoce como clasificación no supervisada de minería de datos ( " minería de datos " ), el análisis discriminante es una técnica estadística conocida como nombre de agrupación de minería de datos.

Clasificación automática

El objetivo de la clasificación automática es dividir todos los datos estudiados en uno o más subconjuntos llamados clases, cada subconjunto debe ser lo más homogéneo posible. Los miembros de una clase se parecen más a otros miembros de la misma clase que a los miembros de otra clase. Se pueden identificar dos tipos de clasificación: por un lado la clasificación (partición o superposición) "plana" y por otro lado la división jerárquica. En ambos casos, clasificar equivale a elegir una medida de similitud / disimilitud, un criterio de homogeneidad, un algoritmo y, a veces, varias clases que componen la partición.

Clasificación "plana"

La semejanza (similitud / disimilitud) de los individuos se mide mediante un índice de similitud, un índice de disimilitud o una distancia. Por ejemplo, para datos binarios es frecuente el uso de índices de similitud como el índice de Jaccard , el índice de Dice, el índice de concordancia o el de Tanimoto . Para datos cuantitativos, la distancia euclidiana es la más apropiada, pero a veces se adopta la distancia de Mahalanobis . Los datos son matrices de p variables cualitativas o cuantitativas medidas en n individuos, o directamente datos de distancia o datos de disimilitud.

El criterio de homogeneidad de clases se expresa generalmente mediante la diagonal de una matriz de varianza-covarianza entre clases o intraclase (inercia). Este criterio permite converger los algoritmos de reasignación dinámica que minimizan la inercia intraclase o maximizan la inercia interclase.

Los principales algoritmos utilizan la reasignación dinámica aplicando el método BW Forgy de centros móviles , o una de sus variantes: el método k-medias , el método de nube dinámica o PAM ( " Partitioning Around Medoids (PAM) " ).

Los métodos basados en el método Condorcet , el algoritmo de maximización de expectativas y las densidades también se utilizan para construir una clasificación.

No existe una clasificación mejor que las demás, especialmente cuando el número de clases en la partición no está predeterminado. Por tanto, debemos medir la calidad de la clasificación y hacer concesiones. La calidad de la clasificación se puede medir utilizando el índice que es la relación entre la inercia entre clases y la inercia total, calculada para varios valores del número total de clases, obteniéndose el compromiso por el método del codo. $R ^ {2}$

La interpretación de las clases, posibilitando la comprensión de la partitura, se puede realizar analizando los individuos que componen cada clase. El estadístico puede contar los individuos de cada clase, calcular el diámetro de las clases, es decir, la distancia máxima entre los individuos de cada clase. Puede identificar individuos cercanos al centro de gravedad, establecer la separación entre dos clases, operación que consiste en medir la distancia mínima entre dos miembros de estas clases. También puede analizar las variables, por ejemplo, calculando la frecuencia de ciertos valores de variables tomados por los individuos de cada clase, o caracterizando las clases por ciertos valores de variables tomados por los individuos de cada clase.

Clasificación jerárquica

Los datos de entrada de una clasificación jerárquica ascendente (HAC) se presentan en forma de una tabla de disimilitudes o una tabla de distancias entre individuos.

Primero tuvimos que elegir una distancia (euclidiana, Manhattan, Chebyshev u otra) o un índice de similitud (Jacard, Sokal, Sorensen, coeficiente de correlación lineal u otro).

La clasificación ascendente propone clasificar a los individuos mediante un algoritmo iterativo. En cada paso, el algoritmo produce una partición agregando dos clases de la partición obtenida en el paso anterior.

El criterio para elegir las dos clases depende del método de agregación. El más utilizado es el método de Ward que consiste en agregar las dos clases que reducen al mínimo la inercia entre clases. Existen otros índices de agregación como el del salto mínimo ( " enlace único " ) donde se agregan dos particiones para las cuales dos elementos, el primero perteneciente a la primera clase, el segundo al segundo, son los más cercanos según la distancia. o el del diámetro ( “ encadenamiento completo ” ) para el cual las dos clases a agregar son las que tienen el par de elementos más distante.

El algoritmo ascendente finaliza cuando solo queda una clase.

La calidad de la clasificación se mide por la relación entre la inercia entre clases y la inercia total.

Las estrategias mixtas, que combinan una clasificación “plana” con una clasificación jerárquica, ofrecen algunas ventajas. La realización de una ACH sobre clases homogéneas obtenidas mediante una clasificación por reasignación dinámica permite procesar grandes tablas de varios miles de individuos, lo que no es posible solo con una ACH. La realización de una ACH después del muestreo y un análisis factorial permite obtener clases homogéneas con respecto al muestreo.

Análisis de factores discriminantes

El análisis de factores discriminantes (DFA), que es la parte descriptiva del análisis discriminante, también se conoce como análisis discriminante lineal, análisis discriminante de Fisher y análisis discriminante canónico. Esta técnica proyecta clases predefinidas sobre planos factoriales que discriminan tanto como sea posible. La tabla de datos describe n individuos en los que se midieron p variables cuantitativas y una variable cualitativa con q modalidades. La variable cualitativa permite definir las q clases y la agrupación de individuos en estas clases. AFD propone encontrar q-1 variables, denominadas variables discriminantes, cuyos ejes separan más las proyecciones de las q clases que cortan la nube de puntos.

Como en todos los análisis factoriales descriptivos, no se realizan supuestos estadísticos de antemano; sólo en la parte predictiva del análisis discriminante se hacen supuestos a priori .

La medición de la calidad de la discriminación se realiza mediante el método de Wilks que es igual a la relación del determinante de la matriz de varianza-covarianza intraclase sobre la determinación de la matriz total de varianza-covarianza. Un Wilks débil indica una fuerte discriminación por diseños factoriales. Por ejemplo, en los datos de Iris, es 0.0234 en los dos primeros factores. Además, si el primer valor propio está cerca de 1, el AFD es de calidad. $\ Lambda$ $\ Lambda$

La correlación entre las variables y los factores permite interpretarlos.

Un AFD es un PCA realizado en los baricentros de las clases de individuos formados utilizando las modalidades de la variable cualitativa. También es un análisis canónico entre el grupo de variables cuantitativas y el conformado por la tabla disyuntiva de la variable cualitativa.

Análisis y regresiones de datos

Basándose en lo que escriben Henry Rouanet y sus coautores, el análisis de datos descriptivos y el análisis predictivo pueden ser complementarios y, en ocasiones, producir resultados similares.

Enfoque PLS

El enfoque PLS es más predictivo que descriptivo, pero los vínculos con ciertos análisis que acabamos de ver se han establecido claramente.

El algoritmo de Herman Wold , denominado primero NILES ( " Estimación no lineal por mínimos cuadrados iterativos " ), luego NIPALS ( " Estimación no lineal por mínimos cuadrados iterativos parciales " ) se diseñó por primera vez para el análisis de componentes .

Además, PLS permite encontrar análisis canónico con dos bloques de variables, análisis entre baterías de Tucker, análisis de redundancia y análisis canónico generalizado en el sentido de Carroll. La práctica muestra que el algoritmo PLS converge hacia los primeros valores propios en el caso del análisis entre baterías de Tucker, análisis canónico con dos bloques de variables y análisis de redundancia.

Regresiones

La Regresión de Componentes Principales (PCR) utiliza PCR para reducir el número de variables reemplazándolas con los componentes principales que tienen la ventaja de no estar correlacionados. PLS y PCR a menudo se comparan entre sí en la literatura.

Ya mencionado anteriormente en este artículo, el análisis canónico es equivalente a la regresión lineal cuando uno de los dos grupos se reduce a una sola variable.

Software

El análisis de datos moderno no puede separarse del uso de computadoras; Se pueden citar muchos programas de software que permiten el uso de los métodos de análisis de datos que se ven en este artículo. SPSS , Statistica , HyperCube , SAS y CORICO proporcionan módulos completos de análisis de datos; Software R también con bibliotecas como FactoMineR, Ade4 o MASS; Braincube, solución de análisis de big data para la industria.

Notas y referencias

Notas

Las " cargas " pueden verse como coeficientes de regresión que expresan las variables en función de los factores.
Los “factores” en el “ Análisis Factor modelo” considerado como “variables latentes”, pre-existen las mediciones; mientras que en el análisis de componentes principales, los “componentes” son las variables, consecuencias de las medidas, que permiten reducir las dimensiones.
AFC también puede verse como un análisis canónico particular.
Se denominan tablas de perfil de fila y de perfil de columna. Si la tabla inicial tiene p filas y q columnas, y si es su elemento genérico, la tabla de perfiles de fila tiene como elemento genérico el de perfiles de columna . Las líneas de perfil forman una nube de p puntos en los que proporcionamos la métrica . Se aplica una métrica equivalente a los perfiles de columna. $n _ {{ij}}$ ${\ frac {n _ {{ij}}} {n _ {{i.}}}}$ ${\ frac {n _ {{ij}}} {n _ {{. j}}}}$ $\ scriptstyle {\ mathbb {R}} ^ {q}$ $d _ {{\ chi ^ {2}}} ^ {2} (i, i ^ {{'}}) = \ sum _ {{j = 1}} ^ {q} {\ frac {n} {n_ {{.j}}}} \ left ({\ frac {n _ {{ij}}} {n _ {{i.}}}} - {\ frac {n _ {{i ^ {{'}} j}}} {n _ {{i ^ {{'}}.}}}} \ derecha) ^ {2}$ $\ scriptstyle {\ mathbb {R}} ^ {p}$
Para obtener más información sobre el ejemplo de al lado, consulte el análisis de FG Carpentier de la Universidad de Brest FG Carpentier, " Analyze Factorielle des corresponces " [PDF] , en geai.univ-brest.fr ,2004(consultado el 12 de noviembre de 2011 ) .
Para comprender la contribución específica de MCA, ver Saporta 2006 , p. 227.
La inercia total de la nube de puntos es igual a , la inercia de la variable que tiene modalidades está dada por y la inercia de la modalidad ja para fórmula . $\ left ({\ frac {1} {p}} \ sum _ {{i = 1}} ^ {p} m _ {{i}} \ right) -1$ $X _ {{i}}$ $medio}}$ $\ left ({\ frac {m _ {{i}} - 1} {p}} \ right)$ ${\ frac {1} {p}} \ izquierda (1 - {\ frac {n _ {{j}}} {n}} \ derecha)$
Dos libros contienen una descripción detallada de la AFM: Escofier & Pagès 2008 y Pagès 2013 .
Consulte este documento también para ver una comparación entre PCA y ACI.
Ver datos en el sitio de la Universidad de Colonia, " " conjuntos de datos para técnicas de agrupamiento " " en uni-koeln.de (accedido 29 de de noviembre de 2011 ) .
Ver " Glosario de minería de datos ".
PLS significa " Mínimos cuadrados parciales " o Mínimos cuadrados parciales o " Proyección a estructura latente " o Proyección a estructura latente según el caso.

Referencias

Elizabeth Garrett-Mayer, " Estadísticas en la investigación psicosocial: Conferencia 8: Análisis factorial I " , en ocw.jhsph.edu ,2006(consultado el 29 de enero de 2012 ) .
" Publicaciones, " en bearingpoint.com (visitada 31 de de agosto de, 2020 ) .
“ Braincube Cloud Solution ” , en www.ipleanware.com

Libros especializados

Husson , 2009 , p. iii
Saporta , 2006 , p. 190
Lebart , 2008 , p. 38
Lebart , 2008 , p. 418-419
Tenenhaus 1998 , p. 23
Tenenhaus 1998 , p. 35
Lebart , 2008 , p. 131
Benzécri 1976 , p. 91 y siguientes. (Volumen I)
Benzécri 1976 , p. 63 y siguientes. (Volumen I)
Husson , 2009 , p. 155
Benzécri 1976 , p. 339 (Volumen II)
Benzécri 1976 , p. 372 (Volumen II)
Frédéric Lebaron , La Croyance économique , Le Seuil , coll. "Liber",5 de junio de 2000, 1 st ed. , 260 p. ( ISBN 978-2-02-041171-4 )
Benzécri 1976 , p. 329 (Volumen II)
Benzécri 1976 , p. 467 (Volumen II)
Benzécri 1976 , p. 485 (Volumen I)
Husson , 2009 , p. 58
Husson , 2009 , p. 110
Benzécri 1976 , p. 29 (Volumen I)
Benzécri 1976 , p. 31 (Volumen I)
Benzécri 1976 , p. 37 (Volumen I)
Benzécri 1976 , p. 55 (Volumen I)
Lebart , 2008 , p. 6
Saporta , 2006 , p. 162
Saporta , 2006 , p. 178
Lebart , 2008 , p. 93
Saporta , 2006 , p. 212.
Saporta , 2006 , p. 201-204
Husson , 2009 , p. 70
Benzécri 1976 , p. 47 (Volumen II)
Husson , 2009 , p. 81-83
Husson 2009 , p. 155
Lebart , 2008 , p. 187
Saporta , 2006 , p. 220
Husson , 2009 , p. 140-141
Lebart , 2008 , p. 37
Saporta 2006 , p. 189-190
Husson 2009 , p. 172
Saporta , 2006 , p. 250-251
Saporta , 2006 , p. 243
Tufféry 2010 , p. 240
Saporta , 2006 , p. 258
Saporta , 2006 , p. 256
Lebart , 2008 , p. 329
Tufféry 2010 , p. 329
Tufféry 2010 , p. 342
Saporta , 2006 , p. 444
Tenenhaus 1998 , p. 243
Tenenhaus 1998 , p. 61
Tenenhaus 1998 , p. 237 y siguientes.

Artículos publicados en Internet

Jean-Paul Benzécri , “ Historia y Prehistoria de Análisis de Datos: Parte 5 ”, Los Cuadernos de análisis de datos , vol. 2, n o 1,1977, p. 9-40 ( lea en línea [PDF] , consultado el 30 de enero de 2012 )
(in) N. Zainol , J. Salihon y R. Abdul-Rahman , " Producción de biogás a partir de residuos utilizando un reactor de biopelícula: análisis factorial en un sistema de dos etapas " , Academia Mundial de Ciencias, Ingeniería y Tecnología , vol. 54, n o 22009, p. 30-34 ( leer en línea [PDF] , consultado el 2 de febrero de 2012 )
(in) Reza Nadimi y Fariborz Jolai , " Uso conjunto del análisis factorial (FA) y el análisis envolvente de datos (DEA) para la clasificación del análisis envolvente de datos " , Revista Internacional de Ciencias Matemáticas, Físicas e Ingeniería , vol. 2, n o 4,2008, p. 218-222 ( lea en línea [PDF] , consultado el 2 de febrero de 2012 )
(es) Noboru Oshumi y Charles-Albert Lehalle, “ Benzecri, Tukey y Hayashi (matemáticas) ” , en lehalle.blogspot.com ,2006(consultado el 6 de noviembre de 2011 )
(in) Antoine de Falguerolles , " Análisis de datos: antes y alrededor " , Historia de la Revista Electrónica de Probabilidad y Estadística , vol. 4, n o 2diciembre de 2008( lea en línea [PDF] , consultado el 7 de enero de 2012 )
Jean-Paul Benzécri , " Historia y prehistoria del análisis de datos: Parte 2 ", Cuadernos de análisis de datos , vol. 1, n o 21976, p. 101-120 ( leído en línea , consultado el 22 de enero de 2012 )
Ludovic Lebart , " El análisis de los datos de los orígenes a 1980: algunos elementos ", Revista Electrónica de Historia de Probabilidad y Estadística , vol. 4, n o 2diciembre de 2008( lea en línea [PDF] , consultado el 6 de enero de 2012 )
Gilbert Saporta, " Datos adicionales sobre análisis de datos " [PDF] , en cedric.cnam.fr ,1975(consultado el 6 de noviembre de 2011 )
Jean-Paul Benzécri , “ Historia y Prehistoria de Análisis de Datos: Parte 4 ”, Los Cuadernos de análisis de datos , vol. 1, n o 4,1976, p. 343-366 ( lea en línea [PDF] , consultado el 22 de enero de 2012 )
(en) Louis Leon Thurstone , Análisis de factores múltiples. Revisión psicológica, 38 ,1931, p. 406–427
(in) Shizuhiko Nishisato , " Elementos de escala dual: una introducción al análisis de datos prácticos " , Medición psicológica aplicada , vol. 18, n o 4,Diciembre de 1994, p. 379-382 ( presentación en línea , leer en línea [PDF] )
(En) George Michailidis y Jan de Leeuw , " El sistema descriptivo GIFI de análisis multivariante " , Ciencia estadística , vol. 4, n o 13,1998, p. 307-336 ( lea en línea [PDF] , consultado el 6 de enero de 2012 )
Christian Baudelot y Michel Gollac , “ ¿Tenemos que trabajar para ser felices? », Insee Première , n o 560,Diciembre de 1997( leído en línea , consultado el 7 de enero de 2012 )
(en) Johs Hjellbrekke Brigitte Le Roux Olav Korsnes Frédéric Lebaron , Henry Rouanet y Lennart Rosenlund , " El campo noruego del poder Anno 2000 ' , Sociedades europeas , vol. 9, n o 22007, p. 245-273 ( leído en línea , consultado el 7 de enero de 2012 )
François Denord , Paul Lagneau-Ymonet y Sylvain Thine , " Le champ duouvoir en France ", Actas de investigación en ciencias sociales , n o 190,2011, p. 24-57 ( leído en línea , consultado el 30 de enero de 2012 )
Julien Duval , " El arte del realismo ", Actas de investigación en ciencias sociales , n os 161-162,2006, p. 96-195 ( leído en línea , consultado el 21 de enero de 2012 )
E. Boukherissa , “ Contribución al estudio de la estructura de las obras: análisis de la matriz de presencia de los personajes en el escenario ”, Les Cahiers de l'Analyse des data , vol. 20, n o 21995, p. 153-168 ( lea en línea [PDF] , consultado el 7 de enero de 2012 )
C. Desroussilles , " Tamaño y estructura de las empresas estudiadas según sus balances ", Les Cahiers de l'Analyse des data , vol. 5, n o 1, 1980, p. 45-63 ( lea en línea [PDF] , consultado el 23 de enero de 2012 )
(in) Zhang Yan y Yu Bin , " Análisis de componentes principales no negativos para el reconocimiento facial " , Academia Mundial de Ciencias, Ingeniería y Tecnología , vol. 48,diciembre de 2010, p. 577-581 ( lea en línea [PDF] , consultado el 7 de enero de 2012 )
L. Bellanger , D. Baize y R. Tomassone , “ El análisis de correlaciones canónicas aplicadas a datos ambientales ”, Revue de Statistics Appliqué , vol. LIV, n o 4,2006, p. 7-40 ( lea en línea [PDF] , consultado el 24 de enero de 2012 )
F. Bertrand , M. Maumy , L. Fussler , N. Kobes , S. Savary y J. Grossman , " Estudio estadístico de los datos recopilados por el Observatorio de enfermedades del Bois de la Vigne ", Revista de la Sociedad Francesa de Estadística , vol. 149, n o 4,2008, p. 73-106 ( lea en línea [PDF] , consultado el 24 de enero de 2012 )
H. Seiffolahi , " Características de los sujetos que practican varios deportes en la región de París ", Les Cahiers de l'Analyse des Data , vol. 6, n o 4,1981, p. 493-497 ( lea en línea [PDF] , consultado el 25 de enero de 2012 )
Renaud Laporte , “ Prácticas deportivas y sociabilidad ”, Matemáticas y Ciencias Sociales , vol. 43, n o 170,2005, p. 79-94 ( lea en línea [PDF] , consultado el 7 de enero de 2012 )
Anne-Béatrice Dufour, Jacques Pontier y Annie Rouard, " Morfología y rendimiento en deportistas de alto nivel: caso de balonmano y natación " [PDF] , en pbil.univ-lyon1.fr ,1988(consultado el 11 de noviembre de 2011 )
Carla Henry, Manohar Sharma, Cecile Lapenu y Manfred Zeller, " Microfinance Poverty Assessment Tool " [PDF] , en lamicrofinance.org ,2003(consultado el 20 de noviembre de 2011 )
Arthur Charpentier y Michel Denuit , Matemáticas de seguros distintos de los de vida , t. II, Economica ,2005, 596 p. ( ISBN 978-2-7178-4860-1 )
Dominique Desbois , " El lugar de a priori en el análisis de datos económicos o el fuerte programa de métodos inductivos al servicio de la heterodoxia ", Modulad , n o 32, 2008, p. 176-181 ( lea en línea [PDF] , consultado el 21 de enero de 2012 )
FG Carpentier, “ Análisis de componentes principales con R ” , en geai.univ-brest.fr ,2006(consultado el 19 de noviembre de 2011 )
C. Duby y S. Robin, " Análisis de Componentes Principales " [PDF] , en agroparistech.fr ,2006(consultado el 3 de noviembre de 2011 )
Christine Decaestecker y Marco Saerens, " Análisis de componentes principales " [PDF] , en isys.ucl.ac.be (consultado el 3 de noviembre de 2011 )
(in) Hossein Arsham, " " Topics in Statistical Data Analysis: Revealing Facts from Data " " en home.ubalt.edu (consultado el 3 de noviembre de 2011 )
FG Carpentier, “ análisis factorial de correspondencias con R ” , en geai.univ-brest.fr (visitada 18 de diciembre 2011 )
R. Ramousse, M. Le Berre y L. Le Guelte, " Introducción a la estadística " , en cons-dev.org ,1996(consultado el 12 de noviembre de 2011 )
Universidad Pierre et Marie Curie, París, " Análisis factorial de correspondencias múltiples: 4.3 Formulaire " , en obs-vlfr.fr (consultado el 13 de noviembre de 2011 )
(en) Ignacio González, Sébastien Déjean, Pascal GP Martin y Alain Baccini, " " CCA: Un paquete R para extender Análisis de correlación canónica " " [PDF] , en jstatsoft.org ,2008(consultado el 19 de noviembre de 2011 )
Ph. Casin y JC Turlot , “ Una presentación del análisis canónico generalizado en el espacio de los individuos ”, Revue de Statistical Appliqué , vol. 34, n o 3, 1986, p. 65-75 ( lea en línea [PDF] , consultado el 8 de enero de 2012 )
(en) A. Mead , “ revisión del desarrollo de métodos de escalado multidimensional ” , estadístico , vol. 41, n o 1,1992, p. 27-39 ( lea en línea [PDF] , consultado el 8 de enero de 2012 )
Dominique Desbois , “ Una introducción al posicionamiento multidimensional. », Modulad , vol. 32,2005, p. 1-28 ( lea en línea [PDF] , consultado el 20 de enero de 2012 )
Sébastien le Dien y Jérôme Pagès , “ Análisis jerárquico de factores múltiples ”, Revue de Statistique Appliqué , vol. 51, n o 22003, p. 47-73 ( lea en línea [PDF] , consultado el 8 de enero de 2012 )
Jérôme Pagès , “ Análisis de factores múltiples y análisis procusteano ”, Revue de Statistical Appliqué , vol. LIII, n o 4, 2005, p. 61-86url = http://smf4.emath.fr/Publications/JSFdS/RSA/53_4/pdf/sfds_rsa_53_4_61-86.pdf
Jérôme Pagès , " Análisis factorial de datos mixtos ", Revue de Statistical Appliqué , vol. 52, n o 4,2004, p. 93-111 ( leído en línea , consultado el 8 de enero de 2012 )
Michel Lesty , " Correlaciones parciales y correlaciones duales ", Modulad , vol. 39,diciembre de 2008, p. 1-22 ( leído en línea , consultado el 8 de enero de 2012 )
Jean-François Cardoso, " Análisis de componentes independientes " [PDF] , en perso.telecom-paristech.fr (consultado el 12 de diciembre de 2011 )
Laurence Reboul, " CH 3: Classification " [PDF] , en iml.univ-mrs.fr (consultado el 24 de noviembre de 2011 )
J.M Loubes, " Exploración estadístico Multidimensional Capítulo 8: no supervisada Clasi fi cación " [PDF] , en math.univ-toulouse.fr (visitada 25 de noviembre 2011 )
(en) Unesco, " " Partitioning Around Medoids " " en unesco.org (consultado el 27 de noviembre de 2011 )
Christel Vrain, " Clasificación no supervisada " [PDF] , en univ-orleans.fr (consultado el 24 de noviembre de 2011 )
Catherine Aaron, " Algoritmo EM y clasificación no supervisada " [PDF] , en samos.univ-paris1.fr (consultado el 25 de noviembre de 2011 )
Mireille Summa-Gettler y Catherine Pardoux, " La Clasificación Automática " [PDF] , en ceremade.dauphine.fr (visitada 26 de de noviembre de, 2011 )
Jean-Yves Baudot, " AFD Linear Model " , en jybaudot.fr ,2008(consultado el 11 de diciembre de 2011 )
Henry Rouanet , Frédéric Lebaron , Viviane Le Hay , Werner Ackermann y Brigitte Le Roux , " Regresión y análisis de datos geométricos: reflexiones y sugerencias ", Matemáticas y Humanidades , n o 160, invierno 2002, p. 13-45 ( leído en línea , consultado el 4 de enero de 2012 )
Séverine Vancolen, " Regression PLS " [PDF] , en doc.rero.ch ,2004(consultado el 17 de diciembre de 2011 )
Michel Tenenhaus , “ El enfoque PLS ”, Revue de Estadísticas de apliques , vol. 47, n o 2 1999, p. 5-40 ( lea en línea [PDF] , consultado el 8 de enero de 2012 )
J. Obadia , " El análisis en componentes explicativos ", Revue de statistique aplicada , vol. 26, n o 4,1978, p. 5-28 ( lea en línea [PDF] , consultado el 8 de enero de 2012 )

Ver también

Bibliografía

Jean-Paul Benzécri y col. , Análisis de datos: 1 Taxonomía , París, Dunod ,1976, 631 p. ( ISBN 2-04-003316-5 ).
Jean-Paul Benzécri y col. , Análisis de datos: 2 análisis de correspondencia , París, Dunod ,1976, 616 p. ( ISBN 2-04-004255-5 ).
Jean-Marie Bouroche y Gilbert Saporta , Análisis de datos , París, Presses Universitaires de France,2006, 9 ª ed. , 125 p. ( ISBN 978-2-13-055444-8 ).
Alain Desrosières , “ Análisis de datos y ciencias humanas: ¿cómo cartografiar el mundo social? », Revista Electrónica de Historia de la Probabilidad y Estadística ,diciembre de 2008( leer en línea )
Brigitte Escofier y Jérôme Pagès, Análisis factorial simple y múltiple: objetivos, métodos e interpretación , París, Dunod, París,2008, 318 p. ( ISBN 978-2-10-051932-3 )
François Husson , Sébastien Lê y Jérome Pagès , Análisis de datos con R , Rennes, Presses Universitaires de Rennes ,2009, 224 p. ( ISBN 978-2-7535-0938-2 ).
(en) Lyle V. Jones , The Collected Works of John W. Tukey T.IV , Monterey, California, Chapman y Hall / CRC,1987, 675 p. ( ISBN 978-0-534-05101-3 , leer en línea ).
(en) Lyle V. Jones , The Collected Works of John W. Tukey TI , Monterey, California, Wadsworth Pub Co,1984, 680 p. ( ISBN 978-0-534-03303-3 , leer en línea ).
Ludovic Lebart, Marie Piron y Alain Morineau , Estadísticas exploratorias multidimensionales , París, Dunod ,2006, 464 p. ( ISBN 978-2-10-049616-7 )
Frédéric Lebaron , La encuesta cuantitativa en ciencias sociales: recopilación y análisis de datos , Dunod , coll. "Psycho sup",26 de enero de 2006, 1 st ed. , 182 p. ( ISBN 978-2-10-048933-6 )
Jérôme Pagès, Análisis factorial múltiple con R , Les Ulis, EDP sciences, París,2013, 253 p. ( ISBN 978-2-7598-0963-9 )
Gilbert Saporta , Probabilidad, análisis de datos y estadística , París, Éditions Technip,2006, 622 p. [ detalle de ediciones ] ( ISBN 978-2-7108-0814-5 , presentación en línea )
Michel Tenenhaus , The PLS regression: Theory and Practice , París, ediciones Technip,1998, 254 p. ( ISBN 978-2-7108-0735-3 , leer en línea )
Stéphane Tufféry , Minería de datos y estadísticas de toma de decisiones: inteligencia de datos , París, ediciones Technip,2010, 705 p. ( ISBN 978-2-7108-0946-3 , leer en línea )
(en) JW Tukey y KE Basford , Análisis gráfico de datos de múltiples respuestas , Londres, Chapman & Hall (CRC Press),1999, 587 p. ( ISBN 0-8493-0384-2 ).
Michel Volle , análisis de datos , Economica ,1997, 4 ª ed. , 323 p. ( ISBN 978-2-7178-3212-9 ).
Michel Volle , " Análisis de datos ", Economía y Estadística , vol. 96, n o 1,1968, p. 3–23 ( DOI 10.3406 / estat.1978.3094 , presentación en línea ).

enlaces externos

FactoMineR, una biblioteca de funciones R para análisis de datos