Analyse statistique du transcriptome

Analyse en composantes principales

Dans cette partie nous allons chercher à répondre à la question: comment donner une image synthétique d'un tableau de chiffres ? Autrement dit, comment traiter les données afin de minimiser la quantité de papier nécessaire à la representation de l'information contenue dans ce tableau ? En effet, le principe en analyse de données est de chercher la figure qui représente le maximum d'information tout en étant la plus petite possible. On peut se représenter la quantité d'information comme la quantité de papier utilisée. Deux situations sont repésentées ci-dessous:

Dans le premier cas, la figure ne sert à rien puisque l'ensemble de l'information peut être résumé par l'équation de la droite (y=ax+b)qui passe par les points représentés. Une figure n'est utile que lorsque l'information qu'elle contient ne peut pas être résumée d'une façon plus simple.

Dans le second cas, la figure est utile car elle contient un maximum d'information dans la mesure ou la dispertion des points rend impossible la réduction de la figure. Elle ne peut pas être plus petite sans perdre d'information.

Combinaison linéaire :

Précedemment dans l'analyse simple des conditions 2 par 2, la représentation de la totalité de l'information passait par l'établissement de tous les nuages de points réalisés en prenant les conditions 2 par 2. Si on ne veut pas faire tous les nuages, on peut imaginer de regrouper certaines colonnes (conditions) en fonction de la question biologique que l'on se pose.

Une solution intuitive est de faire une combinaison linéaire des colonnes en donnant le même poids à toutes les colonnes, en les différentiant seulement par un + et un -. Cela revient à faire une combinaison linéaire de toutes les colonnes en affectant un coefficient +1 ou -1 selon le poids que l'on veut donner à telle ou telle condition. La matrice contenant ces coefficients est dite "matrice de mélange".

C'est une solution intuitive mais arbitraire car on peut tout aussi bien imaginer que toutes les colonnes n'aient pas le même poids ! (bruit, importance du phénomène biologique, ...). Faire une combinaison linéaire des colonnes n'est donc pas LA solution pour représenter notre tableau de chiffres.

Matrice de corrélation et diagonalisation

Pour rappel, le principe est de représenter au mieux le tableau de chiffres tout en minimisant l'espace occupé par le nuage sur notre feuille de papier ! Le petit dessin ci-dessous permet de mieux comprendre la suite des événements:

En résumé, en tournant les axes tout en laissant le nuage inchangé, il prend moins de place. Dans le nouveau repère, les coordonnées d'un point est une combinaison linéaire de x et y. On peut aussi dire qu'en tournant les axes, on est passé d'un coefficient de correlation non nul, à un coefficient de correlation nul. Ce critère sur le coefficient de correlation est le critère numérique qui permet à un ordinateur de trouver le système d'axes dans lequel le nuage prend le moins de place, c'est à dire celui ou le coefficient de correlation tend vers 0.

Si l'on reprend le tableau de départ, nous pouvions faire un nuage 2D pour chaque couple de conditions (colonnes). On peut résumer l'ensemble de ces nuages dans une matrice carrée:

	1	2	3	...
1
2
3
....

Tableau1: Chaque numéro correspond à une condition (colonne), et dans chaque cellule, on a le nuage de points 2D obtenu avec les deux conditions concernées.

	1	2	3	...
1	r=1
2	r~1
3	r ~ 0
....

Tableau2: c'est le même tableau que précédemment mais au lieu d'avoir les nuages de points dans les cellules, on a mis les coefficients de correlation entre les 2 conditions. On appelle ce tableau la matrice des correlations.

Le principe de la diagonalisation de la matrice de correlation est le suivant: on fait tourner les axes jusqu'à ce que tous les coefficients de correlation soient nuls.

Lorsque toutes les cases de la matrice de correlation tendent vers 0 (tous les nuages 2D sont positionnés pour minimiser l'espace qu'ils occupent), alors on dit que la matrice de correlation est diagonalisée et l'on a atteint le but fixé: l'ensemble de l'information contenu dans l'espace à K dimensions de départ est résumé dans un minimum de place.

ACP

La réalisation d'une Analyse en Composantes Principales (ACP) revient à diagonaliser la matrice dite "des vecteurs propres". Cette matrice des vecteurs propres n'est ni plus ni moins qu'une matrice de mélange particulière comme on l'avait définie dans la partie sur la combinaison linéaire. Dans le cas de la combinaison linéaire, on avait une matrice de mélange ou tous les coefficients étaient égaux, alors que dans le cas de l'ACP et de la matrice des vecteurs propres, les coefficients sont différents. Plus exactement, les valeurs absolues des coefficients varient d'une condition à l'autre par contre les signes + et - sont identiques entre la matrice de mélange de la combinaison linéaire et la matrice de l'ACP. La nuage dans l'ACP a toujours K dimensions (si il y a K conditions au départ), et dans l'ACP on peut choisir les deux axes selon lesquels on veut visualiser le nuage. Les axes sont présentés par variance décroissante (ou % d'inertie décroissant ce qui revient au même).

Le tableau ci-dessous, extrait de l'article , montre le lien que l'on peut établir entre la matrice de mélange (décrite dans le chapitre combinaison linéaire) et la matrice des vecteurs propres de l'ACP.