Analyse statistique du transcriptome

Commentaire sur l'ACP des données de la comparaison des platformes

Avant de parler de l'ACP, le premier commentaire que l'on peut faire concerne l'aspect des différents nuages obtenus lors de l'analyse des correlations 2 colonnes par 2 colonnes. Il apparait très nettement que pour certains nuages, les données sont hétérogènes et ce probablement par divers phénomènes: erreur de marquage, bruit de fond, problème de réglage du photomultiplicateur, ... Cela ne va pas aller sans poser de problème pour l'interprétation des résultats de l'ACP.

Illustration importance réglage photomultiplicateur

Concernant l'interprétation de l'ACP, on constate immédiatement que la représentation obtenue est de mauvaise qualité. Si on analyse la matrice des vecteurs propres, on voit sur le premier axe que les différentes conditions n'ont pas du tout le même poids, ce qui confirme l'hétérognéité des données de départ. Cette lecture de la matrice ne permet donc pas d'extraire d'information pertinente sur l'effet de telle ou telle condition.

Une solution pour essayer tout de même de traiter l'information contenue dans le tableau de données de départ, est de représenter l'information sous l'angle: comment évolue l'expression de mon gène en fonction de différentes conditions ? mais en inversant sous l'angle: Certaines conditions se comportent elles de la même façon. En résumé, on ne regarde plus les lignes, mais les colonnes. On obtient une nouvelle figure dans laquelle on peut pointer avec des couleurs et du texte, une étiquette par plate-forme et par tissu et voir si on obtient un plan qui sépare bien les différentes étiquettes. Ce n'est pas vraiment le cas. Cela parait assez normal, si l'on considère que l'on a 6 forces différentes ( 4 plates-formes et 2 tissus) qui déforment la représentation selon des angles différents. Nous sommes ici dans les limites de la représentation graphique car on ne peut pas réduire la dimension du problème et trouver un plan qui résume et représente correctement l'ensemble est impossible.

C'est un exemple typique pour vous montrer qu'un plan d'expérience trop complexe au départ (influence plate-forme, tissu) et des données de qualité médiocre rendent quasi impossible l'interprétation des données. Ce travail comme cela a été indiqué au départ, n'a d'ailleurs pas pu donné lieu à publication.