Analyse statistique du transcriptome

Représentation spatiale des données et régression linéaire

Une expérience de transcriptome se traduit toujours par un tableau de chiffres dans lequel une ligne correspond à un gène et une colonne à une condition expérimentale. Notre objet de base est donc placé au départ dans un espace à K dimensions si notre expérience contient K conditions.

Représentation en 2D

Visualiser un objet dans un tel espace à K dimensions est une mission impossible pour l'oeil humain. Le premier réflexe devant un tel tableau de chiffres est de prendre les conditions 2 à 2 et de représenter les données cette fois dans un espace à 2D (qui nous est parfaitement familier).

Exercice1: Travail sur les données de B. subtilis. Dans Excel, choisissez deux conditions (2 colonnes) et représenter le nuage de points correspondant. On dispose alors de tous les gènes représentés selon ces 2 conditions. Vous pouvez vous amusez à tracer différents nuages en changeant les 2 conditions retenues comme axes.

Commentaires sur les résultats:

Pour visualiser un exemple: cliquer ici

Cette solution présente deux inconvénients majeurs:

- le nombre de dessins total qu'il faut tracer et donc à analyser est trop élevé: K(K-1)/2

- chaque dessin ne contient qu'une infime partie de l'information contenue dans l'espace de départ.

Transformation logarithmique

Un autre inconvénient de cette représentation très simpliste en 2D est la répartition des points sur l'ensemble du nuage. Plus exactement, la quasi totalité des points est concentrée dans une faible partie de l'espace et seuls quelques points occupent le reste. Un premier principe est de mieux répartir les points sur l'ensemble de l'espace disponible en choisissant une échelle plus adaptée. La transformation logarithmique permet cela.

 

Exercice2: Toujours dans Excel, faites une transformation logarithmique de vos données et refaites la représentation en 2D. Vos points doivent être mieux répartis sur le graphique.

Commentaires sur les résultats:

Pour voir un exemple après transformation logarithmique: cliquez ici (graphique 2D+log)

Régression linéaire

Que fait-on lorsque l'on fait une régression linéaire des données ? On cherche tout simplement le droite qui passe au milieu des points. Idéalement, les gènes qui ne "bougent pas" (leur expression n'est pas modifiée par le changement de condition) sont alignés sur cette droite tandis que les gènes qui "bougent" (expression affectée par le changement de condition) sont en dehors de cette droite. La distance à la droite de régression pour un gène donné donne une estimation du niveau de changement d'expression de ce gène entre les 2 conditions .

Comment tracer cette droite de régression et quelles sont les informations qu'elle apporte ?

3 principes doivent vous guider lorsque vous tracez une droite de régression:

- Contrairement aux idées recues, on peut toujours tracer une droite de régression avec des données. Rien ne vous l'interdit !

- Il n'existe pas une droite de régression mais 2 droites non confondues.

Leurs équations respectives sont: y=ax+b et x= Ay+B. Le coefficient de corrélation des données =cos(angle entre les 2 droites).

- Tracer une droite de régression permet pour un gène dont on ne connait qu'une coordonnée de déduire la seconde dans un certain intervalle de valeurs .

Exercice3

Pour illustrer les 2 situations antagonistes des données liées et des données indépendantes, nous vous proposons un jeu de données spécifiques afin de visualiser au mieux les 2 situations.

Exemple de données liées: Dans les données fournies, et toujours dans Excel, choisissez les colonnes 4 et 5. Faites une régression linéaire de type y=ax+b entre ces deux colonnes (petit rappel sur la méthode : rappel1). Une fois la droite tracée, déterminer l'intervalle de valeurs pour y, si on vous donne un gène dont la coordonnées x est 928 (petit rappel sur la méthode : rappel2).

Pour voir le résultat, cliquez ici.

Exemple de données indépendantes: coefficient de corrélation =cos(90) qui tend vers 0. Dans les données, et toujours dans Excel, choisissez les colonnes 1 et 2, et faites une régression linéaire de type y=ax+b. Une fois la droite tracée, déterminer l'intervalle de valeurs pour y, si on vous donne un gène dont la coordonnées x est 402.

Pour voir le résultat, cliquez ici.

Commentaires sur les résultats:

Pour voir un exemple de régression linéaire sur les données de B. subtilis: cliquez ici (graphique régression linéaire)

Distribution des données

Sachant que la quasi totalité des analyses et lois statistiques ne s'appliquent que sur des distributions gaussiennes, il est important de s'interroger sur la nature de la distribution des données issues du transcriptome. Dans le cas d'une distribution non gaussienne, il faudra alors chercher la transformation la plus adéquate pour ramener nos données vers une gaussienne.

L'article () montre en réalité que la distribution des données issues du transcriptome est une juxtaposition de plusieurs distributions différentes. Première conséquence, il faut donc être prudent dans l'utilisation des statistiques classiques basées comme on l'a déjà mentionné sur des distributions gaussiennes. De plus, dans cette configuration, il est très difficile de trouver une transformation qui soit valable pour l'ensemble de la distribution. Telle transformation sera adaptée sur une partie de la distribution qui est d'un certain type A, et ne le sera plus sur une autre partie qui suit une autre loi B.

Dans l'ensemble du travail sur les données sur le transcriptome il faudra en permanence être conscient de cette spécificité de la distribution.

 

Transformation linéaire:

Une transformation linéaire très utilisée en analyse de données est de centrer et réduire les données c'est à dire de donner à toutes les conditions (toutes les colonnes) la même moyenne et la même variance. Pour centrer les données on retranche à chaque valeur du tableau la moyenne de sa colonne. Pour réduire les données on divise chaque valeur du tableau par l'écart-type de sa colonne.

Une donnée centrée-réduite satisfait aux deux propriétés suivantes :
· sa moyenne est nulle
· son écart type est égal à un
Cela permet d'obtenir :
a) des données indépendantes de l'échelle choisie
b) des variables ayant même moyenne et même dispersion.

Ce qui est important c'est que les distances entre les scores demeurent proportionnelles après une
transformation linéaire. et qu'elle ne modifie pas la forme de la distribution.

Exercice4

Toujours dans Excel, réaliser une transformation linéaire de type centrée réduite sur les données de B. subtilis (petit rappel sur la méthode: rappel3).

Pour voir le résultat, cliquez ici.

L'objectif de cette première étape est de bien poser les bases de la représentation spatiale des données et de la régression linéaire. L'utilisateur doit être capable de représenter les données dans un espace à 2D, d'effectuer les transformations de bases (log, linéaire, ...), d'établir une droite de régression et enfin de trouver un intervalle de confiance pour les valeurs prédites.

D'une manière générale, toutes les analyses qui seront proposées dans la suite de cet exposé (ACP, analyse de variance, ...) sont réalisées sur des données dites "normalisées" c'est à dire ayant subi successivement et dans cet ordre, une transfomation logarithmique puis une transformation linéaire (données centrées réduites).