Analyse statistique du transcriptome

Analyse de variance: présentation des données et justification du choix de l'exemple

La question est de savoir comment mener une analyse de variance sur les données du transcriptome. Une bonne approche quelque soit la question que l'on se pose est : existe-t-il un problème identique au mien déjà traité et résolu ? Si la réponse est oui, la question est réglée, il suffit de reprendre à son compte et sur ses données la méthode proposée sur le problème similaire.

C'est pour cette raison, que nous nous sommes intéressés à des travaux menés par Mather dans les années 1930 en amélioration des plantes (travaux sur le rendement de l'orge).

Les données dont il disposait sont les suivantes: rendement (boisseaux/3 acres) de 5 lignées d'orge, sur 6 sites différents et ce pour deux années (1931 et 1932).

Le tableau de résultats obtenu est le suivant:

Lignée 1-1931 1-1932 2-1931 2-1932 3-1931 3-1932 4-1931 4-1932 5-1931 5-1932 6-1931 6-1932
Manchuria
81,0 80,7 146,6 100,4 82,3 103,1 119,8 98,9 98,9 66,4 86,9 67,7
Svansota
105,4 82,3 142,0 115,5 77,3 105,1 121,4 61,9 89,0 49,9 77,1 66,7
Velvet
119,7 80,4 150,7 112,2 78,4 116,5 124,0 96,2 69,1 96,7 78,9 67,4
Trebi 109,7 87,2 191,5 147,7 131,3 139,9 140,8 125,5 89,3 61,9 101,8 91,8
Peatland
98,3 84,2 145,7 108,1 89,6 129,6 124,8 75,7 104,1 80,3 96,0 94,1

On dispose de 60 mesures, c'est à dire de 60 conditions différentes.

Si l'on compare la structure logique de ce tableau des années 30 à celui des données sur le transcriptome du travail d'Agnieszka, on voit sans hésitation que si l'on remplace les lignées par les gènes, les années par les répétitions et les sites géographiques par le facteur soufre, on a strictement la même structure de tableau entre les deux situations.

Ce que l'on va expliquer sur les données de Mather établi dans les années 30 sera parfaitement valable pour les données du transcriptome dans les années 2000. C'est ce constat d'organisation similaire des tableaux de données initiales qui justifie l'emploi de la méthode de Mather que nous allons développer dans la partie suivante pour les données du transcriptome.