Analyse bioinformatique des séquences

4. - La manipulation des données

4.2 - Les formats
4.2.3 - Les formats spécifiques de séquences multiples [suite]

 


> Format PHYLIP

Deux formats de base sont proposés. Dans les 2 cas, la 1ère ligne du fichier doit contenir le nombre de séquences suivi du nombre de sites (= nombre de positions) par séquence. Les séquences doivent être préalablement alignées : elles ont donc toutes la même taille. Le nom de chaque séquence doit figurer dans les 10ères colonnes de la ligne. Les séquences peuvent contenir ou non des espaces.

1- Format intercalé (= "interleaved")

5 42
Turkey AAGCTNGGGC ATTTCAGGGT
Salmo gairAAGCCTTGGC AGTGCAGGGT
H. SapiensACCGGTTGGC CGTTCAGGGT
Chimp AAACCCTTGC CGTTACGCTT
Gorilla AAACCCTTGC CGGTACGCTT
GAGCCCGGGC AATACAGGGT AT
GAGCCGTGGC CGGGCACGGT AT
ACAGGTTGGC CGTTCAGGGT AA
AAACCGAGGC CGGGACACTC AT
AAACCATTGC CGGTACGCTT AA

2- Format séquentiel
Les séquences se suivent (dans leur totalité) les unes après les autres.

5 42
Turkey AAGCTNGGGC ATTTCAGGGT
GAGCCCGGGC AATACAGGGT AT
Salmo gairAAGCCTTGGC AGTGCAGGGT
GAGCCGTGGC CGGGCACGGT AT
H. SapiensACCGGTTGGC CGTTCAGGGT
ACAGGTTGGC CGTTCAGGGT AA
Chimp AAACCCTTGC CGTTACGCTT
AAACCGAGGC CGGGACACTC AT
Gorilla AAACCCTTGC CGGTACGCTT
AAACCATTGC CGGTACGCTT AA

Ecran suivant

© Université de TOURS - NET

Document modifié, le 14 décembre, 2006