Analyse bioinformatique des séquences

4. - La manipulation des données

4.2 - Les formats
4.2.3 - Les formats spécifiques de séquences multiples

 


> Fichier FOSN (Files Of Sequence Names) de GCG

Le fichier FOSN est un fichier catalogue qui ne contient que des noms de séquences (un nom par ligne), c'est à dire des noms de fichiers personnels (contenant une ou plusieurs séquences) et/ou des noms de séquences de banque (nom_banque:mnémonique). Des commentaires peuvent être ajoutés : ils seront dans ce cas précédés du caractère !

!Nom du fichier : catalogue.list
.. ! Le fichier doit commencer par ..
em:*rna* ! Séquences de l'EMBL contenant rna dans leur nom
gamma.seq ! Fichier personnel au format GCG
gb:D01457 ! Séquence D01457 de Genbank
aligned.msf{*} ! Fichier de séquences alignées au format MSF
@em.strings ! Liste de noms de séquences
gb:Hum* ! Séquences humaines de Genbank
miu.seq begin:1 end:95 ! Séquence personnelle des positions 1 à 95

Pour traiter l'ensemble de ces séquences dans un programme de GCG, il suffit de désigner le nom de ce fichier précédé du caractère @ en paramètre d'entrée (EX: @catalogue.list). Le programme ira lui-même chercher les séquences correspondantes aux endroits adéquats (répertoire personnel ou banque).
Le fichier FOSN peut être généré par les commandes Names, StringSearch, Lookup de GCG ou (indirectement) par SRS (il faudra ajouter ..).
Il est possible d'indiquer pour chaque séquence des attributs :
   Début/fin : begin:m end:n (m etn : positions dans la séquence
   Topologie : Circ:T (séquence circulaire) Circ:F (linéaire)
   Brin : Strand:+ (sens directe) Strand:- (sens inverse)
   Poids de la séquence : Wgt:1
   Jointure : Join:nom_seq
   (concaténation de plusieurs fragments ayant la même étiquette)

Ecran suivant

© Université de TOURS - NET

Document modifié, le 14 décembre, 2006