Analyse bioinformatique des séquences

4. - La manipulation des données

4.2 - Les formats
4.2.1 - Les formats liés aux données

 


> Format Staden
Le plus ancien et le plus simple : suite des lettres de la séquence par lignes terminées par un retour-à-la-ligne (80 caractères max/ligne). Ce format n'autorise qu'une séquence par fichier.
Exemple :
SESLRIIFAGTPDFAARHLDALLSSGHNVVGVFTQPDRPAGRGKKLMPSPVKVLAEEKGLPVFQ
PVSLRPQENQQLVAELQADVMVVVAYGLILPKAVLEMPRLGCINVHGSLLPRWRGAAPIQRSL
WAGDAETGVTIMQMDVGLDTGDMLYKLSCPITAEDTSGTLYDKLAELGPQGLITTLKQLADG
TAKPEVQDETLVTYAEKLSKEEARIDWSLSAAQLERCIRAFNPWPMSWLEIEGQPVKVWKASV
IDTATNAAPGTILEANKQGIQVATGDGILNLLSLQPAGKKAMSAQDLLNSRREWFVPGNRLV


> Format Stanford / IG
La 1ère ligne est une ligne de commentaires précédée par le caractère ";".
La 2e contient l'identificateur (nom de la séquence) dans les 10 ères colonnes
Les lignes suivantes contiennent la séquence (80 caractères max/ligne) terminée par le caractère "1" (pour une séquence linéaire) et "2" (si la séquence est circulaire).
LINE 1 :; Describe the sequence any way you want
LINE 2 :ECTRNAGLY2
LINE 3 :ACGCACGTAC ACGTACGTAC A C G T C C G T ACG TAC GTA CGT
LINE 4 :GCTTA GG G C T A1
Exemple :
; Dro5s-T.Seq Length: 120 April 6, 1989 21:22 Check: 9487 ..
dro5stseq
GCCAACGACCAUACCACGCUGAAUACAUCGGUUCUCGUCCGAUCACCGAAAUUAAGCAG
CGUCGCGGGCGGUUAGUACUUAGAUGGGGGACCGCUUGGGAACACCGCGUGUUGUUGG
CCU1


> Format Fasta
Dans ce cas, la séquence (donnée sous forme de lignes de 80 caractères maximum) est précédée d'une ligne de titre (nom, définition ...) qui doit commencée par le caractère ">". Cela permet de mettre plusieurs séquences dans un même fichier.
Exemple :
>em|U03177|FL03177 Feline leukemia virus clone FeLV-69TTU3-16.
AGATACAAGGAAGTTAGAGGCTAAAACAGGATATCTGTGGTTAAGCACCTG14 décembre, 2006TCTCCAGGCTCCCCA
>entête de la séquence 2
séquence 2
......


> Format GCG
Le format adopté par le package GCG permet à la fois de commenter les données et de vérifier l'intégrité de la séquence par une valeur (=Ckecksum) calculée sur celle-ci. Le format GCG n'autorise qu'une seule séquence par fichier.
Le fichier est constitué de deux parties :
 - avant les ".." : commentaires
 - ligne signal avec identificateur et "Check #### .."
 - après les ".." : séquence
Exemple :
pir:ccho (1-104)
pir:ccho Length: 104 (today) Check: 8847 ..
1 GDVEKGKKIF VQKCAQCHTV EKGGKHKTGP NLHGLFGRKT GQAPGFTYTD
51 ANKNKGITWK EETLMEYLEN PKKYIPGTKM IFAGIKKKTE REDLIAYLKK
101 ATNE


> Format Fitch
La 1ère ligne contient le nom de la séquence.
Les lignes suivantes contiennent la séquence, découpée en 20 blocs (par ligne) de 3 caractères, séparés par un espace.
Exemple :
pir:ccho (1-104) , 104 bases, 7DA79498 checksum.
GDV EKG KKI FVQ KCA QCH TVE KGG KHK TGP NLH GLF GRK TGQ APG FTY TDA NKN KGI TWK
EET LME YLE NPK KYI PGT KMI FAG IKK KTE RED LIA YLK KAT NE


> Format DNAStrider
Trois lignes de commentaires précédées du caractère ";". Les lignes suivantes contiennent la séquence. La dernière ligne doit contenir les caractères "//".
Exemple :
; ### from DNA Strider ;-)
; DNA sequence pir:ccho (1-104) , 104 bases, 7DA79498 checksum.
;
GDVEKGKKIFVQKCAQCHTVEKGGKHKTGPNLHGLFGRKTGQAPGFTYTDANKNKGITWKE
ETLMEYLENPKKYIPGTKMIFAGIKKKTEREDLIAYLKKATNE //

Ecran suivant

© Université de TOURS - NET

Document modifié, le 14 décembre, 2006