4. - La manipulation des données 4.2 - Les formats 4.2.1 - Les formats liés aux données > Format Staden Le plus ancien et le plus simple : suite des lettres de la séquence par lignes terminées par un retour-à-la-ligne (80 caractères max/ligne). Ce format n'autorise qu'une séquence par fichier. Exemple : SESLRIIFAGTPDFAARHLDALLSSGHNVVGVFTQPDRPAGRGKKLMPSPVKVLAEEKGLPVFQ PVSLRPQENQQLVAELQADVMVVVAYGLILPKAVLEMPRLGCINVHGSLLPRWRGAAPIQRSL WAGDAETGVTIMQMDVGLDTGDMLYKLSCPITAEDTSGTLYDKLAELGPQGLITTLKQLADG TAKPEVQDETLVTYAEKLSKEEARIDWSLSAAQLERCIRAFNPWPMSWLEIEGQPVKVWKASV IDTATNAAPGTILEANKQGIQVATGDGILNLLSLQPAGKKAMSAQDLLNSRREWFVPGNRLV > Format Stanford / IG La 1ère ligne est une ligne de commentaires précédée par le caractère ";". La 2e contient l'identificateur (nom de la séquence) dans les 10 ères colonnes Les lignes suivantes contiennent la séquence (80 caractères max/ligne) terminée par le caractère "1" (pour une séquence linéaire) et "2" (si la séquence est circulaire). LINE 1 :; Describe the sequence any way you want LINE 2 :ECTRNAGLY2 LINE 3 :ACGCACGTAC ACGTACGTAC A C G T C C G T ACG TAC GTA CGT LINE 4 :GCTTA GG G C T A1 Exemple : ; Dro5s-T.Seq Length: 120 April 6, 1989 21:22 Check: 9487 .. dro5stseq GCCAACGACCAUACCACGCUGAAUACAUCGGUUCUCGUCCGAUCACCGAAAUUAAGCAG CGUCGCGGGCGGUUAGUACUUAGAUGGGGGACCGCUUGGGAACACCGCGUGUUGUUGG CCU1 > Format Fasta Dans ce cas, la séquence (donnée sous forme de lignes de 80 caractères maximum) est précédée d'une ligne de titre (nom, définition ...) qui doit commencée par le caractère ">". Cela permet de mettre plusieurs séquences dans un même fichier. Exemple : >em|U03177|FL03177 Feline leukemia virus clone FeLV-69TTU3-16. AGATACAAGGAAGTTAGAGGCTAAAACAGGATATCTGTGGTTAAGCACCTG14 décembre, 2006TCTCCAGGCTCCCCA >entête de la séquence 2 séquence 2 ...... > Format GCG Le format adopté par le package GCG permet à la fois de commenter les données et de vérifier l'intégrité de la séquence par une valeur (=Ckecksum) calculée sur celle-ci. Le format GCG n'autorise qu'une seule séquence par fichier. Le fichier est constitué de deux parties : - avant les ".." : commentaires - ligne signal avec identificateur et "Check #### .." - après les ".." : séquence Exemple : pir:ccho (1-104) pir:ccho Length: 104 (today) Check: 8847 .. 1 GDVEKGKKIF VQKCAQCHTV EKGGKHKTGP NLHGLFGRKT GQAPGFTYTD 51 ANKNKGITWK EETLMEYLEN PKKYIPGTKM IFAGIKKKTE REDLIAYLKK 101 ATNE > Format Fitch La 1ère ligne contient le nom de la séquence. Les lignes suivantes contiennent la séquence, découpée en 20 blocs (par ligne) de 3 caractères, séparés par un espace. Exemple : pir:ccho (1-104) , 104 bases, 7DA79498 checksum. GDV EKG KKI FVQ KCA QCH TVE KGG KHK TGP NLH GLF GRK TGQ APG FTY TDA NKN KGI TWK EET LME YLE NPK KYI PGT KMI FAG IKK KTE RED LIA YLK KAT NE > Format DNAStrider Trois lignes de commentaires précédées du caractère ";". Les lignes suivantes contiennent la séquence. La dernière ligne doit contenir les caractères "//". Exemple : ; ### from DNA Strider ;-) ; DNA sequence pir:ccho (1-104) , 104 bases, 7DA79498 checksum. ; GDVEKGKKIFVQKCAQCHTVEKGGKHKTGPNLHGLFGRKTGQAPGFTYTDANKNKGITWKE ETLMEYLENPKKYIPGTKMIFAGIKKKTEREDLIAYLKKATNE // |