Analyse bioinformatique des séquences

4. - La manipulation des données

4.2 - Les formats
4.2.2 - Les formats liés aux banques [suite]

 


> Format PIR-NBRF

Sur la 1ère ligne, l'identificateur de la séquence (code de 1 à 6 caractères ou chiffres) doit être précédé du caractère ">" suivi de deux caractères spécifiant la nature de la séquence et du caractère ";".
Les deux caractères peuvent être :
P1 protein, complete
F1 protein, fragment
DL DNA, linear
DC DNA, circular
RL RNA, linear
RC RNA, circular
N1 functional RNA, other than tRNA
N3 tRNA
La 2e ligne doit contenir le nom de la séquence suivi de " - " et du nom de l'organisme ou de l'organelle.
La 3e ligne contient la séquence dans un format libre (les blancs et chiffres, s'ils sont présents, seront ignorés) mais terminée par le caractère "*".
Plus de détails :
LINE 1 :>P1;CBRT
LINE 2 :Cytochrome b - Rat mitochondrion (SGC1)
LINE 3 :M T N I R K S H P L F K I I N H S F I D L P A P S
LINE 4 : VTHICRDVN Y GWL IRY
LINE 5 :TWIGGQPVEHPFIIIGQLASISYFSIILILMPISGIVEDKMLKWN*

>P1;CCHU
cytochrome c - human
MGDVEKGKKIFIMKCSQCHTVEKGGKHKTGPNLHGLFGRKTGQAPGYSYTAANKNKGIIWGEDTLMEYLENPKK ./.
YIPGTKMIFVGIKKKEERADLIAYLKKATNE*
EX : Pir:VBRB [par SRS]
Les données complètes de la banque PIR se trouvent sous un format différent qui est le suivant
(exemple d'une entrée) :
\\\
ENTRY A31391 #Type Protein
TITLE *Esterase-6 - Fruit fly (Drosophila melanogaster)
DATE 03-Aug-1992 #Sequence 03-Aug-1992 #Text 03-Aug-1992
PLACEMENT 0.0 0.0 0.0 0.0 0.0
COMMENT *This entry is not verified.
SOURCE Drosophila melanogaster
REFERENCE
#Authors Cooke P.H., Oakeshott J.G.
#Citation submitted to GenBank, April 1989
#Reference-number A31391
#Accession A31391
#Cross-reference GB:J04167
SUMMARY #Molecular-weight 61125 #Length 544 #Checksum 1679
SEQUENCE
5 10 15 20 25 30
1 M N Y V G L G L I I V L S C L W L G S N A S D T D D P L L V
31 Q L P Q G K L R G R D N G S Y Y S Y E S I P Y A E P P T G D
61 L R F E A P E P Y K Q K W S D I F D A T K T P V A C L Q W D
91 Q F T P G A N K L V G E E D C L T V S V Y K P K N S K R N S
121 F P V V A H I H G G A F M F G A A W Q N G H E N V M R E G K
151 F I L V K I S Y R L G P L G F V S T G D R D L P G N Y G L K
181 D Q R L A L K W I K Q N I A S F G G E P Q N V L L V G H S A
211 G G A S V H L Q M L R E D F G Q L A R A A F S F S G N A L D
241 P W V I Q K G A R G R A F E L G R N V G C E S A E D S T S L
271 K K C L K S K P A S E L V T A V R K F L I F S Y V P F A P F
301 S P V L E P S D A P D A I I T Q D P R D V I K S G K F G Q V
331 P W A V S Y V T E D G G Y N A A L L L K E R K S G I V I D D
361 L N E R W L E L A P Y L L F Y R D T K T K K D M D D Y S R K
391 I K Q E Y I G N Q R F D I E S Y S E L Q R L F T D I L F K N
421 S T Q E S L D L H R K Y G K S P A Y A Y V Y D N P A E K G I
451 A Q V L A N R T D Y D F G T V H G D D Y F L I F E N F V R D
481 V E M R P D E Q I I S R N F I N M L A D F A S S D N G S L K
511 Y G E C D F K D N V G S E K F Q L L A I Y I D G C Q N R Q H
541 V E F P
///

Ecran suivant

© Université de TOURS - NET

Document modifié, le 28 juin, 2010