Analyse
bioinformatique des séquences
6. - L'analyse de séquences nucléiques
6.3 - Les différents types de motifs [suite]
Le problème de l'identification se divise en deux volets :
Le premier concerne la délimitation précise de l'unité de transcription (début, fin, exons) et des signaux régulant son expression. La tâche sera facilitée par la déduction des parties codantes d'une part, et par le séquencage de l'ADN complémentaire correspondant au fragment génomique, pour en déduire les sites d'épissage, la position des exons, les signaux d'expression, ... Cette première analyse concerne la recherche d'erreurs conduisant à des sauts de phases ouvertes (d'autant plus facile à localiser que la séquence peut avoir des similitudes avec une séquence déjà connue).
Néanmoins, en l'absence de saut de phase caractérisé, des erreurs peuvent se compenser et laisser une partie de séquence apparemment codante, mais erronée. Dans le cas du séquençage d'un gène ayant potentiellement des parties codantes importantes (ADN procaryote ou cADN), l'analyse de la séquence en terme de phases ouvertes (suites de codons sans codon de terminaison) peut permettre la mise en évidence des erreurs dues à une absence apparente de bases, ceci conduisant à un saut de phase de lecture. Néanmoins, si la rupture de phase ouverte peut assez facilement être caractérisée dans certains cas (exemple d'un gène assez long), la validation d'une séquence codante peut aussi être faite par des méthodes caractérisant plus précisément la probabilité du codage, soit intrinsèquement, entre les trois phases d'une séquence, soit à partir d'un tableau de fréquences des codons obtenu par exemple à partir de séquences représentant une espèce. L'analyse de l'organisation de longs fragments génomiques en zones codantes et non codantes n'est pas un problème trivial. Les exons multiples peuvent être dispersés le long de plusieurs dizaines de kilo bases. Différentes méthodes, comme l'analyse factorielle des correspondances permettant d'étudier les contraintes de l'utilisation en codons, plus fortes dans les phases de lecture des régions codantes. La reconnaissance exon-intron peut aussi être faite par une analyse de la composition en hexanucléotides (différentes entre exons et introns) le long de la séquence [Clav90]. Plus récemment plusieurs systèmes, GENMARK et XGRAIL, font références à des techniques d'apprentissage par chaînes de Markov ou par réseaux neuronaux. Associé à un environnement graphique de travail, XGRAIL permet d'analyser complètement de grandes régions de séquences génomiques.
Le deuxième volet s'intéresse à la reconstitution aussi exacte que possible du ou des produits de l'unité de transcription: épissage correct des exons, définition des transcrits alternatifs (extrémités
multiples en 5' et 3', usage alternatif des exons).
S'exercer avec GRAIL