Annotation d’un gène procaryote

Est-ce que vous pouvez en déduire précisemment les positions de début et de fin des CDS présentes sur la séquence étudiée ? Mémorisez au format FASTA la séquence de la protéine de la banque qui ressemble le plus l’ORF. Détermination plus fine des positions de début et de fin des séquences codantes. BlastP a pour but de sélectionner les protéines de la banque qui ressemblent le plus à une séquence requête. Dans notre cas, il s’agit de la traduction d’une ORF.

Mais, l’ORF peut être incomplète suite des erreurs de séquencage ou à cause des codons d’initiation lternatifs. De plus, BlastP n’est pas dédié à l’identification de la structure d’un gène. Le programme WISE est dédié à l’alignement d’une séquence protéique avec une séquence génomique. Il essaie de retrouver les zones de la séquence d’ADN qui codent pour la protéine. Comparez la séquence d’ADN entière aux protéines que vous avez mémorisées précédemment. Attention : il faut demander à faire la comparaison sur les deux brins de la séquence d’ADN.

Il vaut mieux cocher l’option « show EMBL feature format With CDS key » dans la partie « Genewise pecial option » pour que les positions de début et de fin des CDS prédites soient précisées. Est-ce que Wise trouve des bornes différentes de celles déduites des résultats obtenus avec BlastP ? D’où viennent ces différen 2 Bactena, Archaea and Metagenomes » de la page d’accueil du logiciel). Dans le formulaire, cochez la case . ‘Print GeneMark 2. 4 predictions in addition to GeneMark. hmm predictions » pour avoir les résultats produits par les 2 versions du programme.

Vous selectionerez également comme espèce modèle Methanococcus jannaschii. Nous allons commencer par analyser les résultats de la version « Hidden Markov Model » : ils sont notés par ‘Parse predicted by GeneMark. hmm 2. 4″. Combien de gènes sont prédits par GeneMark ? Consultez le graphique des calculs réalisés par GeneMark (‘View PDF Graphical Output »), est-ce que tous les gènes indiqués par le logiciel ont une courbe supérieure à ? Que pouvez-vous en déduire sur la vraissemblance des gènes prédits ? Analysons maintenant les résultats produits par GeneMark 2. 4, la suite des précédant.

Combien de gènes sont prédits cette fois-ci ? Quel est la position la plus probable du codon d’initiation pour chaque gène ? Est-il toujours possible de trancher entre les différentes propositions ? Si non, pourquoi ? Est-ce que les positions de ces gènes sont en accord avec celles trouvées précédemment (autre version du prog et OrfFlnder) ? Bilan Nous allons maintenant faire le point sur les résultats obtenus l’aide des deux techniques possibles : la comparaison aux protéines existantes (OrfFinder + BlastP + Wise) ou la prédiction ab initio (GeneMark).