Les matrices de substitution et interprétation des résultats

Afin de rester proche du problème biologique, il est nécessaire de nuancer la notion de distance. On a vu, dans l'explication de l'algorithme de Smith&Waterman, qu'on utilisait pour cela une matrice sub ou chaque élément représente la distance entre deux éléments de l'alphabet utilisé. Dans la pratique, on distingue deux grands types de matrice: les matrices nucléiques et les matrices protéiques.

1. les matrices nucléiques:

Il en existe peu car l'alphabet nucléique est pauvre. La plus utilisée est la matrice identité. Il en existe d'autres, favorisant par exemple la substitution de A par T ou de C par G ces couples de nucléotides étant complémentaires.

2. les matrices protéiques:

Les protéines ont certaines propriétés qui font qu'elles peuvent plus facilement être substituées par une protéine plutôt qu'une autre. La matrice identité n'est donc pas une bonne façon d'obtenir un résultat fiable. Deux type de matrices apparaissent:

-les matrices issues d'études montrant le caractère de substitution des acides amines au cours de l'évolution.

-les matrices basées sur les caractéristiques physico-chimiques des acides aminés.

2.a. les matrices protéiques liés a l'évolution:

Les matrices PAM, la matrice de mutation de Dayhoff:

La plus courante, cette famille de matrices probabilistes a été calculée à partir de d'une étude sur une famille de 71 protéines très semblables, que l'on pouvait facilement aligner. Chaque élément de la matrice représente alors la probabilité qu'un acide aminé se transforme en un autre dans un temps d'évolution donné. La matrice crée est une matrice 1PAM, on obtient une matrice XPAM en la multipliant par elle-même. Les probabilités associées sont alors les probabilités de mutation en un temps plus long. En prenant compte des fréquences relatives de mutation et en prenant le logarithme de chaque élément de la matrice, on construit la matrice PAM-X, utilisable directement dans les programmes. La matrice PAM-250 s'est avérée être optimale par rapport au probleme biologique ce qui explique sa très grande fréquence d'utilisation.

pour en savoir plus http://www.techfak.uni-bielefeld.de/bcd/Curric/PrwAli/nodeD.html

Les matrices BLOSUM (BLocks SUbstitution Matrix):

Les matrices PAM dérivent des alignements globaux, ce n'est pas le cas des BLOSUM. Ici ce sont des blocks d'acides aminés issus de protéines qui sont étudiés pour déterminer le degré de similitude. On en déduit la "distance" entre deux acides aminés puis la matrice des probabilités. BlOSUM60 correspond en seuil d'identité de 60%.

2.b les matrices protéiques liés au caractéristiques physico-chimiques:

Elles sont pour la plupart basées sur le caractère hydrophile ou hydrophobe des protéines.

exemple de matrice d'hydrophobicité dans la cours SAMBA de l'irisa

Ses matrices sont maintenant systématiquement utilisées. Leur choix, traduisant la théorie de l'évolution, est vraiment déterminant pour la pertinence des résultats.

3. Fiabilite et interprétation des résultats:

On doit distinguer deux notions, celle de distance et celle d'analyse optimale. Bien souvent elles coïncident, mais pas toujours. Ces matrices ont pour but de les rapprocher. En revenant au problème biologique, on se rend compte que deux êtres peuvent avoir un ancêtre en commun, donc peuvent être proches mais avoir une grande distance entre elles. Les résultats doivent être soumis à une grande méfiance, un esprit critique et de toujours garder à l'esprit le problème sous-jacent. Pour éviter de tomber dans se piège, certains programmes effectuent une première analyse, cherchant les séquences étant les plus susceptibles de correspondre à la problématique biologique. Pour décrire cette notion on emploie les termes de sélectivité (Capacité à ne détecter que la réalité biologique et rien de plus) et sensibilité (Capacité à détecter tout ce qui est intéressant sur le plan biologique).Un bon utilisateur de programme d'alignement de séquences doit avoir de bonnes notions sur la biologie moléculaire aux traitement informatique.