Etude des bases de données pour la biologie moléculaire

0- Introduction

1- Les banques généralistes

      1.a- Pour les séquences nucléiques
      1.b- Pour les séquences protéiques

2- Les banques spécialisées

3- Conclusion

 

0- Introduction

Il existe un grand nombre de bases de données d'intérêt biologique. Nous distinguerons deux types de banques, celles qui correspondent à une collecte des données la plus exhaustive possible et qui offrent finalement un ensemble plutôt hétérogène d'informations et celles qui correspondent à des données plus homogènes établies autour d'une thématique. Pour éviter toute confusion sémantique nous parlerons ici de banques de données ou bases de données généralistes (pour les premières) et spécialisées (pour les secondes).

C'est au début des années 80 que les premières banques de séquences sont apparues sous l'initiative de quelques équipes comme celle du Professeur Grantham à Lyon. Très rapidement avec les évolutions techniques du séquençage, la collecte et la gestion des données ont nécessité une organisation plus conséquente. Ainsi, plusieurs organismes ont pris en charge la production de telles bases de données.

En Europe, financée par l'EMBO (European Moleculary Biology Organisation), une équipe s'est constituée pour développer une banque de séquences nucléiques (EMBL data library) en 1986. Cette équipe travaille au sein du Laboratoire Européen de Biologie Moléculaire qui se trouve près de Cambridge au sein de l'EBI (European Bioinformatics Institute).

Du coté américain, soutenue par le NIH (National Institute of Health) une banque nucléique nommée GenBank a été créée à Los Alamosen 1986. Cette base de données est difusée maintenant par le NCBI (National Center for Biotechnology Information). La collaboration entre ces deux banques a commencé relativement tôt.

Elle s'est étendue en 1987 avec la participation de la DDBJ (Dna Data Bank of Japan) pour donner naissance finalement en 1990 à un format unique dans la description des caractéristiques biologiques qui accompagnent les séquences dans les banques de données nucléiques (The DDBJ/EMBL/GenBank feature table : Definitions, 1997).

Parallèlement, pour les protéines, deux banques principales ont été créées.

Devant la croissance quasi exponentielle des données (fig 0) et l'hétérogénéité des séquences contenues dans les principales bases de séquences généralistes, d'autres bases spécialisées sont apparues. Elles se sont constituées autour de thématiques biologiques ou tout simplement en vue de réunir les séquences d'une même espèce et d'en enrichir les annotations pour diminuer ou lever les ambiguïtés laissées par les grandes banques publiques.

 

1- Les banques généralistes

1.a- Pour les séquences nucléiques

Dans les banques de bases nucléiques suivantes, les séquences sont représentées par des groupes de 10 nucléotides (6 groupes par ligne), les nucléotides sont représentés :

1.a.i) EMBL

EMBL contient 3272064 entrées et 2355200790 nucléotides (une entrée, entry en anglais, contient la séquence et des informations sur cette séquence).

EMBL est constituée de 58 fichiers " flat ":

Les index sont classés par ordre alphabétique.

Ces fichiers classent les entrées selon des divisions, il existe 18 divisions :

Division

Code pour les entrées

Nombre et noms des fichiers associés

ESTs

EST

22 fichiers : estJ.dat, J=1..22

Bacteriophages

PHG

1 fichier : phg.dat

Fungi

FUN

1 fichier : fun.dat

Genome Survey

GSS

6 fichiers : gssJ.dat, J=1..6

High Through Genome, HTGs

HTG

1 fichier : htg.dat

Humans

HUM

2 fichiers : humJ.dat, J=1,2

Invertebrates

INV

1 fichier : inv.dat

Organelles

ORG

1 fichier : org.dat

Other mammals

MAM

1 fichier : mam.dat

Other vertebrate

VRT

1 fichier : vrt.dat

Patents

PATENT

1 fichier : patent.dat

Plants

PLN

1 fichier : pln.dat

Procaryotes

PRO

2 fichiers : proJ.dat, J=1,2

Rodents

ROD

1 fichier : rod.dat

Synthetics

SYN

1 fichier : syn.dat

STSs

STS

1 fichier : sts.dat

Unclassified

UNC

1 fichier : unc.dat

Viral

VRL

1 fichier : vrl.dat

 

 

 

Chaque entrée de la base EMBL est composée de lignes ou champs qui commencent par un code à 2 caractères indiquant le type d’information contenue dans la ligne.

Exemple d'entrée de la base EMBL

Ci-dessous le tableau des codes et leurs significations :

 

 

Code

Signification, contenu de la ligne

Nombre/entrée

ID

C’est l’identificateur de l’entrée contenant la séquence.

Cette ligne a la structure suivante : nom de l’entrée classe de la donnée ; molécule (DNA, RNA, RNAm, XXX si l’entrée n’a pas été annotée) ; division ; longueur de la séquence en paire de bases (BP).

1

XX

Cette ligne est une ligne vide qui sert à limiter les différents champs de l’entrée et à clarifier sa lecture.

Plusieurs

NI

Indique l’identificateur de l’acide nucléique.

1

AC

Donne le numéro d’accession de l’entrée.

>=1

DT

Donne la date d’incorporation dans la base (1ère ligne) et la date de la dernière mise à jour de l’entrée (2ème ligne).

>=1

DE

Contient des informations descriptives sur la séquence : comme la région du génome dont elle est issue …

>=1

KW

Donne le(s) mot(s)-clé(s) qui peuvent être utilisés pour retrouver l’entrée dans la base.

Les mots-clés, séparés par des ; , sont rangés par ordre alphabétique.

>=1

Code

Signification, contenu de la ligne

Nombre/entrée

OS

Spécifie l’organisme d’où provient la séquence ; le plus souvent on donne le nom latin suivi du nom anglais entre parenthèses.

Dans le cas d’hybrides, les lignes OC/OS sont spécifiées pour chaque organisme de l’hybride.

>=1

OC

1ère ligne : Donne le nom scientifique de l’organisme.

2ème ligne :Donne la classification taxonomique de l’organisme avec le groupe le plus général en premier, chaque groupe est séparé par un ;. Cette classification peut s’étendre sur plusieurs lignes OC.

>=1

OG

Indique la localisation sub-cellulaire des séquences non nucléaires.

0 ou 1

RN

Donne le numéro unique attribué à chaque référence bibliographique de l’entrée. Ce numéro est utilisé pour désigner la référence dans les commentaires (CC) et dans la table des caractéristiques (FT).

>=1

RC

Donne des commentaires sur la référence.

>=0

RX

Donne la région pour laquelle la référence bibliographique est associée.

>=0

RP

Donne les références associées aux différentes régions de la séquence.

>=1

RA

Indique les auteurs de l’article ou du travail cité, ils sont inscrits dans l’ordre donné dans la publication.

>=1

RT

Indique le titre de l’article, si la séquence a été soumise à la base et non publiée, la ligne ne contiendra qu’un point virgule.

>=1

RL

Donne d’une manière abrégée, les références du journal.

>=1

DR

Etablit des liaisons avec d’autres bases de données qui contiennent une information en relation avec cette entrée. Par exemple, si la traduction protéique d’une séquence existe dans la banques de données Swiss-Prot, la ligne DR pointera sur l’entrée correspondante dans Swiss-Prot.

>=0

FH

Sert à améliorer la lecture d’une entrée : c’est l’en-tête du champ FT

0 ou 2

FT

Enumère les caractéristiques de la séquence, elle répond aux abréviations utilisées dans " the feature table ".

>=0

SQ

Donne la longueur de la séquence en paire de bases (bp) ainsi que le résumé de son contenu.

1

CC

Donne les commentaires sur la séquence.

>=0

 

Des blancs pour introduire la séquence.

>=1

//

Indique la fin de l’entrée.

1

1.a.j) GenBank

GenBank contient 3525418 entrées et 2569578208 nucléotides.

GenBank est constituée de 64 fichiers " flat ".

Tous ces fichiers ont une entête, elle occupe les 9 premières lignes et précise le nom et la nature du fichier, la date et le numéro de la dernière publication (release), les nombres d’ " entries ", de bases et de séquences.

Exemple d’entête :

GBACC.IDX Genetic Sequence Data Bank

15 December 1993

GenBank Flat File Release 80.0

Accession Number Index

150744 loci, 163802597 bases, from 150744 reported sequence

 

Les 64 fichiers sont :

 Le nom de chaque groupe est inscrit à partir de la position 21, suivi d’une ligne vide et des indications sur l es séquences appartenant au groupe : Nom de l’entrée, description et longueur de la séquence (gbsdr.txt).

Ces fichiers classent les entrées selon 17 divisions :

Division

Code pour le LOCUS des entrées

Nom et nombre de fichiers associés

Primate

PRI

3 fichiers : gbpriI.seq, I=1..3

Rodent

ROD

1 fichier :gbrod.seq

Other mammalian

MAM

1 fichier : gbmam.seq

Other vertebrate

VRT

1 fichier :gbvrt.seq

Invertebrate

INV

2 fichiers : gbinvI.seq, I=1,2

Plant

PLN

2 fichiers : gbplnI.seq, I=1,2

Bacterial

BCT

2 fichiers : gbbctI.seq, I=1,2

Structural RNA

RNA

1 fichier : gbrna.seq

Viral

VRL

1 fichier : gbvrl.seq

Phage

PHG

1 fichier : gbphg.seq

Synthétic and chimeric

SYN

1 fichier : gbsyn.seq

Unnanoted

UNA

1 fichier : gbuna.seq

Expressed Sequence Tag

EST

29 fichiers : gbestI.seq, I=1..29

Patent

PAT

1 fichier : gbpat.seq

Sequence Tagged Site

STS

1 fichier : gbsts.seq

Genome Survey Sequence

GSS

6 fichiers : gbgssI.seq, I=1..6

High Throughput Genomic Sequencing

HTG

2 fichiers : gbhtgI.seq, I=1,2

 

Tous les fichiers .seq ont la même structure, ils comportent 2 parties : l’entête et une 2ème partie où chaque ligne peut se décomposer en 2 :

L’étiquette peut être :

 

Mot-clé

Sous mot-clé

Signification et contenu de la ligne

Lignes/entrée

LOCUS

 

C’est l’identificateur de l’entrée contenant la séquence.

Cette ligne a la structure suivante : nom de l’entrée classe de la donnée ; molécule (ADN, ARN ou ADNc, XXX si l’entrée n’a pas été annotée) ; division ; longueur de la séquence en paire de bases (BP) ; date.

1

DEFINITION

 

Contient des informations descriptives sur la séquence : comme la région du génome dont elle est issue …

>=1

ACCESSION

 

Donne le numéro d’accession de l’entrée.

>=1

NID

 

Indique l’identificateur de l’acide nucléique.

1

VERSION

 

C’est un nouveau champ, il indique la version de l’entrée.

1

KEYWORDS

 

Donne le(s) mot(s)-clé(s) qui peuvent être utilisés pour retrouver l’entrée dans la base.

Les mots-clés, séparés par des ; , sont rangés par ordre alphabétique.

>=1

SEGMENT

 

Indique la localisation de la séquence dans la molécule.

0 ou 1

SOURCE

 

Spécifie l’organisme d’où provient la séquence ; le plus souvent on donne le nom latin suivi du nom anglais entre parenthèses.

Dans le cas d’hybrides, les lignes OC/OS sont spécifiées pour chaque organisme de l’hybride.

>=1

 

ORGANISM

1ère ligne : Donne le nom scientifique de l’organisme.

2ème ligne :Donne la classification taxonomique de l’organisme avec le groupe le plus général en premier, chaque groupe est séparé par un ;. Cette classification peut s’étendre sur plusieurs lignes.

>=2

REFERENCE

(mot-clé qui peut apparaître plusieurs fois dans une entrée)

 

Donne le numéro unique attribué à chaque référence bibliographique de l’entrée. Ce numéro est utilisé pour désigner la référence dans les commentaires et dans la table des caractéristiques.

>=1

 

AUTHORS

Indique les auteurs de l’article ou du travail cité, ils sont inscrits dans l’ordre donné dans la publication.

>=1

 

TITLE

Indique le titre de l’article, si la séquence a été soumise à la base et non publiée, la ligne ne contiendra qu’un point virgule.

>=0

JOURNAL

Donne d’une manière abrégée, les références du journal.

>=1

MEDLINE

Donne l’identifiant de la citation.

0 ou 1

Mot-clé

Sous mot-clé

Signification et contenu de la ligne

Lignes/entrée

REMARK

Donne des commentaires sur la référence.

>=0

COMMENT

Donne les commentaires sur la séquences.

>=0

FEATURES

Enumère les caractéristiques de la séquence, elle répond aux abréviations utilisées dans " the feature table ".

1

BASE COUNT

 

Donne la longueur de la séquence en paire de bases (bp) ainsi que le résumé de son contenu.

1

ORIGIN

 

Sert à améliorer la lecture d’une entrée, introduit la séquence.

1

 

 

 

4.1.a.k) DDBJ

Cette banque contient 3311627 entrées (voir annexe E) et 2375261951 bases .

La DDBJ partagent ses séquences en 18 catégories :

Catégorie

Code

Bacterial

Bct

Expressed sequence tag

Est

Genome survey sequence

Gss

High throughput genomic

Htg

Human

Hum

Invertebrate

Inv

Other mammalian

Mam

Patent

Pat

Phage

Phg

Plant

Pln

Primate

Pri

Structural RNA

Rna

Rodent

Rod

Sequence tagged site

Sts

Synthetic and chimeric

Syn

Unnanotated

Una

Viral

Vrl

Other vertebrate

Vrt

DDBJ est constituée de :

Les fichiers de DDBJ ont une entête équivalente à celle de GenBank et les entrées de la DDBJ ont la même forme que les entrées de la GenBank avec les mêmes mots-clés, les mêmes sous mots-clés …

Exemple d'entrée de la base DDBJ

1.b- Pour les séquences protéiques

1.b.i) Swiss-Prot

Les codes utilisés pour les acides aminés utilisés par Swiss-Prot ont été adoptés la commission pour la nomenclature biochimique de IUPAC-IUB.

A

Ala

Alanine

R

Arg

Arginine

N

Asn

Asparagine

D

Asp

Aspartic acid

C

Cys

Cystéine

Q

Gln

Glutamine

E

Glu

Glutamic acid

G

Gly

Glycine

H

His

Histidine

I

Ile

Isoleucine

L

Leu

Leucine

K

Lys

Lysine

M

Met

Méthionine

F

Phe

Phénylalanine

P

Pro

Proline

S

Ser

Sérine

T

Thr

Thréonine

W

Trp

Tryptophan

Y

Tyr

Tyrosine

V

Val

Valine

B

Asx

Aspartic acid ou Asparagine

Z

Glx

Glutamine ou Glutamic acid

X

Xaa

N’importe quel acide aminé

 

Swiss-Prot contient 77977 entrées et 28268293 acides aminés.

Elle est constituée de 73 fichiers .txt et de fichiers .seq qui contiennent toutes les entrées.

Les 73 fichiers .txt sont répartis de la manière suivante :

Chaque entrée de la base Swiss-Prot est composée de lignes ou champs qui commencent par un code à 2 caractères indiquant le type d’information contenue dans la ligne. Dans les entrées, les séquences d’acides aminés sont une suite de groupe de 10 acides aminés (6 groupes/ligne).

Exemple d'entrée de la base Swiss-Prot

Ci-dessous le tableau des codes et leurs significations :

Code

Signification, contenu de la ligne

Nombre/entrée

ID

C’est l’identificateur de l’entrée contenant la séquence.

Cette ligne a la structure suivante : nom de l’entrée classe de la donnée ; molécule (PRT, XXX si l’entrée n’a pas été annotée) ; division ; longueur de la séquence en nombre d’acides aminés, suivie de AA.

1

AC

Donne le numéro d’accession de l’entrée

>=1

DT

Donne la date d’incorporation dans la base (1ère ligne), la date de la dernière mise à jour de la séquence (2ème ligne) et la date de la dernière mise à jour des caractéristiques de cette séquence (3ème ligne).

>=1

DE

Contient des informations descriptives sur la séquence : comme la région du génome dont elle est issue …

>=1

KW

Donne le(s) mot(s)-clé(s) qui peuvent être utilisés pour retrouver l’entrée dans la base.

Les mots-clés, séparés par des ; , sont rangés par ordre alphabétique.

>=1

GN

Noms des gènes codant pour la séquence de protéine.

>=1

OS

Spécifie le ou les organismes d’où provient la séquence ; le plus souvent on donne le nom latin suivi du nom anglais entre parenthèses.

Dans le cas d’hybrides, les lignes OC/OS sont spécifiées pour chaque organisme de l’hybride.

>=1

OC

Donne la classification taxonomique de l’organisme avec le groupe le plus général en premier, chaque groupe est séparé par un ;. Cette classification peut s’étendre sur plusieurs lignes OC.

>=1

OG

Indique la localisation cellulaire des gènes qui codent pour la séquence.

0 ou 1

RN

Donne le numéro unique attribué à chaque référence bibliographique de l’entrée. Ce numéro est utilisé pour désigner la référence dans les commentaires (CC) et dans la table des caractéristiques (FT).

>=1

RC

Donne des commentaires sur la référence.

>=0

RX

Donne la région pour laquelle la référence bibliographique est associée.

>=0

RP

Donne les références associées aux différentes régions de la séquence.

>=1

RA

Indique les auteurs de l’article ou du travail cité, ils sont inscrits dans l’ordre donné dans la publication.

>=1

RT

Indique le titre de l’article, si la séquence a été soumise à la base et non publiée, la ligne ne contiendra qu’un point virgule.

>=1

RL

Donne d’une manière abrégée, les références du journal.

>=1

DR

Etablit des liaisons avec d’autres bases de données qui contiennent une information en relation avec cette entrée.

>=0

FT

Enumère les caractéristiques de la séquence, elle répond aux abréviations utilisées dans l’ancienne table des caractéristiques de l’EMBL.

>=0

SQ

Donne la longueur de la séquence (AA) ainsi que le poids de la molécule (MW) et sa valeur CRC 32.

1

CC

Donne les commentaires sur la séquence.

>=0

 

Des blancs pour introduire la séquence.

>=1

//

Indique la fin de l’entrée.

1

1.b.j) PIR-NBRF

 

Les codes utilisés pour les acides aminés sont les mêmes que pour Swiss-prot.

Cette banque contient 122810 entrées et de 40065486 acides aminés.

Elle est constituée de 4 sortes de fichiers :

Dans les fichiers .seq et .ref , les entrées sont répertoriées par catégories comme pour les autres banques.

 

2- Les banques spécialisées

Pour des besoins spécifiques, de nombreuses bases de données spécialisées ont été créées au sein des laboratoires. Certaines ont continué d'être développées, d'autres n'ont pas été mises à jour et ont disparu car elles correspondaient à un besoin ponctuel. D'autres enfin sont inconnues ou mal connues et attendent qu'on les exploite davantage. Toutes ces bases de données spécialisées sont d'intérêt très divers et la masse des données qu'elles représentent peut varier considérablement d'une base à une autre. Elles ont pour but de recenser des familles de séquences autour de caractéristiques biologiques précises comme les gènes identiques issus d'espèces différentes. Elle peuvent aussi regrouper des classes spécifiques de séquences comme les enzymes de restriction, ou toutes les séquences d'un même génome. En fait très souvent ces bases correspondent à des améliorations ou à des regroupements par rapport aux données issues des bases généralistes.

A titre d'exemple on peut citer la base sur les séquences nucléiques d'Eschérichia coli ECD, la base NRL3D des séquences protéiques dont la structure a été déterminée ou bien encore des bases de motifs nucléiques ou proteiques telle que PROSITE .

3- Conclusion

Le nombre de données dans le domaine de la biologie ne cesse d'augmenter en particulier avec le séquençage des génomes de différents organismes mais l'on assiste également à une grande diversification des informations produites (séquences primaires, structures moléculaires, cartographie, collection de souches ou de clones...). Toutes ces données sont regroupées dans des banques de données très variées dans leur volume et leur nature.

Ici, nous avons étudié essentiellement les grandes banques car malgré leurs imperfections, ce sont les plus utilisées du fait de leur compatibilité avec des logiciels comme BLAST et FASTA. Pour que les bases de données soient plus facilement exploitables, et que les utilisateurs puissent extraire les sous-ensembles de séquences qui les intéressent, des logiciels leur sont généralement offerts soit localement, soit sur les nombreux serveurs publics : les systèmes d’interrogation dédiés qui sont programmés exclusivement pour la manipulation de séquences biologiques. Mais ils sont généralement adaptés aux principales bases de données (EMBL, Genbank …). On peut citer parmi eux des logiciels comme ACNUC ou SRS.

Cependant le recensement et la description de toutes les bases publiques généralistes et spécialisées liées à la structure primaire des séquences mais aussi liées à d'autres caractéristiques biologiques peuvent être consultée dans des bases de données spécifiques qui donnent des listes actualisées des différentes banques d'intérêt biologique comme LIMB (Listing of Molecular Biology Databases) ou DBCAT.