Il existe un grand nombre de bases de données d'intérêt biologique. Nous distinguerons deux types de banques, celles qui correspondent à une collecte des données la plus exhaustive possible et qui offrent finalement un ensemble plutôt hétérogène d'informations et celles qui correspondent à des données plus homogènes établies autour d'une thématique. Pour éviter toute confusion sémantique nous parlerons ici de banques de données ou bases de données généralistes (pour les premières) et spécialisées (pour les secondes).
C'est au début des années 80 que les premières banques de séquences sont apparues sous l'initiative de quelques équipes comme celle du Professeur Grantham à Lyon. Très rapidement avec les évolutions techniques du séquençage, la collecte et la gestion des données ont nécessité une organisation plus conséquente. Ainsi, plusieurs organismes ont pris en charge la production de telles bases de données.
En Europe, financée par l'EMBO (European Moleculary Biology Organisation), une équipe s'est constituée pour développer une banque de séquences nucléiques (EMBL data library) en 1986. Cette équipe travaille au sein du Laboratoire Européen de Biologie Moléculaire qui se trouve près de Cambridge au sein de l'EBI (European Bioinformatics Institute).
Du coté américain, soutenue par le NIH (National Institute of Health) une banque nucléique nommée GenBank a été créée à Los Alamosen 1986. Cette base de données est difusée maintenant par le NCBI (National Center for Biotechnology Information). La collaboration entre ces deux banques a commencé relativement tôt.
Elle s'est étendue en 1987 avec la participation de la DDBJ (Dna Data Bank of Japan) pour donner naissance finalement en 1990 à un format unique dans la description des caractéristiques biologiques qui accompagnent les séquences dans les banques de données nucléiques (The DDBJ/EMBL/GenBank feature table : Definitions, 1997).
Parallèlement, pour les protéines, deux banques principales ont été créées.
Devant la croissance quasi exponentielle des données (fig 0) et l'hétérogénéité des séquences contenues dans les principales bases de séquences généralistes, d'autres bases spécialisées sont apparues. Elles se sont constituées autour de thématiques biologiques ou tout simplement en vue de réunir les séquences d'une même espèce et d'en enrichir les annotations pour diminuer ou lever les ambiguïtés laissées par les grandes banques publiques.
Dans les banques de bases nucléiques suivantes, les séquences sont représentées par des groupes de 10 nucléotides (6 groupes par ligne), les nucléotides sont représentés :
1.a.i) EMBL
EMBL contient 3272064 entrées et 2355200790 nucléotides (une entrée, entry en anglais, contient la séquence et des informations sur cette séquence).
EMBL est constituée de 58 fichiers " flat ":
Les index sont classés par ordre alphabétique.
Ces fichiers classent les entrées selon des divisions, il existe 18 divisions :
|
Division |
Code pour les entrées |
Nombre et noms des fichiers associés |
|
ESTs |
EST |
22 fichiers : estJ.dat, J=1..22 |
|
Bacteriophages |
PHG |
1 fichier : phg.dat |
|
Fungi |
FUN |
1 fichier : fun.dat |
|
Genome Survey |
GSS |
6 fichiers : gssJ.dat, J=1..6 |
|
High Through Genome, HTGs |
HTG |
1 fichier : htg.dat |
|
Humans |
HUM |
2 fichiers : humJ.dat, J=1,2 |
|
Invertebrates |
INV |
1 fichier : inv.dat |
|
Organelles |
ORG |
1 fichier : org.dat |
|
Other mammals |
MAM |
1 fichier : mam.dat |
|
Other vertebrate |
VRT |
1 fichier : vrt.dat |
|
Patents |
PATENT |
1 fichier : patent.dat |
|
Plants |
PLN |
1 fichier : pln.dat |
|
Procaryotes |
PRO |
2 fichiers : proJ.dat, J=1,2 |
|
Rodents |
ROD |
1 fichier : rod.dat |
|
Synthetics |
SYN |
1 fichier : syn.dat |
|
STSs |
STS |
1 fichier : sts.dat |
|
Unclassified |
UNC |
1 fichier : unc.dat |
|
Viral |
VRL |
1 fichier : vrl.dat |
Chaque entrée de la base EMBL est composée de lignes ou champs qui commencent par un code à 2 caractères indiquant le type d’information contenue dans la ligne.
Exemple d'entrée de la base EMBL
Ci-dessous le tableau des codes et leurs significations :
|
Code |
Signification, contenu de la ligne |
Nombre/entrée |
|
ID |
C’est l’identificateur de l’entrée contenant la séquence. Cette ligne a la structure suivante : nom de l’entrée classe de la donnée ; molécule (DNA, RNA, RNAm, XXX si l’entrée n’a pas été annotée) ; division ; longueur de la séquence en paire de bases (BP). |
1 |
|
XX |
Cette ligne est une ligne vide qui sert à limiter les différents champs de l’entrée et à clarifier sa lecture. |
Plusieurs |
|
NI |
Indique l’identificateur de l’acide nucléique. |
1 |
|
AC |
Donne le numéro d’accession de l’entrée. |
>=1 |
|
DT |
Donne la date d’incorporation dans la base (1ère ligne) et la date de la dernière mise à jour de l’entrée (2ème ligne). |
>=1 |
|
DE |
Contient des informations descriptives sur la séquence : comme la région du génome dont elle est issue … |
>=1 |
|
KW |
Donne le(s) mot(s)-clé(s) qui peuvent être utilisés pour retrouver l’entrée dans la base. Les mots-clés, séparés par des ; , sont rangés par ordre alphabétique. |
>=1 |
|
Code |
Signification, contenu de la ligne |
Nombre/entrée |
|
OS |
Spécifie l’organisme d’où provient la séquence ; le plus souvent on donne le nom latin suivi du nom anglais entre parenthèses. Dans le cas d’hybrides, les lignes OC/OS sont spécifiées pour chaque organisme de l’hybride. |
>=1 |
|
OC |
1ère ligne : Donne le nom scientifique de l’organisme. 2ème ligne :Donne la classification taxonomique de l’organisme avec le groupe le plus général en premier, chaque groupe est séparé par un ;. Cette classification peut s’étendre sur plusieurs lignes OC. |
>=1 |
|
OG |
Indique la localisation sub-cellulaire des séquences non nucléaires. |
0 ou 1 |
|
RN |
Donne le numéro unique attribué à chaque référence bibliographique de l’entrée. Ce numéro est utilisé pour désigner la référence dans les commentaires (CC) et dans la table des caractéristiques (FT). |
>=1 |
|
RC |
Donne des commentaires sur la référence. |
>=0 |
|
RX |
Donne la région pour laquelle la référence bibliographique est associée. |
>=0 |
|
RP |
Donne les références associées aux différentes régions de la séquence. |
>=1 |
|
RA |
Indique les auteurs de l’article ou du travail cité, ils sont inscrits dans l’ordre donné dans la publication. |
>=1 |
|
RT |
Indique le titre de l’article, si la séquence a été soumise à la base et non publiée, la ligne ne contiendra qu’un point virgule. |
>=1 |
|
RL |
Donne d’une manière abrégée, les références du journal. |
>=1 |
|
DR |
Etablit des liaisons avec d’autres bases de données qui contiennent une information en relation avec cette entrée. Par exemple, si la traduction protéique d’une séquence existe dans la banques de données Swiss-Prot, la ligne DR pointera sur l’entrée correspondante dans Swiss-Prot. |
>=0 |
|
FH |
Sert à améliorer la lecture d’une entrée : c’est l’en-tête du champ FT |
0 ou 2 |
|
FT |
Enumère les caractéristiques de la séquence, elle répond aux abréviations utilisées dans " the feature table ". |
>=0 |
|
SQ |
Donne la longueur de la séquence en paire de bases (bp) ainsi que le résumé de son contenu. |
1 |
|
CC |
Donne les commentaires sur la séquence. |
>=0 |
|
Des blancs pour introduire la séquence. |
>=1 |
|
|
// |
Indique la fin de l’entrée. |
1 |
1.a.j) GenBank
GenBank contient 3525418 entrées et 2569578208 nucléotides.
GenBank est constituée de 64 fichiers " flat ".
Tous ces fichiers ont une entête, elle occupe les 9 premières lignes et précise le nom et la nature du fichier, la date et le numéro de la dernière publication (release), les nombres d’ " entries ", de bases et de séquences.
Exemple d’entête :
|
GBACC.IDX Genetic Sequence Data Bank 15 December 1993 GenBank Flat File Release 80.0 Accession Number Index 150744 loci, 163802597 bases, from 150744 reported sequence |
Les 64 fichiers sont :
Le nom de chaque groupe est inscrit à partir de la position 21, suivi d’une ligne vide et des indications sur l es séquences appartenant au groupe : Nom de l’entrée, description et longueur de la séquence (gbsdr.txt).
Ces fichiers classent les entrées selon 17 divisions :
|
Division |
Code pour le LOCUS des entrées |
Nom et nombre de fichiers associés |
|
Primate |
PRI |
3 fichiers : gbpriI.seq, I=1..3 |
|
Rodent |
ROD |
1 fichier :gbrod.seq |
|
Other mammalian |
MAM |
1 fichier : gbmam.seq |
|
Other vertebrate |
VRT |
1 fichier :gbvrt.seq |
|
Invertebrate |
INV |
2 fichiers : gbinvI.seq, I=1,2 |
|
Plant |
PLN |
2 fichiers : gbplnI.seq, I=1,2 |
|
Bacterial |
BCT |
2 fichiers : gbbctI.seq, I=1,2 |
|
Structural RNA |
RNA |
1 fichier : gbrna.seq |
|
Viral |
VRL |
1 fichier : gbvrl.seq |
|
Phage |
PHG |
1 fichier : gbphg.seq |
|
Synthétic and chimeric |
SYN |
1 fichier : gbsyn.seq |
|
Unnanoted |
UNA |
1 fichier : gbuna.seq |
|
Expressed Sequence Tag |
EST |
29 fichiers : gbestI.seq, I=1..29 |
|
Patent |
PAT |
1 fichier : gbpat.seq |
|
Sequence Tagged Site |
STS |
1 fichier : gbsts.seq |
|
Genome Survey Sequence |
GSS |
6 fichiers : gbgssI.seq, I=1..6 |
|
High Throughput Genomic Sequencing |
HTG |
2 fichiers : gbhtgI.seq, I=1,2 |
Tous les fichiers .seq ont la même structure, ils comportent 2 parties : l’entête et une 2ème partie où chaque ligne peut se décomposer en 2 :
L’étiquette peut être :
|
Mot-clé |
Sous mot-clé |
Signification et contenu de la ligne |
Lignes/entrée |
|
LOCUS |
C’est l’identificateur de l’entrée contenant la séquence. Cette ligne a la structure suivante : nom de l’entrée classe de la donnée ; molécule (ADN, ARN ou ADNc, XXX si l’entrée n’a pas été annotée) ; division ; longueur de la séquence en paire de bases (BP) ; date. |
1 |
|
|
DEFINITION |
Contient des informations descriptives sur la séquence : comme la région du génome dont elle est issue … |
>=1 |
|
|
ACCESSION |
Donne le numéro d’accession de l’entrée. |
>=1 |
|
|
NID |
Indique l’identificateur de l’acide nucléique. |
1 |
|
|
VERSION |
C’est un nouveau champ, il indique la version de l’entrée. |
1 |
|
|
KEYWORDS |
Donne le(s) mot(s)-clé(s) qui peuvent être utilisés pour retrouver l’entrée dans la base. Les mots-clés, séparés par des ; , sont rangés par ordre alphabétique. |
>=1 |
|
|
SEGMENT |
Indique la localisation de la séquence dans la molécule. |
0 ou 1 |
|
|
SOURCE |
Spécifie l’organisme d’où provient la séquence ; le plus souvent on donne le nom latin suivi du nom anglais entre parenthèses. Dans le cas d’hybrides, les lignes OC/OS sont spécifiées pour chaque organisme de l’hybride. |
>=1 |
|
|
ORGANISM |
1ère ligne : Donne le nom scientifique de l’organisme. 2ème ligne :Donne la classification taxonomique de l’organisme avec le groupe le plus général en premier, chaque groupe est séparé par un ;. Cette classification peut s’étendre sur plusieurs lignes. |
>=2 |
|
|
REFERENCE (mot-clé qui peut apparaître plusieurs fois dans une entrée) |
Donne le numéro unique attribué à chaque référence bibliographique de l’entrée. Ce numéro est utilisé pour désigner la référence dans les commentaires et dans la table des caractéristiques. |
>=1 |
|
|
AUTHORS |
Indique les auteurs de l’article ou du travail cité, ils sont inscrits dans l’ordre donné dans la publication. |
>=1 |
|
|
TITLE |
Indique le titre de l’article, si la séquence a été soumise à la base et non publiée, la ligne ne contiendra qu’un point virgule. |
>=0 |
|
|
JOURNAL |
Donne d’une manière abrégée, les références du journal. |
>=1 |
|
|
MEDLINE |
Donne l’identifiant de la citation. |
0 ou 1 |
|
|
Mot-clé |
Sous mot-clé |
Signification et contenu de la ligne |
Lignes/entrée |
|
REMARK |
Donne des commentaires sur la référence. |
>=0 |
|
|
COMMENT |
Donne les commentaires sur la séquences. |
>=0 |
|
|
FEATURES |
Enumère les caractéristiques de la séquence, elle répond aux abréviations utilisées dans " the feature table ". |
1 |
|
|
BASE COUNT |
Donne la longueur de la séquence en paire de bases (bp) ainsi que le résumé de son contenu. |
1 |
|
|
ORIGIN |
Sert à améliorer la lecture d’une entrée, introduit la séquence. |
1 |
4.1.a.k) DDBJ
Cette banque contient 3311627 entrées (voir annexe E) et 2375261951 bases .
La DDBJ partagent ses séquences en 18 catégories :
|
Catégorie |
Code |
|
Bacterial |
Bct |
|
Expressed sequence tag |
Est |
|
Genome survey sequence |
Gss |
|
High throughput genomic |
Htg |
|
Human |
Hum |
|
Invertebrate |
Inv |
|
Other mammalian |
Mam |
|
Patent |
Pat |
|
Phage |
Phg |
|
Plant |
Pln |
|
Primate |
Pri |
|
Structural RNA |
Rna |
|
Rodent |
Rod |
|
Sequence tagged site |
Sts |
|
Synthetic and chimeric |
Syn |
|
Unnanotated |
Una |
|
Viral |
Vrl |
|
Other vertebrate |
Vrt |
DDBJ est constituée de :
Les fichiers de DDBJ ont une entête équivalente à celle de GenBank et les entrées de la DDBJ ont la même forme que les entrées de la GenBank avec les mêmes mots-clés, les mêmes sous mots-clés …
Exemple d'entrée de la base DDBJ
1.b.i) Swiss-Prot
Les codes utilisés pour les acides aminés utilisés par Swiss-Prot ont été adoptés la commission pour la nomenclature biochimique de IUPAC-IUB.
|
A |
Ala |
Alanine |
|
R |
Arg |
Arginine |
|
N |
Asn |
Asparagine |
|
D |
Asp |
Aspartic acid |
|
C |
Cys |
Cystéine |
|
Q |
Gln |
Glutamine |
|
E |
Glu |
Glutamic acid |
|
G |
Gly |
Glycine |
|
H |
His |
Histidine |
|
I |
Ile |
Isoleucine |
|
L |
Leu |
Leucine |
|
K |
Lys |
Lysine |
|
M |
Met |
Méthionine |
|
F |
Phe |
Phénylalanine |
|
P |
Pro |
Proline |
|
S |
Ser |
Sérine |
|
T |
Thr |
Thréonine |
|
W |
Trp |
Tryptophan |
|
Y |
Tyr |
Tyrosine |
|
V |
Val |
Valine |
|
B |
Asx |
Aspartic acid ou Asparagine |
|
Z |
Glx |
Glutamine ou Glutamic acid |
|
X |
Xaa |
N’importe quel acide aminé |
Swiss-Prot contient 77977 entrées et 28268293 acides aminés.
Elle est constituée de 73 fichiers .txt et de fichiers .seq qui contiennent toutes les entrées.
Les 73 fichiers .txt sont répartis de la manière suivante :
Chaque entrée de la base Swiss-Prot est composée de lignes ou champs qui commencent par un code à 2 caractères indiquant le type d’information contenue dans la ligne. Dans les entrées, les séquences d’acides aminés sont une suite de groupe de 10 acides aminés (6 groupes/ligne).
Exemple d'entrée de la base Swiss-Prot
Ci-dessous le tableau des codes et leurs significations :
|
Code |
Signification, contenu de la ligne |
Nombre/entrée |
|
ID |
C’est l’identificateur de l’entrée contenant la séquence. Cette ligne a la structure suivante : nom de l’entrée classe de la donnée ; molécule (PRT, XXX si l’entrée n’a pas été annotée) ; division ; longueur de la séquence en nombre d’acides aminés, suivie de AA. |
1 |
|
AC |
Donne le numéro d’accession de l’entrée |
>=1 |
|
DT |
Donne la date d’incorporation dans la base (1ère ligne), la date de la dernière mise à jour de la séquence (2ème ligne) et la date de la dernière mise à jour des caractéristiques de cette séquence (3ème ligne). |
>=1 |
|
DE |
Contient des informations descriptives sur la séquence : comme la région du génome dont elle est issue … |
>=1 |
|
KW |
Donne le(s) mot(s)-clé(s) qui peuvent être utilisés pour retrouver l’entrée dans la base. Les mots-clés, séparés par des ; , sont rangés par ordre alphabétique. |
>=1 |
|
GN |
Noms des gènes codant pour la séquence de protéine. |
>=1 |
|
OS |
Spécifie le ou les organismes d’où provient la séquence ; le plus souvent on donne le nom latin suivi du nom anglais entre parenthèses. Dans le cas d’hybrides, les lignes OC/OS sont spécifiées pour chaque organisme de l’hybride. |
>=1 |
|
OC |
Donne la classification taxonomique de l’organisme avec le groupe le plus général en premier, chaque groupe est séparé par un ;. Cette classification peut s’étendre sur plusieurs lignes OC. |
>=1 |
|
OG |
Indique la localisation cellulaire des gènes qui codent pour la séquence. |
0 ou 1 |
|
RN |
Donne le numéro unique attribué à chaque référence bibliographique de l’entrée. Ce numéro est utilisé pour désigner la référence dans les commentaires (CC) et dans la table des caractéristiques (FT). |
>=1 |
|
RC |
Donne des commentaires sur la référence. |
>=0 |
|
RX |
Donne la région pour laquelle la référence bibliographique est associée. |
>=0 |
|
RP |
Donne les références associées aux différentes régions de la séquence. |
>=1 |
|
RA |
Indique les auteurs de l’article ou du travail cité, ils sont inscrits dans l’ordre donné dans la publication. |
>=1 |
|
RT |
Indique le titre de l’article, si la séquence a été soumise à la base et non publiée, la ligne ne contiendra qu’un point virgule. |
>=1 |
|
RL |
Donne d’une manière abrégée, les références du journal. |
>=1 |
|
DR |
Etablit des liaisons avec d’autres bases de données qui contiennent une information en relation avec cette entrée. |
>=0 |
|
FT |
Enumère les caractéristiques de la séquence, elle répond aux abréviations utilisées dans l’ancienne table des caractéristiques de l’EMBL. |
>=0 |
|
SQ |
Donne la longueur de la séquence (AA) ainsi que le poids de la molécule (MW) et sa valeur CRC 32. |
1 |
|
CC |
Donne les commentaires sur la séquence. |
>=0 |
|
Des blancs pour introduire la séquence. |
>=1 |
|
|
// |
Indique la fin de l’entrée. |
1 |
1.b.j) PIR-NBRF
Les codes utilisés pour les acides aminés sont les mêmes que pour Swiss-prot.
Cette banque contient 122810 entrées et de 40065486 acides aminés.
Elle est constituée de 4 sortes de fichiers :
Dans les fichiers .seq et .ref , les entrées sont répertoriées par catégories comme pour les autres banques.
Pour des besoins spécifiques, de nombreuses bases de données spécialisées ont été créées au sein des laboratoires. Certaines ont continué d'être développées, d'autres n'ont pas été mises à jour et ont disparu car elles correspondaient à un besoin ponctuel. D'autres enfin sont inconnues ou mal connues et attendent qu'on les exploite davantage. Toutes ces bases de données spécialisées sont d'intérêt très divers et la masse des données qu'elles représentent peut varier considérablement d'une base à une autre. Elles ont pour but de recenser des familles de séquences autour de caractéristiques biologiques précises comme les gènes identiques issus d'espèces différentes. Elle peuvent aussi regrouper des classes spécifiques de séquences comme les enzymes de restriction, ou toutes les séquences d'un même génome. En fait très souvent ces bases correspondent à des améliorations ou à des regroupements par rapport aux données issues des bases généralistes.
A titre d'exemple on peut citer la base sur les séquences nucléiques d'Eschérichia coli ECD, la base NRL3D des séquences protéiques dont la structure a été déterminée ou bien encore des bases de motifs nucléiques ou proteiques telle que PROSITE .
Le nombre de données dans le domaine de la biologie ne cesse d'augmenter en particulier avec le séquençage des génomes de différents organismes mais l'on assiste également à une grande diversification des informations produites (séquences primaires, structures moléculaires, cartographie, collection de souches ou de clones...). Toutes ces données sont regroupées dans des banques de données très variées dans leur volume et leur nature.
Ici, nous avons étudié essentiellement les grandes banques car malgré leurs imperfections, ce sont les plus utilisées du fait de leur compatibilité avec des logiciels comme BLAST et FASTA. Pour que les bases de données soient plus facilement exploitables, et que les utilisateurs puissent extraire les sous-ensembles de séquences qui les intéressent, des logiciels leur sont généralement offerts soit localement, soit sur les nombreux serveurs publics : les systèmes d’interrogation dédiés qui sont programmés exclusivement pour la manipulation de séquences biologiques. Mais ils sont généralement adaptés aux principales bases de données (EMBL, Genbank …). On peut citer parmi eux des logiciels comme ACNUC ou SRS.
Cependant le recensement et la description de toutes les bases publiques généralistes et spécialisées liées à la structure primaire des séquences mais aussi liées à d'autres caractéristiques biologiques peuvent être consultée dans des bases de données spécifiques qui donnent des listes actualisées des différentes banques d'intérêt biologique comme LIMB (Listing of Molecular Biology Databases) ou DBCAT.