Para la investigación en humanos, ¿dónde puedo obtener los datos?

ISSN 2660-9134 | Febrero 2021 | Volumen 7 | Artículo 3
Desde que se completó el Proyecto Genoma Humano (PGH) en 2003, continúan surgiendo nuevos datos provenientes de múltiples estudios y experimentos que pueden llegar a ser significativos a la hora de luchar contra las enfermedades humanas. Y este crecimiento de información ha provocado que la comunidad científica se plantee desafíos en el almacenamiento, procesamiento e intercambio de la información. Esta información se almacena en diferentes bases de datos biológicas.

Para continuar nos hemos apoyado en el artículo Biological Databases for Human Research [1] donde se presentan algunos ejemplos de bases de datos biológicas de humanos y a continuación comentaremos los aspectos más relevantes.

Introducción

Con el desarrollo de tecnologías de secuenciación de mayor rendimiento y menor coste económico se ha incrementado exponencialmente la cantidad de información a almacenar. No solo se afronta el problema de espacio a la hora de almacenar los datos, sino también su organización, análisis y visualización. Solventar estos problemas de manera que se facilite el trabajo de gestión y acceso a los datos por parte de los investigadores es una tarea fundamental dentro del campo de la bioinformática.

Según el informe The 2014 Nucleic Acids Research Database Issue and an updated NAR online Molecular Biology Database Collection [2], publicado en la revista científica Nucleic Acids Research, hoy en día coexisten aproximadamente 1552 bases de datos, aunque es probable que esa cantidad sea mucho mayor. Por tanto, nuestro objetivo es mostrar algunas de las bases de datos más relevantes para la investigación humana.

Dra. Masmudi y el Dr. Khan
Figura 1. Criterios de clasificación de las bases de datos biológicas, tipos según el criterio y ejemplos para cada clase.

Clasificación

"En conjunto, las bases de datos biológicas tienen una gran utilidad para la investigación humana y pueden considerarse como un indicador de nuestro potencial para traducir big data en grandes descubrimientos."

Existen diversos criterios de clasificación para las bases de datos, dependiendo de varios factores como la cobertura de datos, el nivel y método de biocuración y los tipos de datos gestionados.

Con respecto a la cobertura de los datos, es decir, la diversidad de información que se puede extraer de una colección, pueden ser completas o especializadas. Las bases de datos completas tratan distintos tipos de datos que, por lo general, pertenecen a numerosas especies. Un ejemplo de este tipo de bases de datos es GenBank [3], la cual incluye secuencias de ADN del National Institute of Health (NIH). Por otro lado, las bases de datos especializadas contienen información específica de un organismo dado. MiRT [4] es un ejemplo de este tipo de colecciones, que almacena los sitios de iniciación de la transcripción en genes de microARN de humanos.

En cuanto al nivel de biocuración, o procesos que se encargan de organizar, depurar y permitir el acceso a las bases de datos biológicas, estas se clasifican en primarias o secundarias. Las bases de datos con un nivel de biocuración primario son aquellas que contienen información obtenida experimentalmente, como puede ser a partir de la secuencia de nucleótidos o de proteínas. Es decir, los datos no están procesados. Por ejemplo, la Sequence Read Archive (SRA) [5] proporciona información sobre secuenciaciones de ADN, especialmente lecturas cortas. Por otro lado, las que tienen un nivel de biocuración secundario presentan datos derivados de análisis experimentales a partir de bases de datos primarias. Una de las bases de datos secundarias más conocidas es RefSeq [6], una colección de secuencias de nucleótidos y de sus proteínas asociadas.

Según el método de biocuración se reconocen dos tipos. Por un lado, las consideradas como expert-curated, en la que el mantenimiento y gestión de los datos es organizado por una persona o varias personas especializadas (expertos) en la materia. Por ejemplo, Uniprot [7], uno de los repositorios de información acerca de las proteínas más utilizado internacionalmente, lleva a cabo este método de biocuración. Por otro lado, las consideradas como community-curated tienen información curada por una comunidad de investigadores. Dentro de este grupo podemos encontrar, por ejemplo, LncRNAWiki [8] una Wiki que almacena información sobre ARN largo no codificante (lncRNA) de humanos.

En relación a los tipos de datos gestionados en las bases de datos biológicas se puede hacer una subclasificación incluyendo el tipo de contenido almacenado. Es la clasificación más común y significativa, ya que los repositorios se organizan dependiendo de la naturaleza de los datos. En este caso nos centraremos en describir bases de datos que almacenan información de ácidos nucleicos (ADN y ARN), proteínas, vías biológicas y enfermedades humanas, así como sus distintas aplicaciones.

Figura 2. Resumen de los tipos de datos biólogicos y las fuentes en las que se pueden consultar. Figura tomada de Cath Brooksbanks y colaboradores: The European Bioinformatics Institute’s data resources. Nucleic Acid Research, 42 (2013).
Figura 2. Resumen de los tipos de datos biólogicos y las fuentes en las que se pueden consultar. Figura tomada de Cath Brooksbanks y colaboradores: The European Bioinformatics Institute’s data resources. Nucleic Acid Research, 42 (2013).
Con respecto a las bases de datos que almacenan información de ADN, consisten en una colección de secuencias de nucleótidos que permiten establecer el genoma de referencia de un organismo, visualizar el perfil de variación genética, realizar asociaciones genotipo-fenotipo o identificar de metagenomas del microbioma humano. Un ejemplo representativo de estas bases de datos es MITOMAP [9], que contiene información sobre el genoma mitocondrial de humanos.
En cuanto a las secuencias de ARN, hay que considerar que existen diferentes tipos de ARN, incluyendo el ARN mensajero (mARN) que se traduce a proteínas, los ARN no codificantes (ncARN) que no se traducen. Estos últimos se pueden encontrar en forma de microARN (miARN), ARN nucleolar pequeño (snARN), ARN largo no codificante (lncARN) o ARN circular (cirARN), del cual se puede obtener más información en el artículo publicado en la web My Scientific Journal, La revolución del ARN circular, escrito por Juan Luis Onieva Zafra.
Gracias al auge de la epigenética, están surgiendo cada vez más bases de datos de este tipo pues se desconoce la funcionalidad de muchas de estas moléculas. Una muestra de este tipo de bases de datos es ChIPBase [10], que incluye información sobre la regulación transcripcional de genes lncRNA y miRNA.

Por otra parte, los repositorios que almacenan cadenas de aminoácidos permiten acceder a proteínas universales, identificar dominios y familias proteicas, reconstruir árboles filogenéticos o visualizar la estructura de las proteínas. Por ejemplo, la Protein Data Bank (PDB) [11], que además de ofrecer información sobre las secuencias de estas macromoléculas, contiene datos para su representación tridimensional.

Las bases de datos de vías biológicas recogen información para el estudio de rutas metabólicas, de señalización y de regulación, con el fin de identificar redes de interacción o reacciones moleculares resultantes. Dos ejemplos significativos son KEGG [12] y Reactome [13].

Finalmente, las bases de datos con información de enfermedades humanas almacenan contenido tanto de fenotipos patológicos descritos en pacientes, como variantes del genoma, marcadores epigenéticos o cualquier información que sea objeto de estudio para conocer las causas que dan lugar a su aparición. Esta información aporta nuevos conocimientos para la prevención y detección de las enfermedades, así como para el desarrollo de software de predicción y ayuda al diagnóstico. Como ejemplo de estas bases de datos existen los repositorios de enfermedades como OMIM [14] y Orphanet [15].

Aquí se han mostrado algunos ejemplos de bases de datos biológicas en humanos que nos podemos encontrar en la actualidad. Como se puede observar, estas herramientas juegan un papel muy importante para la investigación y en concreto, para el área de la bioinformática, por lo que es esencial que vayan surgiendo nuevas plataformas de almacenamiento en la nube, con el fin de facilitar su explotación.

REFERENCIAS

[1] D. Zou, L. Ma, J. Yu, and Z. Zhang, “Biological databases for human research,” Genomics, Proteomics and Bioinformatics. 2015, doi: 10.1016/j.gpb.2015.01.006.
[2] X. M. Fernández-Suárez, D. J. Rigden, and M. Y. Galperin, “The 2014 Nucleic Acids Research Database Issue and an updated NAR online Molecular Biology Database Collection,” Nucleic Acids Res., 2014, doi: 10.1093/nar/gkt1282.
[3] “GenBank Overview.” https://www.ncbi.nlm.nih.gov/genbank/ (accessed Dec. 27, 2020).
[4] “miRT | A Database of Transcription Start Sites of Human MicroRNAs | Malay Bhattacharyya, Manali Das and Sanghamitra Bandyopadhyay.” https://www.isical.ac.in/~bioinfo_miu/miRT/miRT.php (accessed Dec. 27, 2020).
[5] “Home - SRA - NCBI.” https://www.ncbi.nlm.nih.gov/sra (accessed Dec. 27, 2020).
[6] “RefSeq: NCBI Reference Sequence Database.” https://www.ncbi.nlm.nih.gov/refseq/ (accessed Dec. 27, 2020).
[7] “UniProt.” https://www.uniprot.org/ (accessed Dec. 27, 2020).
[8] “LncRNAWiki.” https://bigd.big.ac.cn/lncrnawiki/index.php/Main_Page (accessed Dec. 27, 2020).
[9] “WebHome < MITOMAP < Foswiki.” https://www.mitomap.org/MITOMAP (accessed Dec. 27, 2020).
[10] “ChIPBase | LabWorm.” https://labworm.com/tool/chipbase (accessed Dec. 27, 2020).
[11] “RCSB PDB: Homepage.” https://www.rcsb.org/ (accessed Dec. 27, 2020).
[12] “KEGG PATHWAY Database.” https://www.genome.jp/kegg/pathway.html (accessed Dec. 27, 2020).
[13] “Home - Reactome Pathway Database.” https://reactome.org/ (accessed Dec. 27, 2020).
[14] “OMIM - Online Mendelian Inheritance in Man.” https://omim.org/ (accessed Dec. 27, 2020). [15] “Orphanet.” https://www.orpha.net/consor/cgi-bin/index.php?lng=ES (accessed Dec. 27, 2020).

Documentación

Autora: Fiorella Piriz Sapio y coordinadora: Elena Rojano Rivera para My Scientific Journal Bioinformatic 22/01/2020
 
Fiorella Piriz Sapio
Fiorella Piriz SapioRedactora My Scientific Journal
Estudiante de Bioinformática
Elena Rojano Rivera
Elena Rojano RiveraCoordinadora My Scientific Journal
PhD en Biología Celular y Molecular, especializada en bioinformática y biología de sistemas