ARN-seq como herramienta para el diagnóstico clínico

ISSN 2660-9134 | Febrero 2021 | Volumen 7 | Artículo 5

En un breve periodo de tiempo, las tecnologías de secuenciación de última generación (NGS) se han abierto paso en el ámbito clínico y están siendo, poco a poco, incorporadas como una herramienta más de diagnóstico. La medicina del futuro se está llevando a cabo en el presente y se apellida “de precisión”.

HACIA LA APLICACIÓN CLÍNICA DEL ARN-SEQ

La secuenciación de ARN (ARN-seq) está suponiendo una revolución en el campo de la medicina de precisión. Este método de secuenciación proporciona información directa sobre transcritos y, a partir de ellos, se puede deducir los niveles de expresión de los genes de los que proceden. Además, esta técnica también sirve para detectar variantes de significado incierto en zonas codificantes que puedan estar provocando alteraciones transcripcionales mediante la comparación de muestras de individuos sanos frente a enfermos1. Diferentes estudios sugieren que del 9 al 30% de las variantes patogénicas tienen impacto en la expresión del ARN2 .

Esta técnica permite complementar a los estudios de secuenciación del genoma completo empleados para la determinación de variantes patogénicas, superando alguna de sus limitaciones y aumentando la probabilidad de diagnóstico certero de los pacientes. A continuación, se van a describir algunas de las utilidades que presenta esta metodología.

En primer lugar, los estudios de ARN-seq permiten detectar sobre una muestra los genes que se están sobre-expresando y cuáles están silenciados. Pondremos como ejemplo ilustrativo dos enfermedades provocadas por la sobreexpresión y silenciamiento de genes que se han caracterizado mediante estudios que emplean la ARN-seq. Se conoce que la sobreexpresión del gen PDK1 está asociada a la enfermedad del riñón poliquístico 3 . En el caso de enfermedades producidas por silenciamiento génico, la disminución en la expresión de RARS2 en sangre está asociada con retraso global del desarrollo, convulsiones, microcefalia, hipotonía y escoliosis progresiva 4 .

En segundo lugar, mediante la ARN-seq se pueden reconocer los sitios de ayuste (o conocidos como splicing en inglés) aberrantes: esto es importante ya que se sabe que estos sitios son una causa importante en enfermedades mendelianas 5 . El ayuste alternativo (del inglés alternative splicing, AS) se considera un proceso celular clave para garantizar la complejidad funcional en eucariotas superiores6 . Más del 88% de las proteínas codificadas por el genoma humano están afectadas por este proceso7 y se estima que más del 62% de todas las variantes patogénicas de un solo nucleótido (SNV) pueden estar afectando a los eventos de "splicing" (ayuste) del ARN 8.

En tercer lugar, esta metodología permite identificar casos con expresión específica de alelo (ASE), y por lo tanto su asociación a la predisposición de la enfermedad. La ASE hace referencia a la expresión desigual entre alelos de origen maternal y paternal en individuos diploides, controlados por regiones reguladoras en cis, localizadas cerca de los genes9. Por ejemplo, los portadores asintomáticos de retinosis pigmentaria autosómica dominante (adRP) están protegidos de la enfermedad por ASE del gen PRPF31, ya que solo se estaría expresando el alelo que no porta la enfermedad a pesar de que esta sea dominante10.

ANÁLISIS BIOINFORMÁTICO: EXPRESIÓN DIFERENCIAL DE GENES

Una de las aplicaciones que más se realiza sobre datos ARN-seq es el análisis de expresión diferencial, donde se compara la expresión de genes en dos grupos: controles (muestras de individuos que no presentan la enfermedad) y enfermos (o mutantes de un gen en concreto). Para llevar a cabo un buen análisis de expresión diferencial a partir de datos de ARN-seq, tras la secuenciación es obligatorio el procesamiento de los datos. No existe un flujo de trabajo único que se adapte a todos los experimentos sino que deben personalizarse según sus características11. Por ello, es importante que los pasos que se hayan llevado a cabo en el procesamiento de los datos estén incluidos en la rutina clínica, para garantizar la calidad y reproducibilidad del estudio.

Existen varias tecnologías con las que es posible llevar a cabo la secuenciación del ARN. Sin embargo, más del 90% de los datos de secuenciación han sido obtenidos mediante la tecnología Illumina, convirtiéndose esta en la principal plataforma de secuenciación para ARN-seq. Esto se debe a varias razones: 1) las lecturas de Illumina son cortas, de alrededor de 100 pares de bases (pb), esto las hace ideales para RNA-seq ya que existen transcritos de tamaño muy reducido que con lecturas más grandes acaban siendo ignorados; 2) la profundidad de secuenciación que ofrece es muy alta, esto es positivo ya que nos ofrece una mayor precisión de secuenciación a nivel de nucleótidos; y 3) el precio de esta tecnología es económicamente asequible.

El análisis de ARN-seq debe comenzar con un control de calidad de los datos crudos (Figura 1). Esto nos proporciona una idea de la calidad de la secuenciación y nos permite decidir si se cumplen los requisitos de calidad para la rutina clínica. Una de las herramientas bioinformáticas más utilizada para este propósito es FastQC12 . Entre otros parámetros, nos permite conocer la puntuación de calidad Phred (puntuación asociada a la probabilidad de que la lectura sea correcta), la distribución de la longitud de lectura, el contenido GC, la sobrerrepresentación de k-mer, el contenido de adaptadores y las lecturas duplicadas. En el caso de que haga falta eliminar adaptadores, esto se puede llevar a cabo con herramientas como CutAdapt13 , FASTX-Toolkit14 y Trimmomatic15.

El siguiente paso consiste en alinear las lecturas crudas frente al genoma humano de referencia, usando un algoritmo de alineamiento que tenga en cuenta el ayuste (spliceaware alignment) como STAR16 , TopHat217 o HiSAT218. Este tipo de algoritmos permiten que las lecturas se alineen parcialmente en las uniones de empalme entre exones. Es importante tener en cuenta la versión del genoma de referencia, ya que tiene un alto impacto en la sensibilidad y especificidad de las variables identificadas. También se debe prestar atención a los ficheros de anotación del genoma. Estos tienen una repercusión positiva en la actuación del mapeo, la cuantificación y detección de expresión artificial y "splicing" alternativo19 .

Para enriquecer la anotación del genoma de referencia, algunas bases de datos útiles que se pueden incorporar son ASpedia20 y SpliceDisease21 , que vincula entradas de enfermedades de mutación por "splicing" curadas a mano y respaldadas experimentalmente.

Los ARN mensajeros tienen colas poli-A en el extremo 3’, lo que previene su degradación. Sin embargo, el extremo 5’ es más susceptible a la degradación por exonucleasas. Si el ARN que usamos para el análisis está ligeramente degradado se provocará un sesgo hacia el extremo 3’ 20 . Por ello, es importante realizar un control de calidad tras el mapeo, que puede llevarse a cabo con herramientas como RSeQC 22.

Para el análisis RNA-seq es necesario realizar un recuento de lecturas mapeadas con el objetivo de obtener una matriz de recuento génico. Herramientas como HTSeq23, FeatureCounts24 y GenomicAlignments25 nos permiten llevar a cabo este proceso. Además, a nivel de isoformas, podemos usar otros métodos de cuantificación como Cufflinks26 y RSEM27.

No podemos olvidar que características como la longitud de los genes28 o el contenido en guanina/citosina (GC) 29 pueden afectar al proceso de cuantificación y tener un impacto negativo en el análisis de expresión diferencial. Para reducir este sesgo se han descrito varios métodos. Muchos de ellos normalizan los recuentos de lecturas según la longitud del gen y el tamaño de la biblioteca (número total de lecturas por réplica).

Un paso clave antes del análisis de expresión diferencial es controlar el posible sesgo biológico relacionado con el lugar de la biopsia, el sexo o la edad. El análisis de componentes principales (PCA) o la escala multidimensional (MDS) son metodologías útiles para monitorear estos efectos.

Una vez llevado a cabo todos los pasos anteriores, podemos empezar el análisis de expresión diferencial. Existen diferentes métodos para procesar la matriz de recuento génico, como los paquete de R/Bioconductor DESeq230, edgeR31 , SVA32 (entre otros) o DEgenes Hunter33 , una herramienta para estudios de RNA-seq que permite realizar tanto el análisis de expresión diferencial como la interpretación funcional combinando el resultado de varios paquetes de análisis de expresión. Además, podemos utilizar una serie de herramientas para un análisis más exhaustivo. Por ejemplo, es posible identificar la expresión específica de alelo con la función pileLettersAt del paquete de R/Bioconductor GenomicAlignments25, o predecir los sitios de "splicing" con herramientas como GeneSplicer34, Human Splicing Finder35 y MaxEntScan36 .

Dra. Masmudi y el Dr. Khan
Figura 1. Esquema que ilustra los diferentes pasos necesarios en el análisis computacional de datos ARN-seq

CUESTIONES QUE SE DEBEN TRATAR EN EL ENFOQUE TRANSCRIPTÓMICO

Uno de los mayores problemas a los que el análisis de ARN-seq, en el ámbito clínico, tiene que hacer frente es a la expresión específica de tejido37. Dependiendo del tipo celular los patrones de expresión génica y las isoformas que se expresan son diferentes.

La obtención del material para los estudios generalmente procura no ser invasiva. Esto significa que la mayoría de muestra proceden de fibroblastos o células sanguíneas. Con este tipo de células se detectan entre un 68 y un 70,6% de la expresión de genes presentes en OMIM37. Por lo que, usando este tipo de tejidos, se puede cubrir un alto número de enfermedades, pero no todas.

Para minimizar el impacto que pueda tener la expresión específica de tejido en nuestro estudio es necesario escoger el tejido que mejor se adapte a él. Por ejemplo, se ha demostrado que los genes asociados con enfermedades neurológicas son detectables en un 76% utilizando células sanguínea como tejido de muestra4. Por este motivo, sería útil crear herramientas que nos permitiesen seleccionar el mejor tejido a la hora de realizar un análisis de expresión, relacionando tipos de enfermedades con los tejidos que ofrezcan la mayor tasa de detección de estas. Para ello, se precisa de una mejora en los conocimientos tanto biológicos como de los algoritmos computacionales.

CONCLUSIONES

El ARN-seq nos permite incrementar las tasas de diagnóstico que obtendríamos con herramientas como WES o WGS. Esto es así gracias a que nos ofrece información sobre variantes como la expresión génica y diferentes eventos de "splicing". Sin embargo, la naturaleza dinámica del transcriptoma puede inferir en nuestro estudio. Por ello es necesario que se profundice en el conocimiento biológico de este evento, así como en la generación de nuevas herramientas para conseguir un análisis más preciso.

Este artículo es una revisión del artículo titulado “RNA-Seq Perspectives to Improve Clinical Diagnosis” escrito por Guillermo Marco-Puche, Sergio Lois, Javier Benítez y Juan Carlos Trivin 1.

REFERENCIAS

1. Marco-Puche, G., Lois, S., Benítez, J. & Trivino, J. C. RNA-Seq Perspectives to Improve Clinical Diagnosis. Frontiers in Genetics (2019) doi:10.3389/fgene.2019.01152.
2. Stenson, P. D. et al. The Human Gene Mutation Database: towards a comprehensive repository of inherited mutation data for medical research, genetic diagnosis and next-generation sequencing studies. Human Genetics vol. 136 665–677 (2017).
3. Thivierge, C. et al. Overexpression of PKD1 Causes Polycystic Kidney Disease. Mol. Cell. Biol. (2006) doi:10.1128/mcb.26.4.1538-1548.2006.
4. Frésard, L. et al. Identification of rare-disease genes in diverse undiagnosed cases using whole blood transcriptome sequencing and large control cohorts. bioRxiv 408492 (2018) doi:10.1101/408492.
5. Kremer, L. S. et al. Genetic diagnosis of Mendelian disorders via RNA sequencing. Nat. Commun. (2017) doi:10.1038/ncomms15824.
6. Chen, L., Tovar-Corona, J. M. & Urrutia, A. O. Alternative Splicing: A Potential Source of Functional Innovation in the Eukaryotic Genome. Int. J. Evol. Biol. 2012, 1–10 (2012).
7. Kampa, D. et al. Novel RNAs identified from a in-depth analysis of the transcriptome of human chromosomes 21 and 22. Genome Res. 14, 331–342 (2004).
8. López-Bigas, N., Audit, B., Ouzounis, C., Parra, G. & Guigó, R. Are splicing mutations the most frequent cause of hereditary disease? FEBS Lett. 579, 1900– 1903 (2005).
9. Fan, J. et al. ASEP: Gene-based detection of allele-specific expression across individuals in a population by RNA sequencing. PLoS Genet. 16, e1008786 (2020).
10. Byron, S. A., Van Keuren-Jensen, K. R., Engelthaler, D. M., Carpten, J. D. & Craig, D. W. Translating RNA sequencing into clinical diagnostics: Opportunities and challenges. Nature Reviews Genetics vol. 17 257–271 (2016).
11. Conesa, A. et al. A survey of best practices for RNA-seq data analysis. Genome Biology vol. 17 (2016).
12. Babraham Bioinformatics - FastQC A Quality Control tool for High Throughput Sequence Data. https://www.bioinformatics.babraham.ac.uk/projects/fastqc/.
13. Martin, M. Cutadapt removes adapter sequences from high-throughput sequencing reads. EMBnet.journal 17, 10 (2011).
14. GitHub - agordon/fastx_toolkit: FASTA/FASTQ pre-processing programs. https://github.com/agordon/fastx_toolkit.
15. Bolger, A. M., Lohse, M. & Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics 30, 2114–2120 (2014).
16. Dobin, A. et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics 29, 15– 21 (2013).
17. Kim, D. et al. TopHat2: Accurate alignment of transcriptomes in the presence of insertions, deletions and gene fusions. Genome Biol. 14, R36 (2013).
18. Kim, D., Langmead, B. & Salzberg, S. L. HISAT: A fast spliced aligner with low memory requirements. Nat. Methods 12, 357–360 (2015).
19. Wu, P. Y., Phan, J. H. & Wang, M. D. Assessing the impact of human genome annotation choice on RNA-seq expression estimates. BMC Bioinformatics 14 Suppl 11, S8 (2013).
20. Wang, L. et al. Measure transcript integrity using RNA-seq data. BMC Bioinformatics 17, 58 (2016).
21. Finotello, F. et al. Reducing bias in RNA sequencing data: A novel approach to compute counts. BMC Bioinformatics 15, 1–12 (2014).
22. Li, X., Nair, A., Wang, S. & Wang, L. Quality control of RNA-seq experiments. Methods Mol. Biol. 1269, 137–146 (2015).
23. Anders, S., Pyl, P. T. & Huber, W. HTSeq--a Python framework to work with highthroughput sequencing data. Bioinformatics 31, 166–169 (2015).
24. Liao, Y., Smyth, G. K. & Shi, W. featureCounts: an efficient general purpose program for assigning sequence reads to genomic features. Bioinformatics 30, 923–930 (2014).
25. Lawrence, M. et al. Software for Computing and Annotating Genomic Ranges. PLoS Comput. Biol. 9, e1003118 (2013).
26. Evans, C., Hardin, J. & Stoebel, D. M. Selecting between-sample RNA-Seq normalization methods from the perspective of their assumptions. Brief. Bioinform. 19, 776–792 (2018).
27. Li, B. & Dewey, C. N. RSEM: Accurate transcript quantification from RNA-Seq data with or without a reference genome. BMC Bioinformatics 12, 323 (2011).
28. Gao, L., Fang, Z., Zhang, K., Zhi, D. & Cui, X. Length bias correction for RNA-seq data in gene set analyses. Bioinformatics 27, 662–669 (2011).
29. Risso, D., Schwartz, K., Sherlock, G. & Dudoit, S. GC-Content Normalization for RNA-Seq Data. BMC Bioinformatics 12, 480 (2011).
30. Love, M. I., Huber, W. & Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biol. 15, 550 (2014).
31. Robinson, M. D., McCarthy, D. J. & Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics 26, 139–140 (2010).
32. Leek, J. T., Johnson, W. E., Parker, H. S., Jaffe, A. E. & Storey, J. D. The sva package for removing batch effects and other unwanted variation in highthroughput experiments. Bioinformatics 28, 882–883 (2012).
33. González Gayte, I., Bautista Moreno, R., Seoane Zonjic, P. & Claros, M. G. DEgenes Hunter - A Flexible R Pipeline for Automated RNA-seq Studies in Organisms without Reference Genome. Genomics Comput. Biol. (2017) doi:10.18547/gcb.2017.vol3.iss3.e31.
34. Pertea, M., Lin, X. & Salzberg, S. L. GeneSplicer: A new computational method for splice site prediction. Nucleic Acids Res. 29, 1185–1190 (2001).
35. Desmet, F. O. et al. Human Splicing Finder: An online bioinformatics tool to predict splicing signals. Nucleic Acids Res. 37, e67–e67 (2009).
36. esebesty (Endre Sebestyén) · GitHub. https://github.com/esebesty/.
37. Cummings, B. B. et al. Improving genetic diagnosis in Mendelian disease with transcriptome sequencing. Sci. Transl. Med. 9, (2017).

Documentación

Autora: Ana María Burgos Ruiz y coordinadora: Elena Rojano Rivera para My Scientific Journal Bioinformatic 08/02/2020
 
Ana María Burgos Ruiz
Ana María Burgos RuizRedactora My Scientific Journal
Biologist and MSc in Bioinformatic and Biostatistics
Elena Rojano Rivera
Elena Rojano RiveraCoordinadora My Scientific Journal
PhD en Biología Celular y Molecular, especializada en bioinformática y biología de sistemas