Transcriptomics là gì? Các nghiên cứu khoa học liên quan

Transcriptomics nghiên cứu bộ transcript của tế bào hoặc mô, bao gồm RNA mã hóa và không mã hóa, nhằm phân tích biểu hiện gen và điều hòa hậu phiên mã. Phương pháp này cho phép xác định mức độ và biến động biểu hiện RNA theo điều kiện, giải mã cơ chế điều hòa gen và phát hiện dấu ấn sinh học.

Giới thiệu và định nghĩa

Transcriptomics là lĩnh vực nghiên cứu toàn diện về toàn bộ các phân tử RNA (transcriptome) được biểu hiện trong một tế bào hoặc mô nhất định tại một thời điểm cụ thể. Không chỉ bao gồm các RNA mã hóa (mRNA), transcriptome còn chứa các RNA không mã hóa như miRNA, lncRNA, snRNA và snoRNA, đóng vai trò điều hòa biểu hiện gen sau phiên mã. Phân tích transcriptome giúp xác định các gen đang hoạt động, mức độ biểu hiện tương đối và thay đổi biểu hiện trong các điều kiện sinh lý hoặc bệnh lý khác nhau.

Transcriptomics cung cấp cái nhìn sâu sắc về cơ chế điều hòa gen, phản ứng của tế bào trước kích thích ngoại sinh hoặc nội sinh, đồng thời hỗ trợ phát hiện các dấu ấn sinh học (biomarker) và mục tiêu điều trị. Do tính toàn diện và độ nhạy cao, transcriptomics ngày càng trở thành công cụ không thể thiếu trong nghiên cứu ung thư, miễn dịch, phát triển phôi thai và dịch tễ học phân tử.

Định nghĩa chi tiết: NCBI PMC – What is Transcriptomics?

Lịch sử phát triển

Từ cuối thập niên 1990, transcriptomics bắt đầu với phương pháp SAGE (Serial Analysis of Gene Expression) cho phép đánh giá biểu hiện gen bằng cách phân tích chuỗi phân đoạn cDNA ngắn. Mặc dù chính xác nhưng SAGE giới hạn ở số lượng mẫu nhỏ và độ nhạy trung bình.

Sự ra đời của microarray vào đầu những năm 2000 đánh dấu bước nhảy vọt: chip microarray chứa hàng nghìn oligonucleotide gắn cố định, cho phép phát hiện và định lượng hàng loạt gen cùng lúc. Microarray có ưu điểm chi phí thấp và thao tác tương đối đơn giản, nhưng độ nhạy với các transcript có biểu hiện rất thấp vẫn còn hạn chế và phụ thuộc vào thiết kế probe.

Từ 2008, công nghệ RNA-Seq trên nền tảng giải trình tự thế hệ mới (NGS) như Illumina và sau này Oxford Nanopore, Pacific Biosciences đã thay thế microarray. RNA-Seq cho phép phát hiện transcript mới, biến thể nối ghép (splice variants), và lượng tuyệt đối transcript mà không cần probe thiết kế trước.

  • SAGE (1995): Đo lường biểu hiện gen thông qua phân tích đoạn cDNA ngắn.
  • Microarray (2000): Chip lai gắn probe, phân tích mRNA hàng loạt.
  • RNA-Seq (2008): Giải trình tự cDNA theo luồng NGS, phát hiện transcript mới.

Tham khảo: Nature Rev Genet – A brief history of transcriptomics

Các công nghệ thu thập dữ liệu

Microarray: Sử dụng tấm kính phủ probe oligonucleotide đại diện cho từng gene. Mẫu RNA được chuyển ngược thành cDNA gắn nhãn huỳnh quang, sau đó lai với microarray để định lượng cường độ tín hiệu. Ưu điểm: chi phí thấp, quy trình chuẩn hóa; hạn chế: chỉ phát hiện được các gene đã biết, độ động phạm vi hạn chế.

RNA-Seq Illumina: RNA được phân đoạn, tổng hợp cDNA và thêm adapter để tạo thư viện. Thư viện được giải trình tự theo phương pháp “sequencing by synthesis”, tạo ra hàng triệu reads ngắn (50–300 bp). Reads sau đó được ánh xạ vào bộ gen tham chiếu để đếm số lần xuất hiện, từ đó suy ra mức độ biểu hiện gene.

  • Chuỗi ngắn (short-read): độ chính xác cao, chi phí trên mỗi base thấp, phân tích splice variant khó hơn.
  • Chuỗi dài (long-read, Oxford Nanopore, PacBio): xác định isoform và transcript hoàn chỉnh, độ lỗi cao hơn và chi phí cao hơn.

Spatial transcriptomics (mới): Kết hợp đánh dấu vị trí không gian của transcript trên lát cắt mô, cho phép tái tạo bản đồ biểu hiện gene theo cấu trúc mô học. Thí dụ: Visium (10x Genomics) dùng pad in situ gắn oligo barcodes tương ứng vị trí.

Công nghệ Độ dài read Ưu điểm Hạn chế
Illumina RNA-Seq 50–300 bp Độ chính xác cao, chi phí thấp Khó xác định isoform
Oxford Nanopore >1 kb Đọc transcript đầy đủ, xác định isoform Lỗi cao, chi phí cao
Spatial Transcriptomics 50–150 bp Bản đồ không gian biểu hiện gen Độ phân giải vùng trung bình

Chi tiết kỹ thuật: EMBO Reports – RNA-Seq technologies

Chuẩn bị và xử lý mẫu

Chiết tách RNA tổng cộng: Mẫu mô hoặc tế bào được nghiền nát trong dung dịch phenol-chloroform (Trizol) hoặc kit column để thu RNA. Chất lượng RNA được đánh giá bằng tỷ lệ A260/A280 (1.8–2.0) và A260/A230 (>2.0) trên máy đo quang phổ.

Độ phân mảnh RNA (RIN) được xác định qua máy phân tích điện di chip (Agilent Bioanalyzer). Mẫu RIN ≥7.0 được coi là đạt chuẩn cho RNA-Seq, giúp giảm nhiễu nền do RNA bị phân mảnh quá mức.

  • RIN 7–10: RNA nguyên vẹn, phù hợp cho toàn bộ phương pháp NGS.
  • RIN 5–7: RNA bị phân mảnh vừa, có thể dùng cho transcriptomics mục tiêu.
  • RIN <5: RNA hỏng, không khuyến khích sử dụng.

Chọn lọc poly(A) hoặc loại bỏ rRNA: Đối với RNA-Seq hướng đến mRNA, dùng kits oligo-dT magnetic beads để bắt poly(A) tails, loại bỏ RNA không phải mRNA. Đối với phân tích toàn bộ transcriptome (bao gồm lncRNA, miRNA), sử dụng phương pháp rRNA depletion (Ribo-Zero) để loại bỏ rRNA chiếm >80% tổng RNA.

Chuẩn bị thư viện cDNA bao gồm phân đoạn RNA, tổng hợp sợi đầu tiên/đầu hai, kết nối adapter, và khuếch đại PCR. Kiểm soát kích thước thư viện (200–500 bp) bằng máy Bioanalyzer trước khi giải trình tự.

Hướng dẫn chi tiết: JoVE – RNA-Seq Library Preparation

Tiền xử lý và định lượng

Sau khi thu thập reads thô từ máy giải trình tự, bước đầu tiên là kiểm tra chất lượng dữ liệu bằng công cụ FastQC để xác định những reads có chất lượng thấp, chứa adapter hoặc nhiễu. Kết quả FastQC bao gồm biểu đồ phân phối chất lượng base, tỷ lệ GC và độ dài reads. Dựa trên đó, sử dụng Trim Galore! hoặc Trimmomatic để cắt bỏ adapter, loại bỏ reads ngắn hơn ngưỡng (thường ≥ 30 bp) và sửa lỗi base có chất lượng thấp (phred score < 20).

Tiếp theo, ánh xạ reads đã xử lý lên bộ gen tham chiếu bằng phần mềm HISAT2 hoặc STAR. HISAT2 sử dụng chỉ mục dựa trên graph để tăng tốc độ và độ chính xác, trong khi STAR tối ưu cho reads dài, hỗ trợ phát hiện splice junction mới. Kết quả ánh xạ lưu trong file BAM, chứa thông tin vị trí genomic, chất lượng ánh xạ và flag. Thông thường, tỉ lệ ánh xạ ≥ 70% được coi là đạt chuẩn cho RNA-Seq.

  • Chất lượng reads: FastQC báo cáo, phred score, adapter content
  • Cắt và lọc: Trim Galore! / Trimmomatic, ngưỡng độ dài min 30 bp, phred ≥ 20
  • Ánh xạ lên bộ gen tham chiếu: HISAT2 (graph index), STAR (splice-aware)
  • File kết quả: BAM (alignment), SAMtools để sort và index

Định lượng biểu hiện gen thông qua công cụ featureCounts hoặc HTSeq-count, đếm số reads gắn vào từng exon hoặc gene. Kết quả đầu ra là ma trận counts (gene × sample), chuẩn bị cho bước chuẩn hóa và phân tích thống kê tiếp theo.

Chuẩn hóa dữ liệu

Dữ liệu counts thô chứa nhiều biến thiên kỹ thuật như độ sâu đọc (sequencing depth) và độ dài gene. Chuẩn hóa nhằm loại bỏ các sai lệch này để so sánh biểu hiện giữa các mẫu. Các chỉ số phổ biến bao gồm RPKM/FPKM (Reads/Fragments Per Kilobase of transcript per Million mapped reads) và TPM (Transcripts Per Million). TPM được ưa chuộng hơn nhờ tính ổn định khi so sánh tương quan mẫu.

RPKM tính theo công thức:

RPKM=counts×109gene length (bp)×total mapped reads \mathrm{RPKM} = \frac{\text{counts} \times 10^9}{\text{gene length (bp)} \times \text{total mapped reads}}

TPM chuẩn hóa đầu tiên theo độ dài gene, rồi chia cho tổng giá trị đã hiệu chỉnh của tất cả gene trong mẫu, cho phép so sánh trực tiếp mức độ giữa các mẫu.

Phương pháp Công thức chính Ưu điểm Hạn chế
RPKM/FPKM Counts/(Len×Depth)×109 Đơn giản, tính nhanh Không ổn định khi so sánh mẫu
TPM RPKM/∑RPKM×106 So sánh mẫu trực tiếp Vẫn cần hiệu chỉnh batch
DESeq2 normalization Median-of-ratios Loại bỏ biến thiên kỹ thuật Không cho giá trị tuyệt đối

Đối với dữ liệu đa mẫu, sử dụng DESeq2 hoặc edgeR để thực hiện chuẩn hóa median-of-ratios hoặc TMM (Trimmed Mean of M-values), loại bỏ hiệu ứng batch bằng ComBat (sẵn trong gói sva) khi cần.

Phân tích biểu hiện khác biệt

Mục tiêu của phân tích này là xác định các gene có sự thay đổi biểu hiện đáng kể giữa hai hoặc nhiều nhóm điều kiện (ví dụ: bệnh – đối chứng). DESeq2 sử dụng mô hình negative binomial để ước tính dispersion và độ biến thiên kỹ thuật, áp dụng Wald test hoặc likelihood ratio test để xác định gene khác biệt (DEGs).

EdgeR cũng dựa trên phân phối negative binomial, bổ sung phương pháp quasi-likelihood F-test để kiểm soát sai số loại I. Các bước cơ bản bao gồm:

  1. Import ma trận counts và metadata (nhóm mẫu).
  2. Estimate size factors (DESeq2) hoặc normalization factors (edgeR).
  3. Estimate dispersion (common, trended, tagwise).
  4. Thực hiện kiểm định thống kê, lọc DEGs theo ngưỡng |log2FC| ≥ 1 và FDR < 0.05.

Kết quả đầu ra gồm bảng DEGs với các cột: log2FoldChange, p-value và padj (FDR). Forest plot hoặc volcano plot giúp trực quan hóa kết quả.

Chú thích chức năng và con đường

Sau khi thu được danh sách DEGs, bước tiếp theo là khám phá ý nghĩa sinh học thông qua phân tích Gene Ontology (GO) và pathway enrichment. GO chia thành ba ontology: Biological Process, Molecular Function và Cellular Component. DAVID, g:Profiler và Enrichr là các công cụ phổ biến, sử dụng Fisher’s exact test hoặc hypergeometric test để kiểm tra sự quá đại diện của term trong danh sách DEGs so với nền gene.

Phân tích pathway thường dựa trên cơ sở dữ liệu KEGG, Reactome hoặc BioCyc. GSEA (Gene Set Enrichment Analysis) không yêu cầu ngưỡng DEGs, mà sử dụng toàn bộ dữ liệu thứ tự gene để phát hiện pathway bị ảnh hưởng nhẹ nhưng đồng bộ. GSEA định nghĩa enrichment score (ES) và tính mức ý nghĩa qua permutation test.

  • GO enrichment: DAVID, g:Profiler, Enrichr
  • Pathway enrichment: KEGG pathway, Reactome
  • GSEA: ES, NES (normalized ES), FDR q-value

Ứng dụng lâm sàng và sinh học cơ bản

Transcriptomics đóng vai trò then chốt trong phát hiện dấu ấn sinh học (biomarkers) cho ung thư, bệnh tim mạch và rối loạn thần kinh. Ví dụ, bộ gene PAM50 phân loại các dòng ung thư vú thành các phân nhóm lâm sàng, hỗ trợ quyết định điều trị.[1] Trong miễn dịch học, transcriptomics giúp đặc tả các trạng thái bạch cầu, nghiên cứu phản ứng cytokine và phát triển vaccine.

Trong nghiên cứu phát triển phôi thai, single-cell RNA-Seq (scRNA-Seq) vẽ được bản đồ tiến hóa tế bào, phân nhóm tế bào gốc và xác định markergene đặc hiệu từng dòng. Spatial transcriptomics cho phép kết hợp dữ liệu RNA và hình ảnh mô học, dùng trong nghiên cứu vi mô ung thư để xác định microenvironment tế bào ung thư và tế bào miễn dịch.

  • Biomarkers ung thư: PAM50, Oncotype DX
  • Miễn dịch: đặc trưng tế bào T, cytokine profiling
  • Phôi thai: lineage tracing qua scRNA-Seq
  • Microenvironment: spatial transcriptomics trong mô ung thư

Thách thức và hướng nghiên cứu tương lai

Mặc dù transcriptomics đã đạt nhiều thành tựu, vẫn tồn tại các thách thức như độ nhạy thấp với các transcript hiếm, sai sót trong ánh xạ reads chéo gene có vùng trình tự tương tự, và khó khăn trong phân tích dữ liệu đa chiều (multi-omics). Đặc biệt, xử lý batch effect phức tạp trong scRNA-Seq và spatial data cần giải pháp mới.

Xu hướng nghiên cứu tương lai tập trung vào tích hợp multi-omics (genomics, epigenomics, proteomics) và áp dụng trí tuệ nhân tạo để xây dựng mô hình dự đoán chức năng gene và tương tác phân tử. Công nghệ long-read cùng với error correction hứa hẹn cải thiện độ chính xác isoform, trong khi spatial multi-omics sẽ cung cấp cái nhìn toàn diện về tổ chức không gian và chức năng tế bào.

  • Multi-omics integration: MOFA, iCluster
  • AI/ML trong phân tích biểu hiện: deep learning, graph neural networks
  • Long-read error correction: Iso-Seq, CONSORT
  • Spatial multi-omics: 10x Visium + proteomics

Tài liệu tham khảo

  • [1] Parker J.S. et al. Supervised risk predictor of breast cancer based on intrinsic subtypes. J Clin Oncol. 2009;27(8):1160–1167.
  • Anders S., Huber W. Differential expression analysis for sequence count data. Genome Biol. 2010;11(10):R106.
  • Love M.I., Huber W., Anders S. Moderated estimation of fold change and dispersion for RNA-Seq data with DESeq2. Genome Biol. 2014;15(12):550.
  • Subramanian A. et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proc Natl Acad Sci USA. 2005;102(43):15545–15550.
  • Butler A. et al. Integrating single-cell transcriptomic data across different conditions, technologies, and species. Nat Biotechnol. 2018;36(5):411–420.
  • Ståhl P.L. et al. Visualization and analysis of gene expression in tissue sections by spatial transcriptomics. Science. 2016;353(6294):78–82.
  • Zappia L., Oshlack A. Clustering trees: a visualization for evaluating clusterings at multiple resolutions. GigaScience. 2018;7(7):giy083.

Các bài báo, nghiên cứu, công bố khoa học về chủ đề transcriptomics:

RNA-Seq: a revolutionary tool for transcriptomics
Nature Reviews Genetics - Tập 10 Số 1 - Trang 57-63 - 2009
Droplet Barcoding for Single-Cell Transcriptomics Applied to Embryonic Stem Cells
Cell - Tập 161 Số 5 - Trang 1187-1201 - 2015
Visualization and analysis of gene expression in tissue sections by spatial transcriptomics
American Association for the Advancement of Science (AAAS) - Tập 353 Số 6294 - Trang 78-82 - 2016
Spatial structure of RNA expression RNA-seq and similar methods can record gene expression within and among cells. Current methods typically lose positional information and many require arduous single-cell isolation and sequencing. Ståhl et al. have developed a way of measuring the spatial di...... hiện toàn bộ
Adult mouse cortical cell taxonomy revealed by single cell transcriptomics
Nature Neuroscience - Tập 19 Số 2 - Trang 335-346 - 2016
Deep generative modeling for single-cell transcriptomics
Nature Methods - Tập 15 Số 12 - Trang 1053-1058 - 2018
Single-cell transcriptomics reveals bimodality in expression and splicing in immune cells
Nature - Tập 498 Số 7453 - Trang 236-240 - 2013
Comprehensive Classification of Retinal Bipolar Neurons by Single-Cell Transcriptomics
Cell - Tập 166 Số 5 - Trang 1308-1323.e30 - 2016
Single-cell transcriptomics of the mouse kidney reveals potential cellular targets of kidney disease
American Association for the Advancement of Science (AAAS) - Tập 360 Số 6390 - Trang 758-763 - 2018
Touring the kidney, cell by cell Our kidneys play a critical role in keeping us healthy, a fact of which we are reminded several times each day. This organ's cellular complexity has hindered progress in understanding the mechanisms underlying chronic kidney disease, which affects 10% of the world's population. Using single-cell transcriptiona...... hiện toàn bộ
Tổng số: 1,205   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 10