Transcriptomics là gì? Các nghiên cứu khoa học liên quan
Transcriptomics nghiên cứu bộ transcript của tế bào hoặc mô, bao gồm RNA mã hóa và không mã hóa, nhằm phân tích biểu hiện gen và điều hòa hậu phiên mã. Phương pháp này cho phép xác định mức độ và biến động biểu hiện RNA theo điều kiện, giải mã cơ chế điều hòa gen và phát hiện dấu ấn sinh học.
Giới thiệu và định nghĩa
Transcriptomics là lĩnh vực nghiên cứu toàn diện về toàn bộ các phân tử RNA (transcriptome) được biểu hiện trong một tế bào hoặc mô nhất định tại một thời điểm cụ thể. Không chỉ bao gồm các RNA mã hóa (mRNA), transcriptome còn chứa các RNA không mã hóa như miRNA, lncRNA, snRNA và snoRNA, đóng vai trò điều hòa biểu hiện gen sau phiên mã. Phân tích transcriptome giúp xác định các gen đang hoạt động, mức độ biểu hiện tương đối và thay đổi biểu hiện trong các điều kiện sinh lý hoặc bệnh lý khác nhau.
Transcriptomics cung cấp cái nhìn sâu sắc về cơ chế điều hòa gen, phản ứng của tế bào trước kích thích ngoại sinh hoặc nội sinh, đồng thời hỗ trợ phát hiện các dấu ấn sinh học (biomarker) và mục tiêu điều trị. Do tính toàn diện và độ nhạy cao, transcriptomics ngày càng trở thành công cụ không thể thiếu trong nghiên cứu ung thư, miễn dịch, phát triển phôi thai và dịch tễ học phân tử.
Định nghĩa chi tiết: NCBI PMC – What is Transcriptomics?
Lịch sử phát triển
Từ cuối thập niên 1990, transcriptomics bắt đầu với phương pháp SAGE (Serial Analysis of Gene Expression) cho phép đánh giá biểu hiện gen bằng cách phân tích chuỗi phân đoạn cDNA ngắn. Mặc dù chính xác nhưng SAGE giới hạn ở số lượng mẫu nhỏ và độ nhạy trung bình.
Sự ra đời của microarray vào đầu những năm 2000 đánh dấu bước nhảy vọt: chip microarray chứa hàng nghìn oligonucleotide gắn cố định, cho phép phát hiện và định lượng hàng loạt gen cùng lúc. Microarray có ưu điểm chi phí thấp và thao tác tương đối đơn giản, nhưng độ nhạy với các transcript có biểu hiện rất thấp vẫn còn hạn chế và phụ thuộc vào thiết kế probe.
Từ 2008, công nghệ RNA-Seq trên nền tảng giải trình tự thế hệ mới (NGS) như Illumina và sau này Oxford Nanopore, Pacific Biosciences đã thay thế microarray. RNA-Seq cho phép phát hiện transcript mới, biến thể nối ghép (splice variants), và lượng tuyệt đối transcript mà không cần probe thiết kế trước.
- SAGE (1995): Đo lường biểu hiện gen thông qua phân tích đoạn cDNA ngắn.
- Microarray (2000): Chip lai gắn probe, phân tích mRNA hàng loạt.
- RNA-Seq (2008): Giải trình tự cDNA theo luồng NGS, phát hiện transcript mới.
Tham khảo: Nature Rev Genet – A brief history of transcriptomics
Các công nghệ thu thập dữ liệu
Microarray: Sử dụng tấm kính phủ probe oligonucleotide đại diện cho từng gene. Mẫu RNA được chuyển ngược thành cDNA gắn nhãn huỳnh quang, sau đó lai với microarray để định lượng cường độ tín hiệu. Ưu điểm: chi phí thấp, quy trình chuẩn hóa; hạn chế: chỉ phát hiện được các gene đã biết, độ động phạm vi hạn chế.
RNA-Seq Illumina: RNA được phân đoạn, tổng hợp cDNA và thêm adapter để tạo thư viện. Thư viện được giải trình tự theo phương pháp “sequencing by synthesis”, tạo ra hàng triệu reads ngắn (50–300 bp). Reads sau đó được ánh xạ vào bộ gen tham chiếu để đếm số lần xuất hiện, từ đó suy ra mức độ biểu hiện gene.
- Chuỗi ngắn (short-read): độ chính xác cao, chi phí trên mỗi base thấp, phân tích splice variant khó hơn.
- Chuỗi dài (long-read, Oxford Nanopore, PacBio): xác định isoform và transcript hoàn chỉnh, độ lỗi cao hơn và chi phí cao hơn.
Spatial transcriptomics (mới): Kết hợp đánh dấu vị trí không gian của transcript trên lát cắt mô, cho phép tái tạo bản đồ biểu hiện gene theo cấu trúc mô học. Thí dụ: Visium (10x Genomics) dùng pad in situ gắn oligo barcodes tương ứng vị trí.
Công nghệ | Độ dài read | Ưu điểm | Hạn chế |
---|---|---|---|
Illumina RNA-Seq | 50–300 bp | Độ chính xác cao, chi phí thấp | Khó xác định isoform |
Oxford Nanopore | >1 kb | Đọc transcript đầy đủ, xác định isoform | Lỗi cao, chi phí cao |
Spatial Transcriptomics | 50–150 bp | Bản đồ không gian biểu hiện gen | Độ phân giải vùng trung bình |
Chi tiết kỹ thuật: EMBO Reports – RNA-Seq technologies
Chuẩn bị và xử lý mẫu
Chiết tách RNA tổng cộng: Mẫu mô hoặc tế bào được nghiền nát trong dung dịch phenol-chloroform (Trizol) hoặc kit column để thu RNA. Chất lượng RNA được đánh giá bằng tỷ lệ A260/A280 (1.8–2.0) và A260/A230 (>2.0) trên máy đo quang phổ.
Độ phân mảnh RNA (RIN) được xác định qua máy phân tích điện di chip (Agilent Bioanalyzer). Mẫu RIN ≥7.0 được coi là đạt chuẩn cho RNA-Seq, giúp giảm nhiễu nền do RNA bị phân mảnh quá mức.
- RIN 7–10: RNA nguyên vẹn, phù hợp cho toàn bộ phương pháp NGS.
- RIN 5–7: RNA bị phân mảnh vừa, có thể dùng cho transcriptomics mục tiêu.
- RIN <5: RNA hỏng, không khuyến khích sử dụng.
Chọn lọc poly(A) hoặc loại bỏ rRNA: Đối với RNA-Seq hướng đến mRNA, dùng kits oligo-dT magnetic beads để bắt poly(A) tails, loại bỏ RNA không phải mRNA. Đối với phân tích toàn bộ transcriptome (bao gồm lncRNA, miRNA), sử dụng phương pháp rRNA depletion (Ribo-Zero) để loại bỏ rRNA chiếm >80% tổng RNA.
Chuẩn bị thư viện cDNA bao gồm phân đoạn RNA, tổng hợp sợi đầu tiên/đầu hai, kết nối adapter, và khuếch đại PCR. Kiểm soát kích thước thư viện (200–500 bp) bằng máy Bioanalyzer trước khi giải trình tự.
Hướng dẫn chi tiết: JoVE – RNA-Seq Library Preparation
Tiền xử lý và định lượng
Sau khi thu thập reads thô từ máy giải trình tự, bước đầu tiên là kiểm tra chất lượng dữ liệu bằng công cụ FastQC để xác định những reads có chất lượng thấp, chứa adapter hoặc nhiễu. Kết quả FastQC bao gồm biểu đồ phân phối chất lượng base, tỷ lệ GC và độ dài reads. Dựa trên đó, sử dụng Trim Galore! hoặc Trimmomatic để cắt bỏ adapter, loại bỏ reads ngắn hơn ngưỡng (thường ≥ 30 bp) và sửa lỗi base có chất lượng thấp (phred score < 20).
Tiếp theo, ánh xạ reads đã xử lý lên bộ gen tham chiếu bằng phần mềm HISAT2 hoặc STAR. HISAT2 sử dụng chỉ mục dựa trên graph để tăng tốc độ và độ chính xác, trong khi STAR tối ưu cho reads dài, hỗ trợ phát hiện splice junction mới. Kết quả ánh xạ lưu trong file BAM, chứa thông tin vị trí genomic, chất lượng ánh xạ và flag. Thông thường, tỉ lệ ánh xạ ≥ 70% được coi là đạt chuẩn cho RNA-Seq.
- Chất lượng reads: FastQC báo cáo, phred score, adapter content
- Cắt và lọc: Trim Galore! / Trimmomatic, ngưỡng độ dài min 30 bp, phred ≥ 20
- Ánh xạ lên bộ gen tham chiếu: HISAT2 (graph index), STAR (splice-aware)
- File kết quả: BAM (alignment), SAMtools để sort và index
Định lượng biểu hiện gen thông qua công cụ featureCounts hoặc HTSeq-count, đếm số reads gắn vào từng exon hoặc gene. Kết quả đầu ra là ma trận counts (gene × sample), chuẩn bị cho bước chuẩn hóa và phân tích thống kê tiếp theo.
Chuẩn hóa dữ liệu
Dữ liệu counts thô chứa nhiều biến thiên kỹ thuật như độ sâu đọc (sequencing depth) và độ dài gene. Chuẩn hóa nhằm loại bỏ các sai lệch này để so sánh biểu hiện giữa các mẫu. Các chỉ số phổ biến bao gồm RPKM/FPKM (Reads/Fragments Per Kilobase of transcript per Million mapped reads) và TPM (Transcripts Per Million). TPM được ưa chuộng hơn nhờ tính ổn định khi so sánh tương quan mẫu.
RPKM tính theo công thức:
TPM chuẩn hóa đầu tiên theo độ dài gene, rồi chia cho tổng giá trị đã hiệu chỉnh của tất cả gene trong mẫu, cho phép so sánh trực tiếp mức độ giữa các mẫu.
Phương pháp | Công thức chính | Ưu điểm | Hạn chế |
---|---|---|---|
RPKM/FPKM | Counts/(Len×Depth)×109 | Đơn giản, tính nhanh | Không ổn định khi so sánh mẫu |
TPM | RPKM/∑RPKM×106 | So sánh mẫu trực tiếp | Vẫn cần hiệu chỉnh batch |
DESeq2 normalization | Median-of-ratios | Loại bỏ biến thiên kỹ thuật | Không cho giá trị tuyệt đối |
Đối với dữ liệu đa mẫu, sử dụng DESeq2 hoặc edgeR để thực hiện chuẩn hóa median-of-ratios hoặc TMM (Trimmed Mean of M-values), loại bỏ hiệu ứng batch bằng ComBat (sẵn trong gói sva) khi cần.
Phân tích biểu hiện khác biệt
Mục tiêu của phân tích này là xác định các gene có sự thay đổi biểu hiện đáng kể giữa hai hoặc nhiều nhóm điều kiện (ví dụ: bệnh – đối chứng). DESeq2 sử dụng mô hình negative binomial để ước tính dispersion và độ biến thiên kỹ thuật, áp dụng Wald test hoặc likelihood ratio test để xác định gene khác biệt (DEGs).
EdgeR cũng dựa trên phân phối negative binomial, bổ sung phương pháp quasi-likelihood F-test để kiểm soát sai số loại I. Các bước cơ bản bao gồm:
- Import ma trận counts và metadata (nhóm mẫu).
- Estimate size factors (DESeq2) hoặc normalization factors (edgeR).
- Estimate dispersion (common, trended, tagwise).
- Thực hiện kiểm định thống kê, lọc DEGs theo ngưỡng |log2FC| ≥ 1 và FDR < 0.05.
Kết quả đầu ra gồm bảng DEGs với các cột: log2FoldChange, p-value và padj (FDR). Forest plot hoặc volcano plot giúp trực quan hóa kết quả.
Chú thích chức năng và con đường
Sau khi thu được danh sách DEGs, bước tiếp theo là khám phá ý nghĩa sinh học thông qua phân tích Gene Ontology (GO) và pathway enrichment. GO chia thành ba ontology: Biological Process, Molecular Function và Cellular Component. DAVID, g:Profiler và Enrichr là các công cụ phổ biến, sử dụng Fisher’s exact test hoặc hypergeometric test để kiểm tra sự quá đại diện của term trong danh sách DEGs so với nền gene.
Phân tích pathway thường dựa trên cơ sở dữ liệu KEGG, Reactome hoặc BioCyc. GSEA (Gene Set Enrichment Analysis) không yêu cầu ngưỡng DEGs, mà sử dụng toàn bộ dữ liệu thứ tự gene để phát hiện pathway bị ảnh hưởng nhẹ nhưng đồng bộ. GSEA định nghĩa enrichment score (ES) và tính mức ý nghĩa qua permutation test.
- GO enrichment: DAVID, g:Profiler, Enrichr
- Pathway enrichment: KEGG pathway, Reactome
- GSEA: ES, NES (normalized ES), FDR q-value
Ứng dụng lâm sàng và sinh học cơ bản
Transcriptomics đóng vai trò then chốt trong phát hiện dấu ấn sinh học (biomarkers) cho ung thư, bệnh tim mạch và rối loạn thần kinh. Ví dụ, bộ gene PAM50 phân loại các dòng ung thư vú thành các phân nhóm lâm sàng, hỗ trợ quyết định điều trị.[1] Trong miễn dịch học, transcriptomics giúp đặc tả các trạng thái bạch cầu, nghiên cứu phản ứng cytokine và phát triển vaccine.
Trong nghiên cứu phát triển phôi thai, single-cell RNA-Seq (scRNA-Seq) vẽ được bản đồ tiến hóa tế bào, phân nhóm tế bào gốc và xác định markergene đặc hiệu từng dòng. Spatial transcriptomics cho phép kết hợp dữ liệu RNA và hình ảnh mô học, dùng trong nghiên cứu vi mô ung thư để xác định microenvironment tế bào ung thư và tế bào miễn dịch.
- Biomarkers ung thư: PAM50, Oncotype DX
- Miễn dịch: đặc trưng tế bào T, cytokine profiling
- Phôi thai: lineage tracing qua scRNA-Seq
- Microenvironment: spatial transcriptomics trong mô ung thư
Thách thức và hướng nghiên cứu tương lai
Mặc dù transcriptomics đã đạt nhiều thành tựu, vẫn tồn tại các thách thức như độ nhạy thấp với các transcript hiếm, sai sót trong ánh xạ reads chéo gene có vùng trình tự tương tự, và khó khăn trong phân tích dữ liệu đa chiều (multi-omics). Đặc biệt, xử lý batch effect phức tạp trong scRNA-Seq và spatial data cần giải pháp mới.
Xu hướng nghiên cứu tương lai tập trung vào tích hợp multi-omics (genomics, epigenomics, proteomics) và áp dụng trí tuệ nhân tạo để xây dựng mô hình dự đoán chức năng gene và tương tác phân tử. Công nghệ long-read cùng với error correction hứa hẹn cải thiện độ chính xác isoform, trong khi spatial multi-omics sẽ cung cấp cái nhìn toàn diện về tổ chức không gian và chức năng tế bào.
- Multi-omics integration: MOFA, iCluster
- AI/ML trong phân tích biểu hiện: deep learning, graph neural networks
- Long-read error correction: Iso-Seq, CONSORT
- Spatial multi-omics: 10x Visium + proteomics
Tài liệu tham khảo
- [1] Parker J.S. et al. Supervised risk predictor of breast cancer based on intrinsic subtypes. J Clin Oncol. 2009;27(8):1160–1167.
- Anders S., Huber W. Differential expression analysis for sequence count data. Genome Biol. 2010;11(10):R106.
- Love M.I., Huber W., Anders S. Moderated estimation of fold change and dispersion for RNA-Seq data with DESeq2. Genome Biol. 2014;15(12):550.
- Subramanian A. et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proc Natl Acad Sci USA. 2005;102(43):15545–15550.
- Butler A. et al. Integrating single-cell transcriptomic data across different conditions, technologies, and species. Nat Biotechnol. 2018;36(5):411–420.
- Ståhl P.L. et al. Visualization and analysis of gene expression in tissue sections by spatial transcriptomics. Science. 2016;353(6294):78–82.
- Zappia L., Oshlack A. Clustering trees: a visualization for evaluating clusterings at multiple resolutions. GigaScience. 2018;7(7):giy083.
Các bài báo, nghiên cứu, công bố khoa học về chủ đề transcriptomics:
- 1
- 2
- 3
- 4
- 5
- 6
- 10