Transcriptomics là gì? Các nghiên cứu khoa học liên quan

Transcriptomics nghiên cứu bộ transcript của tế bào hoặc mô, bao gồm RNA mã hóa và không mã hóa, nhằm phân tích biểu hiện gen và điều hòa hậu phiên mã. Phương pháp này cho phép xác định mức độ và biến động biểu hiện RNA theo điều kiện, giải mã cơ chế điều hòa gen và phát hiện dấu ấn sinh học.

Giới thiệu và định nghĩa

Transcriptomics là lĩnh vực nghiên cứu toàn diện về toàn bộ các phân tử RNA (transcriptome) được biểu hiện trong một tế bào hoặc mô nhất định tại một thời điểm cụ thể. Không chỉ bao gồm các RNA mã hóa (mRNA), transcriptome còn chứa các RNA không mã hóa như miRNA, lncRNA, snRNA và snoRNA, đóng vai trò điều hòa biểu hiện gen sau phiên mã. Phân tích transcriptome giúp xác định các gen đang hoạt động, mức độ biểu hiện tương đối và thay đổi biểu hiện trong các điều kiện sinh lý hoặc bệnh lý khác nhau.

Transcriptomics cung cấp cái nhìn sâu sắc về cơ chế điều hòa gen, phản ứng của tế bào trước kích thích ngoại sinh hoặc nội sinh, đồng thời hỗ trợ phát hiện các dấu ấn sinh học (biomarker) và mục tiêu điều trị. Do tính toàn diện và độ nhạy cao, transcriptomics ngày càng trở thành công cụ không thể thiếu trong nghiên cứu ung thư, miễn dịch, phát triển phôi thai và dịch tễ học phân tử.

Định nghĩa chi tiết: NCBI PMC – What is Transcriptomics?

Lịch sử phát triển

Từ cuối thập niên 1990, transcriptomics bắt đầu với phương pháp SAGE (Serial Analysis of Gene Expression) cho phép đánh giá biểu hiện gen bằng cách phân tích chuỗi phân đoạn cDNA ngắn. Mặc dù chính xác nhưng SAGE giới hạn ở số lượng mẫu nhỏ và độ nhạy trung bình.

Sự ra đời của microarray vào đầu những năm 2000 đánh dấu bước nhảy vọt: chip microarray chứa hàng nghìn oligonucleotide gắn cố định, cho phép phát hiện và định lượng hàng loạt gen cùng lúc. Microarray có ưu điểm chi phí thấp và thao tác tương đối đơn giản, nhưng độ nhạy với các transcript có biểu hiện rất thấp vẫn còn hạn chế và phụ thuộc vào thiết kế probe.

Từ 2008, công nghệ RNA-Seq trên nền tảng giải trình tự thế hệ mới (NGS) như Illumina và sau này Oxford Nanopore, Pacific Biosciences đã thay thế microarray. RNA-Seq cho phép phát hiện transcript mới, biến thể nối ghép (splice variants), và lượng tuyệt đối transcript mà không cần probe thiết kế trước.

SAGE (1995): Đo lường biểu hiện gen thông qua phân tích đoạn cDNA ngắn.
Microarray (2000): Chip lai gắn probe, phân tích mRNA hàng loạt.
RNA-Seq (2008): Giải trình tự cDNA theo luồng NGS, phát hiện transcript mới.

Tham khảo: Nature Rev Genet – A brief history of transcriptomics

Các công nghệ thu thập dữ liệu

Microarray: Sử dụng tấm kính phủ probe oligonucleotide đại diện cho từng gene. Mẫu RNA được chuyển ngược thành cDNA gắn nhãn huỳnh quang, sau đó lai với microarray để định lượng cường độ tín hiệu. Ưu điểm: chi phí thấp, quy trình chuẩn hóa; hạn chế: chỉ phát hiện được các gene đã biết, độ động phạm vi hạn chế.

RNA-Seq Illumina: RNA được phân đoạn, tổng hợp cDNA và thêm adapter để tạo thư viện. Thư viện được giải trình tự theo phương pháp “sequencing by synthesis”, tạo ra hàng triệu reads ngắn (50–300 bp). Reads sau đó được ánh xạ vào bộ gen tham chiếu để đếm số lần xuất hiện, từ đó suy ra mức độ biểu hiện gene.

Chuỗi ngắn (short-read): độ chính xác cao, chi phí trên mỗi base thấp, phân tích splice variant khó hơn.
Chuỗi dài (long-read, Oxford Nanopore, PacBio): xác định isoform và transcript hoàn chỉnh, độ lỗi cao hơn và chi phí cao hơn.

Spatial transcriptomics (mới): Kết hợp đánh dấu vị trí không gian của transcript trên lát cắt mô, cho phép tái tạo bản đồ biểu hiện gene theo cấu trúc mô học. Thí dụ: Visium (10x Genomics) dùng pad in situ gắn oligo barcodes tương ứng vị trí.

Công nghệ	Độ dài read	Ưu điểm	Hạn chế
Illumina RNA-Seq	50–300 bp	Độ chính xác cao, chi phí thấp	Khó xác định isoform
Oxford Nanopore	>1 kb	Đọc transcript đầy đủ, xác định isoform	Lỗi cao, chi phí cao
Spatial Transcriptomics	50–150 bp	Bản đồ không gian biểu hiện gen	Độ phân giải vùng trung bình

Chi tiết kỹ thuật: EMBO Reports – RNA-Seq technologies

Chuẩn bị và xử lý mẫu

Chiết tách RNA tổng cộng: Mẫu mô hoặc tế bào được nghiền nát trong dung dịch phenol-chloroform (Trizol) hoặc kit column để thu RNA. Chất lượng RNA được đánh giá bằng tỷ lệ A260/A280 (1.8–2.0) và A260/A230 (>2.0) trên máy đo quang phổ.

Độ phân mảnh RNA (RIN) được xác định qua máy phân tích điện di chip (Agilent Bioanalyzer). Mẫu RIN ≥7.0 được coi là đạt chuẩn cho RNA-Seq, giúp giảm nhiễu nền do RNA bị phân mảnh quá mức.

RIN 7–10: RNA nguyên vẹn, phù hợp cho toàn bộ phương pháp NGS.
RIN 5–7: RNA bị phân mảnh vừa, có thể dùng cho transcriptomics mục tiêu.
RIN <5: RNA hỏng, không khuyến khích sử dụng.

Chọn lọc poly(A) hoặc loại bỏ rRNA: Đối với RNA-Seq hướng đến mRNA, dùng kits oligo-dT magnetic beads để bắt poly(A) tails, loại bỏ RNA không phải mRNA. Đối với phân tích toàn bộ transcriptome (bao gồm lncRNA, miRNA), sử dụng phương pháp rRNA depletion (Ribo-Zero) để loại bỏ rRNA chiếm >80% tổng RNA.

Chuẩn bị thư viện cDNA bao gồm phân đoạn RNA, tổng hợp sợi đầu tiên/đầu hai, kết nối adapter, và khuếch đại PCR. Kiểm soát kích thước thư viện (200–500 bp) bằng máy Bioanalyzer trước khi giải trình tự.

Hướng dẫn chi tiết: JoVE – RNA-Seq Library Preparation

Tiền xử lý và định lượng

Sau khi thu thập reads thô từ máy giải trình tự, bước đầu tiên là kiểm tra chất lượng dữ liệu bằng công cụ FastQC để xác định những reads có chất lượng thấp, chứa adapter hoặc nhiễu. Kết quả FastQC bao gồm biểu đồ phân phối chất lượng base, tỷ lệ GC và độ dài reads. Dựa trên đó, sử dụng Trim Galore! hoặc Trimmomatic để cắt bỏ adapter, loại bỏ reads ngắn hơn ngưỡng (thường ≥ 30 bp) và sửa lỗi base có chất lượng thấp (phred score < 20).

Tiếp theo, ánh xạ reads đã xử lý lên bộ gen tham chiếu bằng phần mềm HISAT2 hoặc STAR. HISAT2 sử dụng chỉ mục dựa trên graph để tăng tốc độ và độ chính xác, trong khi STAR tối ưu cho reads dài, hỗ trợ phát hiện splice junction mới. Kết quả ánh xạ lưu trong file BAM, chứa thông tin vị trí genomic, chất lượng ánh xạ và flag. Thông thường, tỉ lệ ánh xạ ≥ 70% được coi là đạt chuẩn cho RNA-Seq.

Chất lượng reads: FastQC báo cáo, phred score, adapter content
Cắt và lọc: Trim Galore! / Trimmomatic, ngưỡng độ dài min 30 bp, phred ≥ 20
Ánh xạ lên bộ gen tham chiếu: HISAT2 (graph index), STAR (splice-aware)
File kết quả: BAM (alignment), SAMtools để sort và index

Định lượng biểu hiện gen thông qua công cụ featureCounts hoặc HTSeq-count, đếm số reads gắn vào từng exon hoặc gene. Kết quả đầu ra là ma trận counts (gene × sample), chuẩn bị cho bước chuẩn hóa và phân tích thống kê tiếp theo.

Chuẩn hóa dữ liệu

Dữ liệu counts thô chứa nhiều biến thiên kỹ thuật như độ sâu đọc (sequencing depth) và độ dài gene. Chuẩn hóa nhằm loại bỏ các sai lệch này để so sánh biểu hiện giữa các mẫu. Các chỉ số phổ biến bao gồm RPKM/FPKM (Reads/Fragments Per Kilobase of transcript per Million mapped reads) và TPM (Transcripts Per Million). TPM được ưa chuộng hơn nhờ tính ổn định khi so sánh tương quan mẫu.

RPKM tính theo công thức:

\mathrm{RPKM} = \frac{\text{counts} \times 10^9}{\text{gene length (bp)} \times \text{total mapped reads}}

TPM chuẩn hóa đầu tiên theo độ dài gene, rồi chia cho tổng giá trị đã hiệu chỉnh của tất cả gene trong mẫu, cho phép so sánh trực tiếp mức độ giữa các mẫu.

Phương pháp	Công thức chính	Ưu điểm	Hạn chế
RPKM/FPKM	Counts/(Len×Depth)×10⁹	Đơn giản, tính nhanh	Không ổn định khi so sánh mẫu
TPM	RPKM/∑RPKM×10⁶	So sánh mẫu trực tiếp	Vẫn cần hiệu chỉnh batch
DESeq2 normalization	Median-of-ratios	Loại bỏ biến thiên kỹ thuật	Không cho giá trị tuyệt đối

Đối với dữ liệu đa mẫu, sử dụng DESeq2 hoặc edgeR để thực hiện chuẩn hóa median-of-ratios hoặc TMM (Trimmed Mean of M-values), loại bỏ hiệu ứng batch bằng ComBat (sẵn trong gói sva) khi cần.

Phân tích biểu hiện khác biệt

Mục tiêu của phân tích này là xác định các gene có sự thay đổi biểu hiện đáng kể giữa hai hoặc nhiều nhóm điều kiện (ví dụ: bệnh – đối chứng). DESeq2 sử dụng mô hình negative binomial để ước tính dispersion và độ biến thiên kỹ thuật, áp dụng Wald test hoặc likelihood ratio test để xác định gene khác biệt (DEGs).

EdgeR cũng dựa trên phân phối negative binomial, bổ sung phương pháp quasi-likelihood F-test để kiểm soát sai số loại I. Các bước cơ bản bao gồm:

Import ma trận counts và metadata (nhóm mẫu).
Estimate size factors (DESeq2) hoặc normalization factors (edgeR).
Estimate dispersion (common, trended, tagwise).
Thực hiện kiểm định thống kê, lọc DEGs theo ngưỡng |log2FC| ≥ 1 và FDR < 0.05.

Kết quả đầu ra gồm bảng DEGs với các cột: log2FoldChange, p-value và padj (FDR). Forest plot hoặc volcano plot giúp trực quan hóa kết quả.

Chú thích chức năng và con đường

Sau khi thu được danh sách DEGs, bước tiếp theo là khám phá ý nghĩa sinh học thông qua phân tích Gene Ontology (GO) và pathway enrichment. GO chia thành ba ontology: Biological Process, Molecular Function và Cellular Component. DAVID, g:Profiler và Enrichr là các công cụ phổ biến, sử dụng Fisher’s exact test hoặc hypergeometric test để kiểm tra sự quá đại diện của term trong danh sách DEGs so với nền gene.

Phân tích pathway thường dựa trên cơ sở dữ liệu KEGG, Reactome hoặc BioCyc. GSEA (Gene Set Enrichment Analysis) không yêu cầu ngưỡng DEGs, mà sử dụng toàn bộ dữ liệu thứ tự gene để phát hiện pathway bị ảnh hưởng nhẹ nhưng đồng bộ. GSEA định nghĩa enrichment score (ES) và tính mức ý nghĩa qua permutation test.

GO enrichment: DAVID, g:Profiler, Enrichr
Pathway enrichment: KEGG pathway, Reactome
GSEA: ES, NES (normalized ES), FDR q-value

Ứng dụng lâm sàng và sinh học cơ bản

Transcriptomics đóng vai trò then chốt trong phát hiện dấu ấn sinh học (biomarkers) cho ung thư, bệnh tim mạch và rối loạn thần kinh. Ví dụ, bộ gene PAM50 phân loại các dòng ung thư vú thành các phân nhóm lâm sàng, hỗ trợ quyết định điều trị.^[1] Trong miễn dịch học, transcriptomics giúp đặc tả các trạng thái bạch cầu, nghiên cứu phản ứng cytokine và phát triển vaccine.

Trong nghiên cứu phát triển phôi thai, single-cell RNA-Seq (scRNA-Seq) vẽ được bản đồ tiến hóa tế bào, phân nhóm tế bào gốc và xác định markergene đặc hiệu từng dòng. Spatial transcriptomics cho phép kết hợp dữ liệu RNA và hình ảnh mô học, dùng trong nghiên cứu vi mô ung thư để xác định microenvironment tế bào ung thư và tế bào miễn dịch.

Biomarkers ung thư: PAM50, Oncotype DX
Miễn dịch: đặc trưng tế bào T, cytokine profiling
Phôi thai: lineage tracing qua scRNA-Seq
Microenvironment: spatial transcriptomics trong mô ung thư

Thách thức và hướng nghiên cứu tương lai

Mặc dù transcriptomics đã đạt nhiều thành tựu, vẫn tồn tại các thách thức như độ nhạy thấp với các transcript hiếm, sai sót trong ánh xạ reads chéo gene có vùng trình tự tương tự, và khó khăn trong phân tích dữ liệu đa chiều (multi-omics). Đặc biệt, xử lý batch effect phức tạp trong scRNA-Seq và spatial data cần giải pháp mới.

Xu hướng nghiên cứu tương lai tập trung vào tích hợp multi-omics (genomics, epigenomics, proteomics) và áp dụng trí tuệ nhân tạo để xây dựng mô hình dự đoán chức năng gene và tương tác phân tử. Công nghệ long-read cùng với error correction hứa hẹn cải thiện độ chính xác isoform, trong khi spatial multi-omics sẽ cung cấp cái nhìn toàn diện về tổ chức không gian và chức năng tế bào.

Multi-omics integration: MOFA, iCluster
AI/ML trong phân tích biểu hiện: deep learning, graph neural networks
Long-read error correction: Iso-Seq, CONSORT
Spatial multi-omics: 10x Visium + proteomics

Tài liệu tham khảo

[1] Parker J.S. et al. Supervised risk predictor of breast cancer based on intrinsic subtypes. J Clin Oncol. 2009;27(8):1160–1167.
Anders S., Huber W. Differential expression analysis for sequence count data. Genome Biol. 2010;11(10):R106.
Love M.I., Huber W., Anders S. Moderated estimation of fold change and dispersion for RNA-Seq data with DESeq2. Genome Biol. 2014;15(12):550.
Subramanian A. et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proc Natl Acad Sci USA. 2005;102(43):15545–15550.
Butler A. et al. Integrating single-cell transcriptomic data across different conditions, technologies, and species. Nat Biotechnol. 2018;36(5):411–420.
Ståhl P.L. et al. Visualization and analysis of gene expression in tissue sections by spatial transcriptomics. Science. 2016;353(6294):78–82.
Zappia L., Oshlack A. Clustering trees: a visualization for evaluating clusterings at multiple resolutions. GigaScience. 2018;7(7):giy083.

Các bài báo, nghiên cứu, công bố khoa học về chủ đề transcriptomics:

RNA-Seq: a revolutionary tool for transcriptomics

Nature Reviews Genetics - Tập 10 Số 1 - Trang 57-63 - 2009

Droplet Barcoding for Single-Cell Transcriptomics Applied to Embryonic Stem Cells

Cell - Tập 161 Số 5 - Trang 1187-1201 - 2015

Visualization and analysis of gene expression in tissue sections by spatial transcriptomics

American Association for the Advancement of Science (AAAS) - Tập 353 Số 6294 - Trang 78-82 - 2016

Spatial structure of RNA expression RNA-seq and similar methods can record gene expression within and among cells. Current methods typically lose positional information and many require arduous single-cell isolation and sequencing. Ståhl et al. have developed a way of measuring the spatial distribution of transcripts by annealing fixed brain or cancer tissue samples directly to bar-coded reverse t... hiện toàn bộ

Adult mouse cortical cell taxonomy revealed by single cell transcriptomics

Nature Neuroscience - Tập 19 Số 2 - Trang 335-346 - 2016

Deep generative modeling for single-cell transcriptomics

Nature Methods - Tập 15 Số 12 - Trang 1053-1058 - 2018

Single-cell transcriptomics reveals bimodality in expression and splicing in immune cells

Nature - Tập 498 Số 7453 - Trang 236-240 - 2013

Comprehensive Classification of Retinal Bipolar Neurons by Single-Cell Transcriptomics

Cell - Tập 166 Số 5 - Trang 1308-1323.e30 - 2016

Single-cell transcriptomics of the mouse kidney reveals potential cellular targets of kidney disease

American Association for the Advancement of Science (AAAS) - Tập 360 Số 6390 - Trang 758-763 - 2018

Touring the kidney, cell by cell Our kidneys play a critical role in keeping us healthy, a fact of which we are reminded several times each day. This organ's cellular complexity has hindered progress in understanding the mechanisms underlying chronic kidney disease, which affects 10% of the world's population. Using single-cell transcriptional profiling, Park et al. produced a comprehensive cell a... hiện toàn bộ

Human and mouse single-nucleus transcriptomics reveal TREM2-dependent and TREM2-independent cellular responses in Alzheimer’s disease

Nature Medicine - Tập 26 Số 1 - Trang 131-142 - 2020

Genome Sequencing and Comparative Transcriptomics of the Model Entomopathogenic Fungi Metarhizium anisopliae and M. acridum

PLoS Genetics - Tập 7 Số 1 - Trang e1001264

Tổng số: 1,205

Chủ đề khác

#phương pháp runge kutta

Phương pháp Runge-Kutta là gì? Các bài nghiên cứu khoa học

#chỉnh sửa gen

Chỉnh sửa gen là gì? Các bài nghiên cứu khoa học liên quan

#căng thẳng phẫu thuật

Căng thẳng phẫu thuật là gì? Nghiên cứu khoa học liên quan

#hệ số khuếch tán

Hệ số khuếch tán là gì? Các nghiên cứu về Hệ số khuếch tán

#kháng hóa trị

Kháng hóa trị là gì? Các nghiên cứu khoa học về Kháng hóa trị

#dâu tằm

Dâu tằm là gì? Các bài báo nghiên cứu khoa học liên quan

#thuốc lợi tiểu

Thuốc lợi tiểu là gì? Các nghiên cứu khoa học về Thuốc lợi tiểu

#tro núi lửa

Tro núi lửa là gì? Các nghiên cứu khoa học về Tro núi lửa

#klebsiella pneumoniae

Klebsiella pneumoniae là gì? Nghiên cứu khoa học liên quan

#phân biệt đối xử

Phân biệt đối xử là gì? Các nghiên cứu khoa học về Phân biệt đối xử

Xem thêm

Scholar Hub - Công cụ hỗ trợ trích dẫn và phân tích khoa học Việt Nam

Về chúng tôi

Scholar Hub là công cụ hỗ trợ trích dẫn và phân tích các bài báo, công bố khoa học Việt Nam. Công cụ trợ giúp người nghiên cứu, tạp chí, đơn vị nghiên cứu tra cứu, phân tích và thống kê dữ liệu nghiên cứu khoa học tại Việt Nam và quốc tế.
ScholarHub KHÔNG đăng thông tin tổng hợp, KHÔNG đăng lại nội dung từ các trang báo chí Việt Nam hoặc trang thông tin điện tử khác tại Việt Nam.

Thông tin, cập nhật

Đăng ký Tạp chí tham gia vào Scholar Hub

Phản hồi ý kiến về Scholar Hub

Bài viết, nội dung cập nhật

Chủ đề khoa học

Website liên kết

Hệ thống CSDL Khoa học & Công nghệ

Phần mềm kiểm tra trùng lặp Kiểm Tra Tài Liệu

Phần mềm xuất bản tạp chí điện tử VOJS

Nền tảng trắc nghiệm và đề thi đa lĩnh vực LetQA