Genotyping là gì? Các bài báo nghiên cứu khoa học liên quan
Genotyping là phương pháp xác định biến thể di truyền của cá thể dựa trên phân tích DNA, từ SNP đến CNV, giúp giải mã cơ chế di truyền. Kết quả genotyping lưu dưới định dạng VCF cho phép phân tích tần suất alen, tính liên kết di truyền, hỗ trợ chẩn đoán y học cá thể hóa.
Giới thiệu
Genotyping là quá trình xác định biến thể di truyền (genotype) của một cá thể hoặc quần thể dựa trên phân tích DNA. Kết quả genotyping cung cấp thông tin về alen (allele) tại các locus nhất định—từ một vị trí đơn nucleotide (SNP) đến biến thể số bản sao (CNV)—giúp hiểu cơ chế di truyền, nguy cơ bệnh lý và đặc tính di truyền trong nông nghiệp, y học và nghiên cứu sinh học.
Phương pháp genotyping đã phát triển từ kỹ thuật PCR đơn giản đến các nền tảng số lượng cao như SNP array và giải trình tự thế hệ mới (NGS), cho phép quét hàng triệu biến thể cùng lúc. Điều này mở rộng quy mô phân tích từ vài mẫu lẻ đến hàng ngàn mẫu trong dự án quy mô lớn như Dự án 1000 Genomes (1000 Genomes Project).
Genotyping đóng vai trò then chốt trong nghiên cứu liên kết di truyền (GWAS), chẩn đoán y học cá thể (pharmacogenomics), chọn giống nông nghiệp (marker-assisted selection) và theo dõi đa dạng sinh học. Năng lực xác định genotype chính xác giúp phát hiện alen nguy cơ bệnh tim mạch, ung thư, đồng thời hỗ trợ phát triển thuốc cá thể hóa và cải thiện giống cây trồng kháng sâu bệnh.
Định nghĩa
Genotype là tập hợp các alen cụ thể của một cá thể tại một hoặc nhiều locus trên genome. Genotyping xác định liệu một locus mang alen tham chiếu (reference), alen biến đổi (alternate) hay cả hai—ví dụ A/A, A/G hoặc G/G tại vị trí SNP.
Kết quả genotyping thường lưu trữ theo định dạng VCF (Variant Call Format), bao gồm thông tin về vị trí, kiểu biến thể, alen tham chiếu và alen biến đổi, cùng chú thích độ tin cậy và tần suất alen trong quần thể. Phân tích VCF cho phép tính toán tần suất alen, đánh giá Hardy–Weinberg equilibrium và so sánh biến thể giữa các nhóm bệnh – đối chứng.
Genotyping không chỉ xác định alen đơn lẻ mà còn có thể bao gồm phân tích haplotype—tập hợp alen liên kết di truyền trên cùng một nhiễm sắc thể. Haplotyping hỗ trợ giải mã cấu trúc quần thể và định hướng nghiên cứu vùng gen liên quan bệnh lý phức tạp.
Phương pháp genotyping
- PCR-based assays:
- ARMS-PCR (Amplification Refractory Mutation System) sử dụng primer đặc hiệu để khuếch đại alen riêng biệt, cho kết quả nhanh với chi phí thấp.
- RFLP (Restriction Fragment Length Polymorphism) dựa trên sự cắt DNA bởi enzyme giới hạn, phân tích điện di gel để phát hiện biến thể.
- TaqMan SNP Genotyping Assay dùng probe fluorescent, cho phép định lượng alen theo tín hiệu quang học trên real-time PCR (Thermo Fisher TaqMan).
- SNP microarrays:
- Illumina Infinium BeadChip chứa hàng trăm nghìn đến triệu probe SNP, đọc quang học để xác định alen với độ chính xác >99,9% (Illumina).
- Affymetrix Axiom Array sử dụng chip silicon, hỗ trợ tuỳ biến panel SNP đặc hiệu cho quần thể hoặc loài nghiên cứu.
- Sequencing-based genotyping:
- Genotyping-by-Sequencing (GBS) cắt ngẫu nhiên DNA bằng enzyme hạn chế, gắn barcode mẫu, giải trình tự NGS để phát hiện SNP trên toàn genome.
- Targeted sequencing (amplicon hoặc capture-based) tập trung vào các vùng ứng viên, cho phép độ sâu đọc cao (>100×) và phát hiện alen hiếm.
- Whole-genome sequencing (WGS) cung cấp thông tin đầy đủ biến thể SNP, indel và CNV trên toàn genome.
Nền tảng công nghệ
Các nền tảng genotyping khác nhau cân bằng giữa khối lượng locus, chi phí và độ phức tạp:
Công nghệ | Số locus | Độ chính xác | Chi phí/mẫu |
---|---|---|---|
PCR-based | 1–100 | 98–99% | Thấp |
SNP Array | 100k–1M | >99,9% | Trung bình |
GBS | 50k–500k | 95–99% | Thấp–Trung bình |
Targeted NGS | 1k–100k | >99% | Trung bình–Cao |
WGS | Toàn genome | >99% | Cao |
Chi phí genotyping đã giảm đáng kể: PCR-based assays vài đô la, SNP arrays khoảng 50–100 USD, GBS và targeted NGS 100–300 USD, WGS >1.000 USD/mẫu (giảm theo tốc độ phát triển công nghệ).
Ứng dụng trong y học
Genotyping hỗ trợ chẩn đoán bệnh di truyền đơn gen như xơ nang (CFTR), β-thalassemia (HBB) và hội chứng Lynch (MLH1, MSH2). Xác định sớm biến thể gây bệnh giúp lựa chọn biện pháp điều trị và tư vấn di truyền kịp thời (NCBI Bookshelf).
Trong dược động học cá thể (pharmacogenomics), genotyping gen CYP450 (CYP2D6, CYP2C19) định hướng điều chỉnh liều và tránh tác dụng phụ. Chẳng hạn, alen CYP2C19*2 ảnh hưởng chuyển hóa clopidogrel, genotyping giúp quyết định liệu pháp kháng kết tập tiểu cầu (FDA PGx Table).
- Genotyping HLA-B*57:01 để phòng tránh phản ứng dị ứng với abacavir.
- Xác định BRCA1/BRCA2 liên quan nguy cơ ung thư vú, buồng trứng.
- Panel đa gen cho ung thư đại trực tràng: KRAS, NRAS, BRAF.
Ứng dụng trong nông nghiệp và bảo tồn
Trong chọn giống cây trồng, genotyping marker-assisted selection (MAS) rút ngắn thời gian lai tạo bằng cách lựa alen kháng sâu bệnh, chịu hạn và năng suất cao. Ví dụ, SNP marker cho gen Xa21 kháng bệnh tuyến trùng ở lúa (IRRI).
Vật nuôi cũng áp dụng genotyping để cải thiện sinh sản và chất lượng sản phẩm: genotyping DGAT1 liên quan hàm lượng chất béo trong sữa bò, PRNP liên quan bệnh Creutzfeldt–Jakob ở gia súc (Frontiers in Genetics).
- Genotyping eDNA để khảo sát đa dạng loài thủy sinh.
- Giám sát nguồn gốc gen thực phẩm – thịt, cá qua panel SNP định danh giống.
- Ứng dụng CRISPR gắn tag genotyping in situ cho đánh giá biểu hiện gene.
Phân tích dữ liệu và phần mềm
Dữ liệu genotyping lớn thường lưu dạng VCF, phân tích bằng các công cụ chuyên biệt:
- GATK: gọi biến thể và genotyping từ dữ liệu NGS (GATK).
- PLINK: phân tích SNP array, tính liên kết (LD), cấu trúc quần thể và GWAS (PLINK).
- VCFtools: lọc, chuyển đổi và thống kê thông tin VCF.
- Beagle / IMPUTE2: imputation genotyping, dự đoán alen chưa được gọi dựa trên haplotype reference.
Quy trình điển hình:
- Kiểm tra chất lượng reads (FastQC).
- Căn chỉnh lên genome tham chiếu (BWA, Bowtie2).
- Gọi biến thể và genotyping (GATK HaplotypeCaller).
- Lọc biến thể (VQSR, hard-filter).
- Phân tích liên kết di truyền và GWAS (PLINK).
Kiểm soát chất lượng và xác thực
Độ tin cậy genotyping phụ thuộc vào chất lượng dữ liệu đầu vào và quy trình gọi biến thể. Các chỉ số QC gồm:
- Độ sâu đọc trung bình (mean depth, DP).
- Tỉ lệ alen cân bằng (allele balance, AB).
- Chất lượng điểm biến thể (QUAL, GQ).
Xác thực genotyping bằng Sanger sequencing hoặc TaqMan assay trên mẫu phụ kiểm chuẩn. So sánh với reference panel như 1000 Genomes để đánh giá độ đồng nhất tần suất alen và Hardy–Weinberg equilibrium.
Xu hướng tương lai
Genotyping single-cell nâng cao khả năng phát hiện mosaicism và biến thể trong mỗi tế bào, quan trọng trong nghiên cứu ung thư và phát triển bào mô (Nature Reviews Genetics).
Long-read sequencing (PacBio, Oxford Nanopore) cho phép genotyping biến thể cấu trúc phức tạp và haplotype đầy đủ, vượt giới hạn của SNP array và short-read NGS.
- Ứng dụng machine learning để cải thiện imputation và gọi biến thể trên dữ liệu low-pass sequencing.
- Mô hình genotyping-informatic trên nền cloud và docker để dễ dàng chia sẻ và tái lập.
- Genotyping kết hợp multi-omics (methylation, expression) cho nghiên cứu chức năng gene.
Tài liệu tham khảo
- 1000 Genomes Project Consortium. (2015). “A global reference for human genetic variation,” Nature, 526(7571), 68–74.
- McKenna A., et al. (2010). “The Genome Analysis Toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data,” Genome Research, 20(9), 1297–1303.
- Purcell S., et al. (2007). “PLINK: a tool set for whole-genome association and population-based linkage analyses,” American Journal of Human Genetics, 81(3), 559–575.
- Illumina. “Infinium Genotyping Workflow,” Illumina Technical Resources.
- Thermo Fisher Scientific. “TaqMan SNP Genotyping Assays,” Thermo Fisher.
Các bài báo, nghiên cứu, công bố khoa học về chủ đề genotyping:
- 1
- 2
- 3
- 4
- 5
- 6
- 10