Suy diễn tần số haplotype tối giản hóa tối đa dựa trên một đại diện phân tán hạn chế chung của DNA được tổng hợp

BMC Bioinformatics - Tập 14 Số 1 - 2013
Guido H. Jajamovich1, Alexandros Iliadis2, Dimitris Anastassiou2, Xiaodong Wang2
1Translational and Molecular Imaging Institute, Icahn School of Medicine at Mount Sinai, New York, USA
2Electrical Engineering Department, Columbia University, New York, USA

Tóm tắt

Tóm tắt Đặt vấn đề Tổng hợp DNA là một phương pháp tiết kiệm chi phí trong các nghiên cứu liên kết toàn bộ bộ gen. Trong tổng hợp DNA, các lượng DNA bằng nhau từ các cá thể khác nhau được trộn thành một mẫu và tần số của mỗi alen ở mỗi vị trí được quan sát trong một thí nghiệm kiểu gen đơn. Việc xác định tần số haplotype từ dữ liệu được tổng hợp bên cạnh phân tích đơn vị locust là một vấn đề riêng trong các nghiên cứu này, vì các haplotype có thể tăng cường sức mạnh thống kê và cung cấp thêm hiểu biết. Kết quả Chúng tôi đã phát triển một phương pháp để ước lượng tần số haplotype tối giản hóa tối đa từ dữ liệu DNA tổng hợp dựa trên đại diện phân tán của các hồ DNA trong một từ điển haplotype. Các mở rộng cho các tình huống khi dữ liệu bị nhiễu hoặc thậm chí thiếu cũng được trình bày. Phương pháp này được áp dụng đầu tiên cho dữ liệu mô phỏng dựa trên các haplotype và tần số liên quan của gen AGT. Chúng tôi cũng đánh giá phương pháp của mình trên các bộ dữ liệu gồm SNP từ 7Mb đầu tiên của quần thể HapMap CEU. Tiếng ồn và thiếu dữ liệu cũng đã được đưa thêm vào các bộ dữ liệu nhằm kiểm tra các mở rộng của phương pháp được đề xuất. Cả HIPPO và HAPLOPOOL cũng đã được áp dụng cho các bộ dữ liệu này để so sánh hiệu suất.

Từ khóa

#DNA tổng hợp #tần số haplotype #phương pháp tối giản hóa tối đa #xét nghiệm kiểu gen #nghiên cứu liên kết toàn bộ bộ gen.

Tài liệu tham khảo

Bansal A, van den Boom D, Kammerer S, Honisch C, Adam G, Cantor CR, Kleyn P, Braun A: Association testing by DNA pooling: an effective initial screen. Proc Nat Acad Sci. 2002, 99 (26): 16871-16874. 10.1073/pnas.262671399.

Barcellos LF, Klitz W, Field LL, Tobias R, Bowcock AM, Wilson R, Nelson MP, Nagatomi J, Thomson G: Association mapping of disease loci, by use of a pooled DNA genomic screen. Am J Hum Genet. 1997, 61 (3): 734-747. 10.1086/515512.

Norton N, Williams M, O’Donovan C, Owen J: DNA pooling as a tool for large-scale association studies in complex traits. Annals Med. 2004, 36 (2): 146-152. 10.1080/07853890310021724.

Pearson JV, Huentelman MJ, Halperin RF, Tembe WD, Melquist S, Homer N, Brun M, Szelinger S, Coon KD, Zismann VL, et al: Identification of the genetic basis for complex disorders by use of pooling-based genomewide single-nucleotide-polymorphism association studies. Am J Human Genet. 2007, 80: 126-139. 10.1086/510686.

Sham P, Bader JS, Craig I, O’Donovan M, Owen M: DNA pooling: a tool for large-scale association studies. Nat Rev Genet. 2002, 3 (11): 862-871.

Zuo Y, Zou G, Zhao H: Two-stage designs in case-control association analysis. Genetics. 2006, 173 (3): 1747-1760. 10.1534/genetics.105.042648.

Kirkpatrick B, Armendariz CS, Karp RM, Halperin E: HAPLOPOOL: improving haplotype frequency estimation through DNA pools and phylogenetic modeling. Bioinformatics. 2007, 23 (22): 3048-3055. 10.1093/bioinformatics/btm435.

Kuk AY, Xu J, Yang Y: A study of the efficiency of pooling in haplotype estimation. Bioinformatics. 2010, 26 (20): 2556-2563. 10.1093/bioinformatics/btq492.

Barratt B, Payne F, Rance H, Nutland S, Todd J, Clayton D: Identification of the sources of error in allele frequency estimations from pooled DNA indicates an optimal experimental design. Annals Hum Genet. 2002, 66 (5-6): 393-405.

Ito T, Chiku S, Inoue E, Tomita M, Morisaki T, Morisaki H, Kamatani N: Estimation of haplotype frequencies, linkage-disequilibrium measures, and combination of haplotype copies in each pool by use of pooled DNA data. Am J Hum Genet. 2003, 72 (2): 384-10.1086/346116.

Wang S, Kidd KK, Zhao H: On the use of DNA pooling to estimate haplotype frequencies. Genet Epidemiol. 2003, 24: 74-82. 10.1002/gepi.10195.

Yang Y, Zhang J, Hoh J, Matsuda F, Xu P, Lathrop M, Ott J: Efficiency of single-nucleotide polymorphism haplotype estimation from pooled DNA. Proc Nat Acad Sci. 2003, 100 (12): 7225-7230. 10.1073/pnas.1237858100.

Zhang H, Yang HC, Yang Y: PoooL: an efficient method for estimating haplotype frequencies from large DNA pools. Bioinformatics. 2008, 24 (17): 1942-1948. 10.1093/bioinformatics/btn324.

Kuk AY, Zhang H, Yang Y: Computationally feasible estimation of haplotype frequencies from pooled DNA with and without Hardy-Weinberg equilibrium. Bioinformatics. 2009, 25 (3): 379-386. 10.1093/bioinformatics/btn623.

Kuk AY, Li X, Xu J: A fast collapsed data method for estimating haplotype frequencies from pooled genotype data with applications to the study of rare variants. Stat Med. 2012, 32 (8): 1343-1360.

Gasbarra D, Kulathinal S, Pirinen M, Sillanpaa MJ: Estimating haplotype frequencies by combining data from large DNA pools with database information. Comput Biol Bioinform IEEE/ACM Trans. 2011, 8: 36-44.

Pirinen M: Estimating population haplotype frequencies from pooled SNP data using incomplete database information. Bioinformatics. 2009, 25 (24): 3296-3302. 10.1093/bioinformatics/btp584.

Kessner D, Turner TL, Novembre J: Maximum Likelihood Estimation of Frequencies of Known Haplotypes from Pooled Sequence Data. Mol Biol Evol. 2013, 30 (5): 1145-1158. 10.1093/molbev/mst016.

Eskin I, Hormozdiari F, Conde L, Riby J, Skibola C, Eskin E, Halperin E: eALPS: estimating abundance levels in pooled sequencing using available genotyping data. Research in Computational Molecular Biology. 2013, Berlin, Germany: Springer Berlin Heidelberg, 32-44.

Amir A, Zuk O: Bacterial community reconstruction using compressed sensing. J Comput Biol. 2011, 18 (11): 1723-1741. 10.1089/cmb.2011.0189.

Wang L, Xu Y: Haplotype inference by maximum parsimony. Bioinformatics. 2003, 19 (14): 1773-1780. 10.1093/bioinformatics/btg239.

Boyd S, Parikh N, Chu E, Peleato B, Eckstein J: Distributed optimization and statistical learning via the alternating direction method of multipliers. Foundations Trends®; Mach Learn. 2011, 3: 1-122.

Niu T, Qin ZS, Xu X, Liu JS: Bayesian haplotype inference for multiple linked single-nucleotide polymorphisms. Am J Hum Genet. 2002, 70: 157-10.1086/338446.