Xác định các biến thể cấu trúc và các biến thể chèn/lỗi trong bộ gen gen bằng cách sử dụng đọc tách biệt

Zhengdong D Zhang1, Jiang Du2, Hugo Lam3, Alex Abyzov1, Alexander E Urban4, Michael Snyder5, Mark Gerstein1,2,3
1Department of Genetics, Albert Einstein College of Medicine, Bronx, USA
2Department of Computer Science, Yale University, New Haven, USA
3Interdepartmental Program in Computational Biology and Bioinformatics, Yale University, New Haven, USA
4Department of Psychiatry and Behavioral Sciences, Stanford University, Stanford, USA
5Department of Genetics, Stanford University, Stanford, USA

Tóm tắt

Các nghiên cứu gần đây đã chứng minh ý nghĩa di truyền của các chèn, mất đoạn và các biến thể cấu trúc (SV) phức tạp hơn trong quần thể người. Với sự phát triển của các công nghệ giải trình tự thế hệ tiếp theo, các khảo sát SV quy mô lớn trên mức độ toàn bộ bộ gen đã trở nên khả thi. Tại đây, chúng tôi trình bày phương pháp xác định đọc tách biệt, chuẩn hóa (SRiC), một phương pháp dựa trên chuỗi để phát hiện SV. Chúng tôi bắt đầu bằng cách ánh xạ mỗi đọc tới bộ gen tham chiếu theo cách chuẩn sử dụng căn chỉnh có khoảng trống. Sau đó, để xác định SV, chúng tôi đánh giá từng ánh xạ ban đầu với một chiến lược đánh giá được thiết kế để tính đến cả lỗi giải trình tự và căn chỉnh (ví dụ: đánh giá cao hơn đối với các sự kiện có khoảng trống ở giữa đọc). Tất cả các phương pháp gọi SV hiện tại đều có nhiều thiên lệch trong sự xác định của chúng do cả giới hạn trong thí nghiệm và tính toán (ví dụ: gọi nhiều mất đoạn hơn là chèn). Một khía cạnh chính trong phương pháp của chúng tôi là chúng tôi chuẩn hóa tất cả các cuộc gọi của mình chống lại các tập dữ liệu tổng hợp được tạo ra từ các mô phỏng giải trình tự quy mô lớn (với các mô hình lỗi thực tế). Điều này cho phép chúng tôi tính toán độ nhạy và giá trị dự đoán dương dưới các kịch bản tham số khác nhau và cho các lớp sự kiện khác nhau (ví dụ: mất đoạn dài so với chèn ngắn). Chúng tôi thực hiện các tính toán của mình trên dữ liệu đại diện từ Dự án 1000 Genomes. Việc kết hợp số lượng sự kiện quan sát được trên nhiễm sắc thể 1 với các chuẩn hóa thu được từ các mô phỏng (đối với các sự kiện có độ dài khác nhau) cho phép chúng tôi xây dựng một ước tính tương đối không thiên lệch cho tổng số SV trong bộ gen người trên một loạt các chiều dài khác nhau. Chúng tôi ước tính rằng một bộ gen cá nhân chứa khoảng 670.000 biến thể chèn/lỗi/SV. So với các phương pháp xác định SV theo chiều sâu đọc và cặp đọc hiện có, phương pháp của chúng tôi có thể xác định chính xác các điểm gãy của sự kiện SV, tiết lộ nội dung chuỗi thực tế của các đoạn chèn và bao phủ toàn bộ phổ kích thước cho các đoạn mất.

Từ khóa

#biến thể cấu trúc #giải trình tự thế hệ tiếp theo #SV #đọc tách biệt #biến thể chèn/lỗi

Tài liệu tham khảo

Campbell PJ, Stephens PJ, Pleasance ED, O'Meara S, Li H, Santarius T, Stebbings LA, Leroy C, Edkins S, Hardy C, et al: Identification of somatically acquired rearrangements in cancer using genome-wide massively parallel paired-end sequencing. Nature genetics. 2008, 40 (6): 722-729. 10.1038/ng.128. Stenson PD, Mort M, Ball EV, Howells K, Phillips AD, Thomas NS, Cooper DN: The Human Gene Mutation Database: 2008 update. Genome Med. 2009, 1 (1): 13-10.1186/gm13. Iafrate AJ, Feuk L, Rivera MN, Listewnik ML, Donahoe PK, Qi Y, Scherer SW, Lee C: Detection of large-scale variation in the human genome. Nat Genet. 2004, 36 (9): 949-951. 10.1038/ng1416. Korbel JO, Urban AE, Affourtit JP, Godwin B, Grubert F, Simons JF, Kim PM, Palejev D, Carriero NJ, Du L, et al: Paired-end mapping reveals extensive structural variation in the human genome. Science. 2007, 318 (5849): 420-426. 10.1126/science.1149504. Redon R, Ishikawa S, Fitch KR, Feuk L, Perry GH, Andrews TD, Fiegler H, Shapero MH, Carson AR, Chen W, et al: Global variation in copy number in the human genome. Nature. 2006, 444 (7118): 444-454. 10.1038/nature05329. Sebat J, Lakshmi B, Troge J, Alexander J, Young J, Lundin P, Maner S, Massa H, Walker M, Chi M, et al: Large-scale copy number polymorphism in the human genome. Science. 2004, 305 (5683): 525-528. 10.1126/science.1098918. Tuzun E, Sharp AJ, Bailey JA, Kaul R, Morrison VA, Pertz LM, Haugen E, Hayden H, Albertson D, Pinkel D, et al: Fine-scale structural variation of the human genome. Nat Genet. 2005, 37 (7): 727-732. 10.1038/ng1562. Perry GH, Ben-Dor A, Tsalenko A, Sampas N, Rodriguez-Revenga L, Tran CW, Scheffer A, Steinfeld I, Tsang P, Yamada NA, et al: The fine-scale and complex architecture of human copy-number variation. Am J Hum Genet. 2008, 82 (3): 685-695. 10.1016/j.ajhg.2007.12.010. Pinkel D, Segraves R, Sudar D, Clark S, Poole I, Kowbel D, Collins C, Kuo WL, Chen C, Zhai Y, et al: High resolution analysis of DNA copy number variation using comparative genomic hybridization to microarrays. Nat Genet. 1998, 20 (2): 207-211. 10.1038/2524. Selzer RR, Richmond TA, Pofahl NJ, Green RD, Eis PS, Nair P, Brothman AR, Stallings RL: Analysis of chromosome breakpoints in neuroblastoma at sub-kilobase resolution using fine-tiling oligonucleotide array CGH. Genes Chromosomes Cancer. 2005, 44 (3): 305-319. 10.1002/gcc.20243. Urban AE, Korbel JO, Selzer R, Richmond T, Hacker A, Popescu GV, Cubells JF, Green R, Emanuel BS, Gerstein MB, et al: High-resolution mapping of DNA copy alterations in human chromosome 22 using high-density tiling oligonucleotide arrays. Proc Natl Acad Sci USA. 2006, 103 (12): 4534-4539. 10.1073/pnas.0511340103. Abyzov A, Urban AE, Snyder M, Gerstein M: CNVnator: An approach to discover, genotype and characterize typical and atypical CNVs from family and population genome sequencing. Genome research. 2011 Wheeler DA, Srinivasan M, Egholm M, Shen Y, Chen L, McGuire A, He W, Chen YJ, Makhijani V, Roth GT, et al: The complete genome of an individual by massively parallel DNA sequencing. Nature. 2008, 452 (7189): 872-876. 10.1038/nature06884. Xie C, Tammi MT: CNV-seq, a new method to detect copy number variation using high-throughput sequencing. BMC Bioinformatics. 2009, 10: 80-10.1186/1471-2105-10-80. Zhang ZD, Gerstein MB: Detection of copy number variation from array intensity and sequencing read depth using a stepwise Bayesian model. BMC Bioinformatics. 2010, 11: 539-10.1186/1471-2105-11-539. Chen J, Kim YC, Jung YC, Xuan Z, Dworkin G, Zhang Y, Zhang MQ, Wang SM: Scanning the human genome at kilobase resolution. Genome Res. 2008, 18 (5): 751-762. 10.1101/gr.068304.107. Kidd JM, Cooper GM, Donahue WF, Hayden HS, Sampas N, Graves T, Hansen N, Teague B, Alkan C, Antonacci F, et al: Mapping and sequencing of structural variation from eight human genomes. Nature. 2008, 453 (7191): 56-64. 10.1038/nature06862. Korbel JO, Abyzov A, Mu XJ, Carriero N, Cayting P, Zhang Z, Snyder M, Gerstein MB: PEMer: a computational framework with simulation-based error models for inferring genomic structural variants from massive paired-end sequencing data. Genome Biol. 2009, 10 (2): R23-10.1186/gb-2009-10-2-r23. Abyzov A, Gerstein M: AGE: defining breakpoints of genomic structural variants at single-nucleotide resolution, through optimal alignments with gap excision. Bioinformatics. 2011, 27 (5): 595-603. 10.1093/bioinformatics/btq713. Chen K, Wallis JW, McLellan MD, Larson DE, Kalicki JM, Pohl CS, McGrath SD, Wendl MC, Zhang Q, Locke DP, et al: BreakDancer: an algorithm for high-resolution mapping of genomic structural variation. Nat Methods. 2009, 6 (9): 677-681. 10.1038/nmeth.1363. Hormozdiari F, Alkan C, Eichler EE, Sahinalp SC: Combinatorial algorithms for structural variation detection in high-throughput sequenced genomes. Genome Res. 2009, 19 (7): 1270-1278. 10.1101/gr.088633.108. Lee S, Hormozdiari F, Alkan C, Brudno M: MoDIL: detecting small indels from clone-end sequencing with mixtures of distributions. Nat Methods. 2009, 6 (7): 473-474. 10.1038/nmeth.f.256. Medvedev P, Stanciu M, Brudno M: Computational methods for discovering structural variation with next-generation sequencing. Nature methods. 2009, 6 (11 Suppl): S13-20. Mills RE, Walter K, Stewart C, Handsaker RE, Chen K, Alkan C, Abyzov A, Yoon SC, Ye K, Cheetham RK, et al: Mapping copy number variation by population-scale genome sequencing. Nature. 2011, 470 (7332): 59-65. 10.1038/nature09708. Ye K, Schulz MH, Long Q, Apweiler R, Ning Z: Pindel: a pattern growth approach to detect break points of large deletions and medium sized insertions from paired-end short reads. Bioinformatics. 2009, 25 (21): 2865-2871. 10.1093/bioinformatics/btp394. Levy S, Sutton G, Ng PC, Feuk L, Halpern AL, Walenz BP, Axelrod N, Huang J, Kirkness EF, Denisov G, et al: The diploid genome sequence of an individual human. PLoS Biol. 2007, 5 (10): e254-10.1371/journal.pbio.0050254. Kent WJ: BLAT--the BLAST-like alignment tool. Genome Res. 2002, 12 (4): 656-664. Li H, Durbin R: Fast and accurate long-read alignment with Burrows-Wheeler transform. Bioinformatics. 2010, 26 (5): 589-595. 10.1093/bioinformatics/btp698. Langmead B, Trapnell C, Pop M, Salzberg SL: Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biol. 2009, 10 (3): R25-10.1186/gb-2009-10-3-r25.