Phương pháp xử lý kết hợp trước khi thu thập cung cấp thêm sức mạnh trong việc phát hiện biến đổi số lượng bản sao trong giải trình tự exome

BMC Bioinformatics - Tập 22 Số 1 - 2021
Dayne L. Filer1,2, Fengshen Kuo2, Alicia Brandt1, Christian R. Tilley1, Piotr A. Mieczkowski1, Jonathan S. Berg1, Kimberly Robasky1,2, Yun Li3,1, Chris Bizon2, Jeffery L. Tilson2, Bradford C. Powell1,2, Darius M. Bost1,2, Clark Jeffries2, Kirk C. Wilhelmsen1,2
1Department of Genetics, UNC School of Medicine, Chapel Hill, USA
2Renaissance Computing Institute, Chapel Hill, USA
3Department of Biostatistics, UNC Gillings School of Global Public Health, Chapel Hill, USA

Tóm tắt

Tóm tắt Giới thiệu

Khi việc giải trình tự exome (ES) được tích hợp vào thực hành lâm sàng, chúng ta nên nỗ lực tối đa để sử dụng mọi thông tin được tạo ra. Biến thể số lượng bản sao có thể dẫn đến các rối loạn Mendel, nhưng những biến thể số lượng bản sao nhỏ (CNVs) thường bị bỏ qua hoặc bị che khuất bởi việc thu thập dữ liệu không đủ mạnh. Nhiều nhóm nghiên cứu đã phát triển phương pháp xác định CNVs từ ES, nhưng các phương pháp hiện có thường hoạt động kém đối với các CNV nhỏ và dựa vào số lượng mẫu lớn mà không phải lúc nào cũng có sẵn cho các phòng thí nghiệm lâm sàng. Hơn nữa, các phương pháp thường dựa vào các cách tiếp cận Bayesian yêu cầu người dùng xác định các thông tin trước trong bối cảnh thiếu kiến thức trước. Báo cáo này đầu tiên chứng minh lợi ích của việc thu thập exome multiplex (hợp nhất các mẫu trước khi thu thập), sau đó trình bày một thuật toán phát hiện mới, mcCNV (“biến thể số lượng bản sao thu thập multiplex”), được xây dựng dựa trên việc thu thập multiplex.

Kết quả

Chúng tôi chứng minh: (1) thu thập multiplex giảm độ biến thiên giữa các mẫu; (2) phương pháp mcCNV của chúng tôi, một thuật toán dựa trên độ sâu mới cho việc phát hiện CNVs từ dữ liệu ES thu thập multiplex, cải thiện việc phát hiện các CNV nhỏ. Chúng tôi so sánh cách tiếp cận mới của mình, không phụ thuộc vào thông tin trước, với ExomeDepth thường được sử dụng. Trong một nghiên cứu mô phỏng, mcCNV đã chứng minh tỷ lệ phát hiện sai (FDR) thuận lợi. Khi so sánh với các kết quả từ giải trình tự gen tương ứng, chúng tôi nhận thấy thuật toán mcCNV hoạt động tương đương với ExomeDepth.

Kết luận

Việc triển khai thu thập multiplex tăng khả năng phát hiện CNVs của exon đơn. Thuật toán mcCNV mới có thể cung cấp tỷ lệ phát hiện sai (FDR) thuận lợi hơn so với ExomeDepth. Những lợi ích lớn nhất từ cách tiếp cận của chúng tôi xuất phát từ (1) không yêu cầu một cơ sở dữ liệu mẫu tham chiếu và (2) không yêu cầu thông tin trước về sự phổ biến hoặc kích thước của các biến thể.

Từ khóa


Tài liệu tham khảo

Marchuk DS, Crooks K, Strande N, Kaiser-Rogers K, Milko LV, Brandt A, Arreola A, Tilley CR, Bizon C, Vora NL, Wilhelmsen KC, Evans JP, Berg JS. Increasing the diagnostic yield of exome sequencing by copy number variant analysis. PLoS One. 2018;13(12):0209185. https://doi.org/10.1371/journal.pone.0209185.

Retterer K, Scuffins J, Schmidt D, Lewis R, Pineda-Alvarez D, Stafford A, Schmidt L, Warren S, Gibellini F, Kondakova A, Blair A, Bale S, Matyakhina L, Meck J, Aradhya S, Haverfield E. Assessing copy number from exome sequencing and exome array cgh based on cnv spectrum in a large clinical cohort. Genet Med. 2015;17(8):623–9. https://doi.org/10.1038/gim.2014.160.

Yao R, Zhang C, Yu T, Li N, Hu X, Wang X, Wang J, Shen Y. Evaluation of three read-depth based cnv detection tools using whole-exome sequencing data. Mol Cytogenet. 2017;10:30. https://doi.org/10.1186/s13039-017-0333-5.

Plagnol V, Curtis J, Epstein M, Mok KY, Stebbings E, Grigoriadou S, Wood NW, Hambleton S, Burns SO, Thrasher AJ, Kumararatne D, Doffinger R, Nejentsev S. A robust model for read count data in exome sequencing experiments and implications for copy number variant calling. Bioinformatics. 2012;28(21):2747–54. https://doi.org/10.1093/bioinformatics/bts526.

Krumm N, Sudmant PH, Ko A, O’Roak BJ, Malig M, Coe BP, Quinlan AR, Nickerson DA, Eichler EE. Copy number variation detection and genotyping from exome sequence data. Genome Res. 2012;22(8):1525–32. https://doi.org/10.1101/gr.138115.112.

Fromer M, Moran JL, Chambert K, Banks E, Bergen SE, Ruderfer DM, Handsaker RE, McCarroll SA, O’Donovan MC, Owen MJ, Kirov G, Sullivan PF, Hultman CM, Sklar P, Purcell SM. Discovery and statistical genotyping of copy-number variation from whole-exome sequencing depth. Am J Hum Genet. 2012;91(4):597–607. https://doi.org/10.1016/j.ajhg.2012.08.005.

Jiang Y, Oldridge DA, Diskin SJ, Zhang NR. Codex: a normalization and copy number variation detection method for whole exome sequencing. Nucleic Acids Res. 2015;43(6):39. https://doi.org/10.1093/nar/gku1363.

Truty R, Paul J, Kennemer M, Lincoln SE, Olivares E, Nussbaum RL, Aradhya S. Prevalence and properties of intragenic copy-number variation in mendelian disease genes. Genet Med. 2019;21(1):114–23. https://doi.org/10.1038/s41436-018-0033-5.

Benjamini Y, Speed TP. Summarizing and correcting the gc content bias in high-throughput sequencing. Nucleic Acids Res. 2012;40(10):72. https://doi.org/10.1093/nar/gks001.

Kadalayil L, Rafiq S, Rose-Zerilli MJJ, Pengelly RJ, Parker H, Oscier D, Strefford JC, Tapper WJ, Gibson J, Ennis S, Collins A. Exome sequence read depth methods for identifying copy number changes. Brief Bioinform. 2015;16(3):380–92. https://doi.org/10.1093/bib/bbu027.

Chiang DY, Getz G, Jaffe DB, O’Kelly MJT, Zhao X, Carter SL, Russ C, Nusbaum C, Meyerson M, Lander ES. High-resolution mapping of copy-number alterations with massively parallel sequencing. Nat Methods. 2009;6(1):99–103. https://doi.org/10.1038/nmeth.1276.

Boeva V, Popova T, Bleakley K, Chiche P, Cappo J, Schleiermacher G, Janoueix-Lerosey I, Delattre O, Barillot E. Control-freec: a tool for assessing copy number and allelic content using next-generation sequencing data. Bioinformatics. 2012;28(3):423–5. https://doi.org/10.1093/bioinformatics/btr670.

Yuan X, Bai J, Zhang J, Yang L, Duan J, Li Y, Gao M. Condel: Detecting copy number variation and genotyping deletion zygosity from single tumor samples using sequence data. IEEE/ACM Trans Comput Biol Bioinform. 2020;17(4):1141–53. https://doi.org/10.1109/TCBB.2018.2883333.

Yuan X, Yu J, Xi J, Yang L, Shang J, Li Z, Duan J. Cnv\_iftv: an isolation forest and total variation-based detection of cnvs from short-read sequencing data. IEEE/ACM Trans Comput Biol Bioinform. 2019. https://doi.org/10.1109/TCBB.2019.2920889.

Abyzov A, Urban AE, Snyder M, Gerstein M. Cnvnator: an approach to discover, genotype, and characterize typical and atypical cnvs from family and population genome sequencing. Genome Res. 2011;21(6):974–84. https://doi.org/10.1101/gr.114876.110.

Zhu M, Need AC, Han Y, Ge D, Maia JM, Zhu Q, Heinzen EL, Cirulli ET, Pelak K, He M, Ruzzo EK, Gumbs C, Singh A, Feng S, Shianna KV, Goldstein DB. Using erds to infer copy-number variants in high-coverage genomes. Am J Hum Genet. 2012;91(3):408–21. https://doi.org/10.1016/j.ajhg.2012.07.004.

Shearer AE, Hildebrand MS, Ravi H, Joshi S, Guiffre AC, Novak B, Happe S, LeProust EM, Smith RJH. Pre-capture multiplexing improves efficiency and cost-effectiveness of targeted genomic enrichment. BMC Genomics. 2012;13:618. https://doi.org/10.1186/1471-2164-13-618.

Minka TP. Estimating a dirichlet distribution. Technical report. 2000.

Matthews BW. Comparison of the predicted and observed secondary structure of t4 phage lysozyme. Biochim Biophys Acta. 1975;405(2):442–51.

Trost B, Walker S, Wang Z, Thiruvahindrapuram B, MacDonald JR, Sung WWL, Pereira SL, Whitney J, Chan AJS, Pellecchia G, Reuter MS, Lok S, Yuen RKC, Marshall CR, Merico D, Scherer SW. A comprehensive workflow for read depth-based identification of copy-number variation from whole-genome sequence data. Am J Hum Genet. 2018;102(1):142–55. https://doi.org/10.1016/j.ajhg.2017.12.007.

Ramos E, Levinson BT, Chasnoff S, Hughes A, Young AL, Thornton K, Li A, Vallania FLM, Province M, Druley TE. Population-based rare variant detection via pooled exome or custom hybridization capture with or without individual indexing. BMC Genomics. 2012;13:683. https://doi.org/10.1186/1471-2164-13-683.

Wesolowska A, Dalgaard MD, Borst L, Gautier L, Bak M, Weinhold N, Nielsen BF, Helt LR, Audouze K, Nersting J, Tommerup N, Brunak S, Sicheritz-Ponten T, Leffers H, Schmiegelow K, Gupta R. Cost-effective multiplexing before capture allows screening of 25 000 clinically relevant snps in childhood acute lymphoblastic leukemia. Leukemia. 2011;25(6):1001–6. https://doi.org/10.1038/leu.2011.32.

Neiman M, Sundling S, Grönberg H, Hall P, Czene K, Lindberg J, Klevebring D. Library preparation and multiplex capture for massive parallel sequencing applications made efficient and easy. PLOS ONE. 2012;7(11):1–6. https://doi.org/10.1371/journal.pone.0048616.

Rohland N, Reich D. Cost-effective, high-throughput dna sequencing libraries for multiplexed target capture. Genome Res. 2012;22(5):939–46. https://doi.org/10.1101/gr.128124.111.

Green RC, Goddard KAB, Jarvik GP, Amendola LM, Appelbaum PS, Berg JS, Bernhardt BA, Biesecker LG, Biswas S, Blout CL, Bowling KM, Brothers KB, Burke W, Caga-Anan CF, Chinnaiyan AM, Chung WK, Clayton EW, Cooper GM, East K, Evans JP, Fullerton SM, Garraway LA, Garrett JR, Gray SW, Henderson GE, Hindorff LA, Holm IA, Lewis MH, Hutter CM, Janne PA, Joffe S, Kaufman D, Knoppers BM, Koenig BA, Krantz ID, Manolio TA, McCullough L, McEwen J, McGuire A, Muzny D, Myers RM, Nickerson DA, Ou J, Parsons DW, Petersen GM, Plon SE, Rehm HL, Roberts JS, Robinson D, Salama JS, Scollon S, Sharp RR, Shirts B, Spinner NB, Tabor HK, Tarczy-Hornoch P, Veenstra DL, Wagle N, Weck K, Wilfond BS, Wilhelmsen K, Wolf SM, Wynn J, Yu J-H. Clinical sequencing exploratory research consortium: Accelerating evidence-based practice of genomic medicine. Am J Hum Genet. 2016;98(6):1051–66. https://doi.org/10.1016/j.ajhg.2016.04.011.

Kim K, Seong M-W, Chung W-H, Park SS, Leem S, Park W, Kim J, Lee K, Park RW, Kim N. Effect of next-generation exome sequencing depth for discovery of diagnostic variants. Genomics Inform. 2015;13(2):31–9. https://doi.org/10.5808/GI.2015.13.2.31.

Foreman AKM, Lee K, Evans JP. The NCGENES project: exploring the new world of genome sequencing. N C Med J. 2013;74(6):500–4.

Li H. Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. 2013. arXiv:1303.3997

Koster J, Rahmann S. Snakemake-a scalable bioinformatics workflow engine. Bioinformatics. 2012;28(19):2520–2. https://doi.org/10.1093/bioinformatics/bts480.

Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, Marth G, Abecasis G, Durbin R. The sequence alignment/map format and samtools. Bioinformatics. 2009;25(16):2078–9. https://doi.org/10.1093/bioinformatics/btp352.

Van der Auwera GA, Carneiro MO, Hartl C, Poplin R, Del Angel G, Levy-Moonshine A, Jordan T, Shakir K, Roazen D, Thibault J, Banks E, Garimella KV, Altshuler D, Gabriel S, DePristo MA. From fastq data to high confidence variant calls: the genome analysis toolkit best practices pipeline. Curr Protoc Bioinformatics. 2013;43(1110):11–101111033. https://doi.org/10.1002/0471250953.bi1110s43.

Yu D, Huber W, Vitek O. Shrinkage estimation of dispersion in negative binomial models for rna-seq experiments with small sample size. Bioinformatics. 2013;29(10):1275–82. https://doi.org/10.1093/bioinformatics/btt143.

Benjamini Y, Hochberg Y. Controlling the false discovery rate: a practical and powerful approach to multiple testing. J R Stat Soc Ser B (Methodol). 1995;57(1):289–300. https://doi.org/10.1111/j.2517-6161.1995.tb02031.x.