Thuật Toán Siêu Mở Rộng cho Phát Hiện Đoạn Ngắn

Statistics in Biosciences - Tập 13 - Trang 18-33 - 2020
Ning Hao1, Yue Selena Niu1, Feifei Xiao2, Heping Zhang3
1Department of Mathematics, University of Arizona, Tucson, USA
2Department of Epidemiology and Biostatistics, University of South Carolina, Columbia, USA
3Department of Biostatistics, Yale School of Public Health, New Haven, USA

Tóm tắt

Trong nhiều ứng dụng như phát hiện biến thể số bản sao (CNV), mục tiêu là xác định các đoạn ngắn mà tại đó các quan sát có nghĩa hoặc trung vị khác với nền tảng. Những đoạn này thường ngắn và bị ẩn trong một chuỗi dài, do đó rất khó phát hiện. Chúng tôi nghiên cứu một thuật toán phát hiện đoạn ngắn siêu mở rộng (4S) trong bài báo này. Phương pháp phi tham số này phân cụm các vị trí mà tại đó các quan sát vượt quá ngưỡng để phát hiện đoạn. Nó hiệu quả về mặt tính toán và không phụ thuộc vào giả định về nhiễu Gaussian. Hơn nữa, chúng tôi phát triển một khuôn khổ để gán mức độ ý nghĩa cho các đoạn đã phát hiện. Chúng tôi chứng minh các lợi ích của phương pháp đề xuất thông qua các nghiên cứu lý thuyết, mô phỏng và dữ liệu thực tế.

Từ khóa

#thuật toán phát hiện đoạn ngắn #biến thể số bản sao #phân cụm phi tham số #nhiễu Gaussian #các đoạn đã phát hiện

Tài liệu tham khảo

Arias-Castro E, Donoho DL, Huo X (2005) Near-optimal detection of geometric objects by fast multiscale methods. IEEE Trans Inf theory 51(7):2402–2425 Cai TT, Jeng XJ, Li H (2012) Robust detection and identification of sparse segments in ultrahigh dimensional data analysis. J R Stat Soc Ser B (Stat Methodol) 74(5):773–797 Castellani CA, Awamleh Z, Melka MG, O’Reilly RL, Singh SM (2014) Copy number variation distribution in six monozygotic twin pairs discordant for schizophrenia. Twin Res Hum Genet 17(02):108–120 Fanale D, Iovanna JL, Calvo EL, Berthezene P, Belleau P, Dagorn JC, Ancona C, Catania G, D’alia P, Galvano A et al (2013) Analysis of germline gene copy number variants of patients with sporadic pancreatic adenocarcinoma reveals specific variations. Oncology 85(5):306–311 Feuk L, Carson AR, Scherer SW (2006) Structural variation in the human genome. Nat Rev Genet 7(2):85–97 Freeman JL, Perry GH, Feuk L, Redon R, McCarroll SA, Altshuler DM, Aburatani H, Jones KW, Tyler-Smith C, Hurles ME et al (2006) Copy number variation: new insights in genome diversity. Genome Res 16(8):949–961 Frick K, Munk A, Sieling H (2014) Multiscale change point inference. J R Stat Soc Ser B (Stat Methodol) 76(3):495–580 Fryzlewicz P (2014) Wild binary segmentation for multiple change-point detection. Ann Stat 42(6):2243–2281 Hao N, Niu YS, Zhang H (2013) Multiple change-point detection via a screening and ranking algorithm. Stat Sin 23:1553–1572 Jeng XJ, Cai TT, Li H (2010) Optimal sparse segment identification with application in copy number variation analysis. J Am Stat Assoc 105(491):1156–1166 Niu YS, Zhang H (2012) The screening and ranking algorithm to detect DNA copy number variations. Ann Appl Stat 6(3):1306–1326 Niu YS, Hao N, Zhang H (2016) Multiple change-point detection: a selective overview. Stat Sci 31(4):611–623. https://doi.org/10.1214/16-STS587 O’Dushlaine C, Ripke S, Ruderfer DM, Hamilton SP, Fava M, Iosifescu DV, Kohane IS, Churchill SE, Castro VM, Clements CC et al (2014) Rare copy number variation in treatment-resistant major depressive disorder. Biol Psychiatry 76(7):536–541 Olshen AB, Venkatraman E, Lucito R, Wigler M (2004) Circular binary segmentation for the analysis of array-based DNA copy number data. Biostatistics 5(4):557–572 Pinto D, Pagnamenta AT, Klei L, Anney R, Merico D, Regan R, Conroy J, Magalhaes TR, Correia C, Abrahams BS et al (2010) Functional impact of global rare copy number variation in autism spectrum disorders. Nature 466(7304):368–372 Tibshirani R, Wang P (2008) Spatial smoothing and hot spot detection for CGH data using the fused lasso. Biostatistics 9(1):18–29 Wang K, Li M, Hadley D, Liu R, Glessner J, Grant SF, Hakonarson H, Bucan M (2007) PennCNV: an integrated hidden Markov model designed for high-resolution copy number variation detection in whole-genome SNP genotyping data. Genome Res 17(11):1665–1674 Xiao F, Min X, Zhang H (2014) Modified screening and ranking algorithm for copy number variation detection. Bioinformatics 31(9):1341–8