Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Thuật Toán Siêu Mở Rộng cho Phát Hiện Đoạn Ngắn
Tóm tắt
Trong nhiều ứng dụng như phát hiện biến thể số bản sao (CNV), mục tiêu là xác định các đoạn ngắn mà tại đó các quan sát có nghĩa hoặc trung vị khác với nền tảng. Những đoạn này thường ngắn và bị ẩn trong một chuỗi dài, do đó rất khó phát hiện. Chúng tôi nghiên cứu một thuật toán phát hiện đoạn ngắn siêu mở rộng (4S) trong bài báo này. Phương pháp phi tham số này phân cụm các vị trí mà tại đó các quan sát vượt quá ngưỡng để phát hiện đoạn. Nó hiệu quả về mặt tính toán và không phụ thuộc vào giả định về nhiễu Gaussian. Hơn nữa, chúng tôi phát triển một khuôn khổ để gán mức độ ý nghĩa cho các đoạn đã phát hiện. Chúng tôi chứng minh các lợi ích của phương pháp đề xuất thông qua các nghiên cứu lý thuyết, mô phỏng và dữ liệu thực tế.
Từ khóa
#thuật toán phát hiện đoạn ngắn #biến thể số bản sao #phân cụm phi tham số #nhiễu Gaussian #các đoạn đã phát hiệnTài liệu tham khảo
Arias-Castro E, Donoho DL, Huo X (2005) Near-optimal detection of geometric objects by fast multiscale methods. IEEE Trans Inf theory 51(7):2402–2425
Cai TT, Jeng XJ, Li H (2012) Robust detection and identification of sparse segments in ultrahigh dimensional data analysis. J R Stat Soc Ser B (Stat Methodol) 74(5):773–797
Castellani CA, Awamleh Z, Melka MG, O’Reilly RL, Singh SM (2014) Copy number variation distribution in six monozygotic twin pairs discordant for schizophrenia. Twin Res Hum Genet 17(02):108–120
Fanale D, Iovanna JL, Calvo EL, Berthezene P, Belleau P, Dagorn JC, Ancona C, Catania G, D’alia P, Galvano A et al (2013) Analysis of germline gene copy number variants of patients with sporadic pancreatic adenocarcinoma reveals specific variations. Oncology 85(5):306–311
Feuk L, Carson AR, Scherer SW (2006) Structural variation in the human genome. Nat Rev Genet 7(2):85–97
Freeman JL, Perry GH, Feuk L, Redon R, McCarroll SA, Altshuler DM, Aburatani H, Jones KW, Tyler-Smith C, Hurles ME et al (2006) Copy number variation: new insights in genome diversity. Genome Res 16(8):949–961
Frick K, Munk A, Sieling H (2014) Multiscale change point inference. J R Stat Soc Ser B (Stat Methodol) 76(3):495–580
Fryzlewicz P (2014) Wild binary segmentation for multiple change-point detection. Ann Stat 42(6):2243–2281
Hao N, Niu YS, Zhang H (2013) Multiple change-point detection via a screening and ranking algorithm. Stat Sin 23:1553–1572
Jeng XJ, Cai TT, Li H (2010) Optimal sparse segment identification with application in copy number variation analysis. J Am Stat Assoc 105(491):1156–1166
Niu YS, Zhang H (2012) The screening and ranking algorithm to detect DNA copy number variations. Ann Appl Stat 6(3):1306–1326
Niu YS, Hao N, Zhang H (2016) Multiple change-point detection: a selective overview. Stat Sci 31(4):611–623. https://doi.org/10.1214/16-STS587
O’Dushlaine C, Ripke S, Ruderfer DM, Hamilton SP, Fava M, Iosifescu DV, Kohane IS, Churchill SE, Castro VM, Clements CC et al (2014) Rare copy number variation in treatment-resistant major depressive disorder. Biol Psychiatry 76(7):536–541
Olshen AB, Venkatraman E, Lucito R, Wigler M (2004) Circular binary segmentation for the analysis of array-based DNA copy number data. Biostatistics 5(4):557–572
Pinto D, Pagnamenta AT, Klei L, Anney R, Merico D, Regan R, Conroy J, Magalhaes TR, Correia C, Abrahams BS et al (2010) Functional impact of global rare copy number variation in autism spectrum disorders. Nature 466(7304):368–372
Tibshirani R, Wang P (2008) Spatial smoothing and hot spot detection for CGH data using the fused lasso. Biostatistics 9(1):18–29
Wang K, Li M, Hadley D, Liu R, Glessner J, Grant SF, Hakonarson H, Bucan M (2007) PennCNV: an integrated hidden Markov model designed for high-resolution copy number variation detection in whole-genome SNP genotyping data. Genome Res 17(11):1665–1674
Xiao F, Min X, Zhang H (2014) Modified screening and ranking algorithm for copy number variation detection. Bioinformatics 31(9):1341–8