Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Hiệu suất của việc chú thích biến thể số bản sao hiếm trong phân loại tự kỷ
Tóm tắt
Một tỷ lệ đáng kể nguy cơ Rối loạn phổ tự kỷ (ASD) nằm trong sự biến đổi gen di truyền mới phát sinh và biến thể di truyền thừa hiếm. Đặc biệt, biến thể số bản sao hiếm (CNV) đóng góp vào nguy cơ ASD ở tối đa 10% đối tượng ASD. Mặc dù có mức độ biến dị gen nổi bật, các nghiên cứu trường hợp - đối chứng đã phát hiện gánh nặng của các CNV hiếm gây rối cho các con đường phát triển thần kinh và nơron. Ở đây, chúng tôi đã sử dụng các phương pháp học máy để phân loại các đối tượng ASD và các đối chứng, dựa trên dữ liệu CNV hiếm và chú thích gene toàn diện. Chúng tôi đã điều tra hiệu suất của các phương pháp khác nhau và ước lượng tỷ lệ phần trăm của các đối tượng ASD có thể được phân loại đáng tin cậy dựa trên các CNV được cho là có nguyên nhân thuộc về chúng. Chúng tôi đã phân tích 1.892 đối tượng ASD người da trắng và 2.342 đối chứng phù hợp. Các CNV hiếm (tần suất 1% hoặc thấp hơn) đã được phát hiện bằng cách sử dụng Illumina 1M và 1M-Duo BeadChips. Rừng suy diễn có điều kiện (CF) thường hoạt động tốt như hoặc tốt hơn các phương pháp phân loại khác. Chúng tôi tìm thấy AUC tối đa (diện tích dưới đường cong ROC) là 0.533 khi xem xét tất cả các đối tượng ASD với CNV gen hiếm, tương ứng với 7.9% đối tượng ASD được phân loại đúng và ít hơn 3% đối chứng bị phân loại sai; hiệu suất cao hơn đáng kể khi chỉ xem xét các đối tượng mang CNV mới phát sinh hoặc có hại. Chúng tôi cũng phát hiện rằng mất mát hiếm có khả năng dự đoán hơn là tăng lên và rằng các chú thích liên quan đến thần kinh đã được biên soạn (biểu hiện não, thành phần synap và kiểu hình phát triển thần kinh) vượt trội hơn so với Chuyển giao gene và các chú thích dựa trên con đường. CF là một phương pháp phân loại tối ưu cho dữ liệu CNV hiếm theo trường hợp - đối chứng và có thể được sử dụng để ưu tiên các đối tượng có biến thể có khả năng góp phần vào nguy cơ ASD chưa được nhận diện. Các chú thích liên quan đến thần kinh được sử dụng trong nghiên cứu này có thể được áp dụng thành công cho các bộ dữ liệu CNV hiếm theo trường hợp - đối chứng cho các rối loạn tâm thần khác.
Từ khóa
#Rối loạn phổ tự kỷ #biến thể số bản sao hiếm #học máy #phân loại #phân tích genTài liệu tham khảo
Lai MC, Lombardo MV, Baron-Cohen S: Autism. Lancet. 2014, 383 (9920): 896-910. 10.1016/S0140-6736(13)61539-1.
Elsabbagh M, Divan G, Koh YJ, Kim YS, Kauchali S, Marcin C, Montiel-Nava C, Patel V, Paula CS, Wang C, et al: Global prevalence of autism and other pervasive developmental disorders. Autism research: official journal of the International Society for Autism Research. 2012, 5 (3): 160-179. 10.1002/aur.239.
Constantino JN, Todorov A, Hilton C, Law P, Zhang Y, Molloy E, Fitzgerald R, Geschwind D: Autism recurrence in half siblings: strong support for genetic mechanisms of transmission in ASD. Molecular psychiatry. 2013, 18 (2): 137-138. 10.1038/mp.2012.9.
Levy D, Ronemus M, Yamrom B, Lee YH, Leotta A, Kendall J, Marks S, Lakshmi B, Pai D, Ye K, et al: Rare de novo and transmitted copy-number variation in autistic spectrum disorders. Neuron. 2011, 70 (5): 886-897. 10.1016/j.neuron.2011.05.015.
Marshall CR, Noor A, Vincent JB, Lionel AC, Feuk L, Skaug J, Shago M, Moessner R, Pinto D, Ren Y, et al: Structural variation of chromosomes in autism spectrum disorder. American journal of human genetics. 2008, 82 (2): 477-488. 10.1016/j.ajhg.2007.12.009.
Sanders SJ, Ercan-Sencicek AG, Hus V, Luo R, Murtha MT, Moreno-De-Luca D, Chu SH, Moreau MP, Gupta AR, Thomson SA, et al: Multiple recurrent de novo CNVs, including duplications of the 7q11.23 Williams syndrome region, are strongly associated with autism. Neuron. 2011, 70 (5): 863-885. 10.1016/j.neuron.2011.05.002.
Autism Genome Project C, Szatmari P, Paterson AD, Zwaigenbaum L, Roberts W, Brian J, Liu XQ, Vincent JB, Skaug JL, Thompson AP, et al: Mapping autism risk loci using genetic linkage and chromosomal rearrangements. Nature genetics. 2007, 39 (3): 319-328. 10.1038/ng1985.
Pinto D, Pagnamenta AT, Klei L, Anney R, Merico D, Regan R, Conroy J, Magalhaes TR, Correia C, Abrahams BS, et al: Functional impact of global rare copy number variation in autism spectrum disorders. Nature. 2010, 466 (7304): 368-372. 10.1038/nature09146.
Iossifov I, Ronemus M, Levy D, Wang Z, Hakker I, Rosenbaum J, Yamrom B, Lee YH, Narzisi G, Leotta A, et al: De novo gene disruptions in children on the autistic spectrum. Neuron. 2012, 74 (2): 285-299. 10.1016/j.neuron.2012.04.009.
Neale BM, Kou Y, Liu L, Ma'ayan A, Samocha KE, Sabo A, Lin CF, Stevens C, Wang LS, Makarov V, et al: Patterns and rates of exonic de novo mutations in autism spectrum disorders. Nature. 2012, 485 (7397): 242-245. 10.1038/nature11011.
Sanders SJ, Murtha MT, Gupta AR, Murdoch JD, Raubeson MJ, Willsey AJ, Ercan-Sencicek AG, DiLullo NM, Parikshak NN, Stein JL, et al: De novo mutations revealed by whole-exome sequencing are strongly associated with autism. Nature. 2012, 485 (7397): 237-241. 10.1038/nature10945.
O'Roak BJ, Vives L, Girirajan S, Karakoc E, Krumm N, Coe BP, Levy R, Ko A, Lee C, Smith JD, et al: Sporadic autism exomes reveal a highly interconnected protein network of de novo mutations. Nature. 2012, 485 (7397): 246-250. 10.1038/nature10989.
Yu TW, Chahrour MH, Coulter ME, Jiralerspong S, Okamura-Ikeda K, Ataman B, Schmitz-Abe K, Harmin DA, Adli M, Malik AN, et al: Using whole exome sequencing to identify inherited cause of autism. Neuron. 2013, 77: 259-273. 10.1016/j.neuron.2012.11.002.
Jiang YH, Yuen RK, Jin X, Wang M, Chen N, Wu X, Ju J, Mei J, Shi Y, He M: Detection of clinically relevant genetic variants in autism spectrum disorder by whole-genome sequencing. American journal of human genetics. 2013, 93 (2): 249-63. 10.1016/j.ajhg.2013.06.012.
Devlin B, Scherer SW: Genetic architecture in autism spectrum disorder. Current opinion in genetics & development. 2012, 22 (3): 229-237. 10.1016/j.gde.2012.03.002.
Betancur C: Etiological heterogeneity in autism spectrum disorders: more than 100 genetic and genomic disorders and still counting. Brain research. 2011, 1380: 42-77.
Buxbaum JD, Daly MJ, Devlin B, Lehner T, Roeder K, State MW, Autism Sequencing Consortium: The autism sequencing consortium: large-scale, high-throughput sequencing in autism spectrum disorders. Neuron. 2013, 76: 1052-1056.
Kearney HM, Thorland EC, Brown KK, Quintero-Rivera F, South ST, Working Group of the American College of Medical Genetics Laboratory Quality Assurance C: American College of Medical Genetics standards and guidelines for interpretation and reporting of postnatal constitutional copy number variants. Genetics in Medicine : official journal of the American College of Medical Genetics. 2011, 13 (7): 680-685. 10.1097/GIM.0b013e3182217a3a.
Hehir-Kwa JY, Wieskamp N, Webber C, Pfundt R, Brunner HG, Gilissen C, de Vries BB, Ponting CP, Veltman JA: Accurate distinction of pathogenic from benign CNVs in mental retardation. PLoS computational biology. 2010, 6 (4): e1000752-10.1371/journal.pcbi.1000752.
Breiman L: Random Forest. Machine Learning Journal. 2001, 45: 5-32. 10.1023/A:1010933404324.
Breiman L, Friedman JH, Olshen RA, Stone CJ: Classification and regression trees. 1984, Belmont, California: Wadsworth
Strobl C, Boulesteix AL, Zeileis A, Hothorn T: Bias in random forest variable importance measures: illustrations, sources and a solution. BMC bioinformatics. 2007, 8: 25-10.1186/1471-2105-8-25.
Hothorn T, Hornik K, Zeileisa A: Unbiased Recursive Partitioning: A Conditional Inference Framework. Journal of Computational and Graphical Statistics. 2006, 15: 651-671. 10.1198/106186006X133933.
Burges CJ: A Tutorial on Support vector Machines for Pattern Recognition. Data Mining and Knowledge Discovery. 1998, 2 (2): 121-167. 10.1023/A:1009715923555.
Haykin S: Neural Networks and Learning Machines. 2008, Prentice Hall, 3
Lord C, Rutter M, Goode S, Heemsbergen J, Jordan H, Mawhood L, Schopler E: Autism diagnostic observation schedule: a standardized observation of communicative and social behavior. Journal of autism and developmental disorders. 1989, 19 (2): 185-212. 10.1007/BF02211841.
Lord C, Rutter M, Le Couteur A: Autism Diagnostic Interview-Revised: a revised version of a diagnostic interview for caregivers of individuals with possible pervasive developmental disorders. Journal of autism and developmental disorders. 1994, 24 (5): 659-685. 10.1007/BF02172145.
Bierut LJ, Agrawal A, Bucholz KK, Doheny KF, Laurie C, Pugh E, Fisher S, Fox L, Howells W, Bertelsen S, et al: A genome-wide association study of alcohol dependence. Proceedings of the National Academy of Sciences of the United States of America. 2010, 107 (11): 5082-5087. 10.1073/pnas.0911109107.
Figueiredo JC, Lewinger JP, Song C, Campbell PT, Conti DV, Edlund CK, Duggan DJ, Rangrej J, Lemire M, Hudson T, et al: Genotype-environment interactions in microsatellite stable/microsatellite instability-low colorectal cancer: results from a genome-wide association study. Cancer epidemiology, biomarkers & prevention : a publication of the American Association for Cancer Research, cosponsored by the American Society of Preventive Oncology. 2011, 20 (5): 758-766. 10.1158/1055-9965.EPI-10-0675.
Newcomb PA, Baron J, Cotterchio M, Gallinger S, Grove J, Haile R, Hall D, Hopper JL, Jass J, Le Marchand L, et al: Colon Cancer Family Registry: an international resource for studies of the genetic epidemiology of colon cancer. Cancer epidemiology, biomarkers & prevention : a publication of the American Association for Cancer Research, cosponsored by the American Society of Preventive Oncology. 2007, 16 (11): 2331-2343. 10.1158/1055-9965.EPI-07-0648.
Fox CS, Liu Y, White CC, Feitosa M, Smith AV, Heard-Costa N, Lohman K, Consortium G, Consortium M, Consortium G, et al: Genome-wide association for abdominal subcutaneous and visceral adipose reveals a novel locus for visceral fat in women. PLoS genetics. 2012, 8 (5): e1002695-10.1371/journal.pgen.1002695.
Pinto D, Delaby E, Merico D, Barbosa M, Merikangas A, Klei L, Thiruvahindrapuram B, Xu X, Ziman R, Wang Z: Convergence of genes and cellular pathways dysregulated in autism spectrum disorders. American journal of human genetics. 2014, 94 (5): 677-694. 10.1016/j.ajhg.2014.03.018.
Pinto D, Darvishi K, Shi X, Rajan D, Rigler D, Fitzgerald T, Lionel AC, Thiruvahindrapuram B, Macdonald JR, Mills R, et al: Comprehensive assessment of array-based platforms and calling algorithms for detection of copy number variants. Nature biotechnology. 2011, 29 (6): 512-520. 10.1038/nbt.1852.
Huang N, Lee I, Marcotte EM, Hurles ME: Characterising and predicting haploinsufficiency in the human genome. PLoS genetics. 2010, 6 (10): e1001154-10.1371/journal.pgen.1001154.
BrainSpan: Atlas of the Developing Human Brain. [http://developinghumanbrain.org]
Su AI, Wiltshire T, Batalov S, Lapp H, Ching KA, Block D, Zhang J, Soden R, Hayakawa M, Kreiman G, et al: A gene atlas of the mouse and human protein-encoding transcriptomes. Proceedings of the National Academy of Sciences of the United States of America. 2004, 101 (16): 6062-6067. 10.1073/pnas.0400782101.
Bayes A, van de Lagemaat LN, Collins MO, Croning MD, Whittle IR, Choudhary JS, Grant SG: Characterization of the proteome, diseases and evolution of the human postsynaptic density. Nature neuroscience. 2011, 14 (1): 19-21. 10.1038/nn.2719.
Darnell JC, Van Driesche SJ, Zhang C, Hung KY, Mele A, Fraser CE, Stone EF, Chen C, Fak JJ, Chi SW, et al: FMRP stalls ribosomal translocation on mRNAs linked to synaptic function and autism. Cell. 2011, 146 (2): 247-261. 10.1016/j.cell.2011.06.013.
Ascano M, Mukherjee N, Bandaru P, Miller JB, Nusbaum JD, Corcoran DL, Langlois C, Munschauer M, Dewell S, Hafner M, et al: FMRP targets distinct mRNA sequence elements to regulate protein expression. Nature. 2012, 492 (7429): 382-386. 10.1038/nature11737.
Kohler S, Doelken SC, Mungall CJ, Bauer S, Firth HV, Bailleul-Forestier I, Black GC, Brown DL, Brudno M, Campbell J, et al: The Human Phenotype Ontology project: linking molecular biology and disease through phenotype data. Nucleic acids research. 2014, 42 (Database issue): D966-974.
Blake JA, Bult CJ, Eppig JT, Kadin JA, Richardson JE, Mouse Genome Database G: The Mouse Genome Database: integration of and access to knowledge about the laboratory mouse. Nucleic acids research. 2014, 42 (Database issue): D810-817.
Ashburner M, Ball CA, Blake JA, Botstein D, Butler H, Cherry JM, Davis AP, Dolinski K, Dwight SS, Eppig JT, et al: Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nature genetics. 2000, 25 (1): 25-29. 10.1038/75556.
Refaeilzadeh P, Tang L, Liu H: Cross-validation. Encyclopedia of Database Systems. 2009, 532-538.
Liaw A, Wiener M: Classification and Regression by randomForest. R News. 2002, 2 (3): 18-22.
Hothorn T, Hornik K, Zeileis A: party: A Laboratory for Recursive Partytioning. CRAN. 2013
Chang CC, Lin CJ: LIBSVM: a library for support vector machines. ACM Transactions on Intelligent Systems and Technology. 2011, 2: 27:21-27:27.
Peng H, Long F, Ding C: Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy. IEEE transactions on pattern analysis and machine intelligence. 2005, 27 (8): 1226-1238.
Croft D, O'Kelly G, Wu G, Haw R, Gillespie M, Matthews L, Caudy M, Garapati P, Gopinath G, Jassal B, et al: Reactome: a database of reactions, pathways and biological processes. Nucleic acids research. 2011, 39 (Database issue): D691-697.
Kanehisa M, Goto S: KEGG: kyoto encyclopedia of genes and genomes. Nucleic acids research. 2000, 28 (1): 27-30. 10.1093/nar/28.1.27.
Kanehisa M, Goto S, Sato Y, Kawashima M, Furumichi M, Tanabe M: Data, information, knowledge and principle: back to metabolism in KEGG. Nucleic acids research. 2014, 42 (Database issue): D199-205.
Milacic M, Haw R, Rothfels K, Wu G, Croft D, Hermjakob H, D'Eustachio P, Stein L: Annotating cancer variants and anti-cancer therapeutics in reactome. Cancers. 2012, 4 (4): 1180-1211. 10.3390/cancers4041180.
Schaefer CF, Anthony K, Krupa S, Buchoff J, Day M, Hannay T, Buetow KH: PID: the Pathway Interaction Database. Nucleic acids research. 2009, 37 (Database issue): D674-679.
Nishimura D: BioCarta. Biotech Software & Internet Report. 2001, 2: 117-120. 10.1089/152791601750294344.
Webber C, Hehir-Kwa JY, Nguyen DQ, de Vries BB, Veltman JA, Ponting CP: Forging links between human mental retardation-associated CNVs and mouse gene knockout models. PLoS genetics. 2009, 5 (6): e1000531-10.1371/journal.pgen.1000531.
Shaikh TH, Haldeman-Englert C, Geiger EA, Ponting CP, Webber C: Genes and biological processes commonly disrupted in rare and heterogeneous developmental delay syndromes. Human molecular genetics. 2011, 20 (5): 880-93. 10.1093/hmg/ddq527.
Kirov G, Pocklington AJ, Holmans P, Ivanov D, Ikeda M, Ruderfer D, Moran J, Chambert K, Toncheva D, Georgieva L, et al: De novo CNV analysis implicates specific abnormalities of postsynaptic signalling complexes in the pathogenesis of schizophrenia. Molecular psychiatry. 2012, 17 (2): 142-53. 10.1038/mp.2011.154.
Purcell SM, Moran JL, Fromer M, Ruderfer D, Solovieff N, Roussos P, O'Dushlaine C, Chambert K, Bergen SE, Kähler A: A polygenic burden of rare disruptive mutations in schizophrenia. Nature. 2014, 506 (7487): 185-90. 10.1038/nature12975.
Petrovski S, Wang Q, Heinzen EL, Allen AS, Goldstein DB: Genic intolerance to functional variation and the interpretation of personal genomes. PLoS genetics. 2013, 9 (8): e1003709-10.1371/journal.pgen.1003709.
Oti M, Snel B, Huynen MA, Brunner HG: Predicting disease genes using protein-protein interactions. Journal of medical genetics. 2006, 43 (8): 691-698. 10.1136/jmg.2006.041376.
Walker S, Scherer SW: Identification of candidate intergenic risk loci in autism spectrum disorder. BMC genomics. 2013, 14: 499-10.1186/1471-2164-14-499.
