Một cách tiếp cận dựa trên dữ liệu để tiền xử lý dữ liệu trên mảng methylation Illumina 450K

Ruth Pidsley1, Chloe Wong1, Manuela Volta1, Katie Lunnon1, Jonathan Mill1, Leonard C. Schalkwyk1
1Social, Genetic and Developmental Psychiatry,Institute of Psychiatry, King's College London, De Crespigny Park, London, UK

Tóm tắt

Tóm tắt Đặt vấn đề

Như là dấu ấn epigenetic ổn định và có thể truy cập nhất trong thực nghiệm, DNA methylation thu hút sự quan tâm lớn từ cộng đồng nghiên cứu. Cảnh quan của DNA methylation qua các mô, trong quá trình phát triển và trong sinh bệnh học bệnh tật vẫn chưa được đặc trưng rõ ràng. Do đó, có nhu cầu về các phương pháp nhanh chóng và tiết kiệm chi phí để đánh giá mức độ DNA methylation trên toàn bộ bộ gen. Mảng BeadChip Illumina Infinium HumanMethylation450 (450K) là một bổ sung rất hữu ích cho các phương pháp hiện có để phân tích DNA methylation nhưng thiết kế phức tạp của nó, bao gồm hai phương pháp kiểm tra khác nhau, yêu cầu phải xem xét cẩn thận. Do đó, một số chế độ điều chỉnh đã được công bố. Chúng tôi đã tận dụng các mẫu DNA methylation đã biết liên quan đến đánh dấu gen và sự bất hoạt của nhiễm sắc thể X (XCI), bên cạnh hiệu suất của các thử nghiệm genotyping SNP hiện có trên mảng, để phát triển ba chỉ số độc lập mà chúng tôi sử dụng để thử nghiệm các phương án điều chỉnh và chuẩn hóa thay thế. Những chỉ số này cũng có khả năng ứng dụng như các điểm chất lượng cho các tập dữ liệu.

Kết quả

Chỉ số tiêu chuẩn của DNA methylation tại bất kỳ vị trí CpG cụ thể nào là β = M/(M + U + 100) trong đó M và U lần lượt là cường độ tín hiệu methylated và unmethylated. Các giá trị Beta (β) được tính toán từ cường độ tín hiệu thô (hành vi mặc định của GenomeStudio) hoạt động tốt, nhưng sử dụng 11 tập dữ liệu methylomic, chúng tôi chứng minh rằng các phương pháp chuẩn hóa phân vị tạo ra sự cải thiện đáng kể, ngay cả trong dữ liệu rất đồng nhất, thông qua cả ba chỉ số. Quy trình thường sử dụng để chuẩn hóa betas thì kém hơn so với việc chuẩn hóa riêng lẻ M và U, và cũng có lợi khi tương ứng chuẩn hóa các loại kiểm tra Type I và Type II. Việc thao tác phức tạp hơn với các phân vị chứng minh là không hiệu quả.

Kết luận

Việc lựa chọn cẩn thận các bước tiền xử lý có thể giảm thiểu độ biến thiên và do đó cải thiện sức mạnh thống kê, đặc biệt đối với việc phát hiện các thay đổi DNA methylation tuyệt đối nhỏ có thể liên quan đến các kiểu hình bệnh phức tạp. Vì sự thuận tiện của cộng đồng nghiên cứu, chúng tôi đã tạo ra một gói phần mềm R thân thiện với người dùng có tên là wateRmelon, có thể tải xuống từ bioConductor, tương thích với các gói methylumi, minfi và IMA hiện có, cho phép những người khác sử dụng cùng các phương pháp chuẩn hóa và kiểm tra chất lượng dữ liệu trên dữ liệu 450K.

Từ khóa


Tài liệu tham khảo

Bibikova M, Le J, Barnes B: Genome-wide DNA methylation profiling using Infinium assay. Epigenomics. 2009, 1: 177-200. 10.2217/epi.09.14. [http://www.ingentaconnect.com/content/fm/epi/2009/00000001/00000001/art00019]

Bibikova M, Barnes B, Tsan C, Ho V, Klotzle B, Le JM, Delano D, Zhang L, Schroth GP, Gunderson KL, Fan JB, Shen R: High density DNA methylation array with single CpG site resolution. Genomics. 2011, 98 (4): 288-295. 10.1016/j.ygeno.2011.07.007. [http://www.ncbi.nlm.nih.gov/pubmed/21839163]

Sandoval J, Heyn Ha, Moran S, Serra-Musach J, Pujana MA, Bibikova M, Esteller M: Validation of a DNA methylation microarray for 450,000 CpG sites in the human genome. Epigenetics. 2011, 6 (6): 692-702. 10.4161/epi.6.6.16196. [http://www.landesbioscience.com/journals/epigenetics/article/16196/]

Du P, Zhang X, Huang CC, Jafari N, Kibbe WA, Hou L, Lin SM: Comparison of Beta-value and M-value methods for quantifying methylation levels by microarray analysis. BMC Bioinformatics. 2010, 11: 587-10.1186/1471-2105-11-587.

Dedeurwaerder S, Defrance M, Calonne E, Sotiriou C, Fuks F: Evaluation of the Infinium Methylation 450K technology. Epigenetics. 2011, 3 (6): 771-784.

Maksimovic J, Gordon L, Oshlack A: SWAN: Subset quantile within-array normalization for Illumina Infinium HumanMethylation450 BeadChips. Genome Biol. 2012, 13 (6): R44-10.1186/gb-2012-13-6-r44. [http://www.ncbi.nlm.nih.gov/pubmed/22703947]

Touleimat N, Tost J: Complete pipeline for Infinium ®, Human Methylation 450K BeadChip data processing using subset quantile normalization for accurate DNA methylation estimation. Epigenomics. 2012, 4: 325-341. 10.2217/epi.12.21. [http://www.futuremedicine.com/doi/abs/10.2217/epi.12.21]

Carén H, Djos A, Nethander M, Sjöberg RM, Kogner P, Enström C, Nilsson S, Martinsson T: Identification of epigenetically regulated genes that predict patient outcome in neuroblastoma. BMC Cancer. 2011, 11: 66-10.1186/1471-2407-11-66. [http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=3045360&tool=pmcentrez&rendertype=abstract]

Dempster EL, Pidsley R, Schalkwyk LC, Owens S, Georgiades A, Kane F, Kalidindi S, Picchioni M, Kravariti E, Toulopoulou T, Murray RM, Mill J: Disease-associated epigenetic changes in monozygotic twins discordant for schizophrenia and bipolar disorder. Human Mol Genet. 2011, 20 (24): 4786-4796. 10.1093/hmg/ddr416.

Kinoshita M, Numata S, Tajima A, Shimodera S, Ono S, Imamura A, Iga JI, Watanabe S, Kikuchi K, Kubo H, Nakataki M, Sumitani S, Imoto I, Okazaki Y, Ohmori T: DNA methylation signatures of peripheral leukocytes in Schizophrenia. Neuromolecular Med. 2012, [http://www.ncbi.nlm.nih.gov/pubmed/22961555]

Rakyan VK, Beyan H, Down Ta, Hawa MI, Maslau S, Aden D, Daunay A, Busato F, Mein Ca, Manfras B, Dias KRM, Bell CG, Tost J, Boehm BO, Beck S, Leslie RD: Identification of type 1 diabetes-associated DNA methylation variable positions that precede disease diagnosis. PLoS Genet. 2011, 7 (9): e1002300-10.1371/journal.pgen.1002300. [http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=3183089&tool=pmcentrez&rendertype=abstract]

Sun Z, Chai HS, Wu Y, White WM, Donkena KV, Klein CJ, Garovic VD, Therneau TM, Kocher JPa: Batch effect correction for genome-wide methylation data with Illumina Infinium platform. BMC Med Genomics. 2011, 4: 84-10.1186/1755-8794-4-84. [http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=3265417&tool=pmcentrez&rendertype=abstract]

Irizarry Ra, Hobbs B, Collin F, Beazer-Barclay YD, Antonellis KJ, Scherf U, Speed TP: Exploration, normalization, and summaries of high density oligonucleotide array probe level data. Biostatistics (Oxford, England). 2003, 4 (2): 249-264. 10.1093/biostatistics/4.2.249. [http://www.ncbi.nlm.nih.gov/pubmed/12925520]

Roessler J, Ammerpohl O, Gutwein J, Hasemeier B, Anwar SL, Kreipe H, Lehmann U: Quantitative cross-validation and content analysis of the 450k DNA methylation array from Illumina, Inc. BMC Res Notes. 2012, 5: 210-10.1186/1756-0500-5-210. [http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=3420245&tool=pmcentrez&rendertype=abstract]

Schulz R, Woodfine K, Menheniott TR, Bourc’his D, Bestor T, Oakey RJ: WAMIDEX: a web atlas of murine genomic imprinting and differential expression. Epigenetics. 2008, 3 (2): 89-96. 10.4161/epi.3.2.5900. [http://www.landesbioscience.com/journals/epi/article/5900/]

Schulz R: Wamidex, accessed 26 Jan2012. [https://atlas.genetics.kcl.ac.uk/]

Chen Ya, Choufani S, Ferreira JC, Grafodatskaya D, Butcher DT, Weksberg R: Sequence overlap between autosomal and sex-linked probes on the Illumina HumanMethylation27 microarray. Genomics. 2011, 97 (4): 214-222. 10.1016/j.ygeno.2010.12.004. [http://www.ncbi.nlm.nih.gov/pubmed/21211562]

Davis S, Du P, Bilke S, Triche JrT, Bootwalla M: Methylumi: Handle Illumina Methylation Data. 2012, R package version 2.2.0, .

Hansen KD, Aryee M: Minfi: Analyze Illumina’s 450k Methylation Arrays. R package version 1.2.0

Wang D, Yan L, Hu Q, Sucheston LE, Higgins MJ, Ambrosone CB, Johnson CS, Smiraglia DJ, Liu S: IMA: an R package for high-throughput analysis of Illumina’s 450K Infinium methylation data. Bioinformatics (Oxford, England). 2012, 28 (5): 729-730. 10.1093/bioinformatics/bts013. [http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=3289916&tool=pmcentrez&rendertype=abstract]

Teschendorff AE, Marabita F, Lechner M, Bartlett T, Tegner J, Gomez-Cabrero D, Beck S: A Beta-Mixture quantile normalisation method for correcting probe design bias in Illumina Infinium 450k DNA methylation data. Bioinformatics. 2012, 29 (2): 189-96. [http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3546795/]

Heijmans BT, Mill J: Commentary: The seven plagues of epigenetic epidemiology. Int J Epidemiol. 2012, 41: 74-78. 10.1093/ije/dyr225. [http://www.ncbi.nlm.nih.gov/pubmed/22269254]

R Development Core Team: Vienna: R Foundation for Statistical Computing; 2012.: , ISBN 3-900051-07-0 [http://www.R-project.org/]

Gentleman RC, Carey VJ, Bates DM: Bioconductor: open software development for computational biology and bioinformatics. Genome Biol. 2004, 5 (R80): [http://genomebiology.com/2004/5/10/R80]

Smyth GK: Limma: linear models for microarray data. Bioinformatics and Computational Biology Solutions using R and Bioconductor. Edited by: Gentleman R CareyVDudoit S. 2005, New York: Springer, 397-420.

Sing T, Sander O, Beerenwinkel N, Lengauer T: 2009, R package version 1.0-4 [http://CRAN.R-project.org/package=ROCR.]