Phân tích bộ gen sử dụng kiểm định thành phần phương sai

BMC Bioinformatics - Tập 14 - Trang 1-13 - 2013
Yen-Tsung Huang1, Xihong Lin2
1Department of Epidemiology, Brown University, Providence, USA
2Department of Biostatistics, Harvard School of Public Health, Boston, USA

Tóm tắt

Phân tích bộ gen đã trở nên ngày càng quan trọng trong nghiên cứu gen, bởi vì nhiều bệnh phức tạp được hình thành bởi sự thay đổi của nhiều gen. Các gen thường phối hợp với nhau như một kho chức năng, ví dụ như một con đường/mạng sinh học và có mối tương quan cao. Tuy nhiên, hầu hết các phương pháp phân tích bộ gen hiện có không xem xét đầy đủ mối tương quan giữa các gen. Ở đây, chúng tôi đề xuất giải quyết đặc điểm quan trọng này của một bộ gen để cải thiện sức mạnh thống kê trong phân tích bộ gen. Chúng tôi đề xuất mô hình hóa ảnh hưởng của một biến độc lập, ví dụ như tiếp xúc/trạng thái sinh học (có/không), lên nhiều giá trị biểu hiện gen trong một bộ gen bằng cách sử dụng mô hình hồi quy tuyến tính đa biến, trong đó mối tương quan giữa các gen được mô hình hóa một cách rõ ràng thông qua một ma trận hiệp phương sai đang được sử dụng. Chúng tôi phát triển TEGS (Kiểm định ảnh hưởng của một bộ gen), một kiểm định thành phần phương sai cho các hiệu ứng bộ gen bằng cách giả định một phân phối chung cho các hệ số hồi quy trong các mô hình hồi quy tuyến tính đa biến, và tính toán các giá trị p bằng cách sử dụng hoán vị và xấp xỉ chi bình phương được điều chỉnh. Chúng tôi cho thấy qua các mô phỏng rằng lỗi loại I được bảo vệ dưới các lựa chọn khác nhau của ma trận hiệp phương sai làm việc và sức mạnh được cải thiện khi ma trận hiệp phương sai làm việc tiến gần đến hiệp phương sai thật. Kiểm định toàn cầu là một trường hợp đặc biệt của TEGS khi mối tương quan giữa các gen trong một bộ gen bị bỏ qua. Sử dụng cả dữ liệu mô phỏng và một tập dữ liệu tiểu đường đã được công bố, chúng tôi cho thấy rằng kiểm định của chúng tôi vượt trội hơn các phương pháp thường được sử dụng, kiểm định toàn cầu và phân tích làm giàu bộ gen (GSEA). Chúng tôi phát triển một phương pháp phân tích bộ gen (TEGS) dưới khung hồi quy đa biến, điều này trực tiếp mô hình hóa sự tương tác của các giá trị biểu hiện trong một bộ gen bằng cách sử dụng hiệp phương sai làm việc. TEGS vượt trội hơn hai phương pháp được sử dụng rộng rãi, GSEA và kiểm định toàn cầu cả trong mô phỏng và dữ liệu vi mạch tiểu đường.

Từ khóa

#phân tích bộ gen #hồi quy đa biến #kiểm định thành phần phương sai #hiệp phương sai #tiểu đường

Tài liệu tham khảo

Emmert-Streib F, Glazko GV: Pathway analysis of expression data: deciphering functional building blocks of complex diseases. PLoS Comput Biol. 2011, 5: e1002053- Draghici S: Global functional profiling of gene expression. Genomics. 2003, 81: 98-104. 10.1016/S0888-7543(02)00021-6. Tian L, Greenberg SA, Kong SW, Altschuler J, Kohane IS, Park PJ: Discoverying statistically significant pathways in expression profiling studies. Proc Natl Acad Sci. 2005, 102: 13544-13549. 10.1073/pnas.0506577102. Lu Y, Liu PY, Xiao P, Deng HW: Hotelling’s T2 multivariate profiling for detecting differential expression in microarrays. Bioinformatics. 2005, 21: 3105-3113. 10.1093/bioinformatics/bti496. Klebanov L: A multivariate approach for integrating genome-wide expression data and biological knowledge. Bioinformatics. 2007, 22: 2373-2380. Goeman J, van der Geer SA, de Kort F, van Houwelingen HC: A global test for groups of genes: testing association with a clinical outcome. Bioinformatics. 2004, 20: 93-99. 10.1093/bioinformatics/btg382. Mootha V, Lindgren CM, Eriksson KF, Subramanian A, Sihag S, Lehar J, Puigserver P, Carlsson E, Ridderstrale M, Laurila E, Houstis N, Daly M, Patterson N, Mesirov JP, Golub TR, Tamayo P, Spiegelman B, Lander ES, Hirschhorn JN, Altshuler D, Groop LC: PGC-1-responsive genes involved in oxidative phosphorylation are coordinately downregulated in human diabetes. Nat Genet. 2003, 34: 267-273. 10.1038/ng1180. Subramanian A, Tamayo P, Mootha VK, Mukherjee S, Ebert BL, Gillette MA, Paulovich A, Pomeroy SL, Golub TR, Lander ES, Mesirov JP: Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proc Natl Acad Sci. 2005, 102: 15545-15550. 10.1073/pnas.0506580102. Efron B, Tibshirani R: On testing for the significance of sets of genes. Ann Appl Stati. 2007, 1: 107-129. 10.1214/07-AOAS101. Goeman JJ, Buhlmann P: Analyzing gene expression data in terms of gene sets: methodological issues. Bioinformatics. 2007, 23: 980-10.1093/bioinformatics/btm051. Glazko GV, Emmert-Streib F: Unite and conquer: univariate and multivariate approaches for finding differentially expressed gene sets. Bioinformatics. 2009, 25: 2348-2354. 10.1093/bioinformatics/btp406. Laird NM, Ware JH: Random-effects models for longitudinal data. Biometrics. 1982, 38: 963-974. 10.2307/2529876. Lin X: Variance component testing in generalised linear models with random effects. Biometrika. 1997, 73: 309-326. Liang K, Zeger S: Longitudinal data analysis using generalized linear models. Biometrika. 1986, 38: 13-22. Breslow NE, Clayton DG: Approximate inference in generalized linear mixed models. J Am Stat Associations. 1993, 88: 9-25. Wu M, Lee S, Cai T, Li Y, Boehnke M, Lin X: Rare variant association testing for sequencing data using the Sequence Kernel Association Test (SKAT). Am J Hum Genet. 2011, 89: 82-93. 10.1016/j.ajhg.2011.05.029. Liu D, Ghosh D, Lin X: Estimation and testing for the effect of a genetic pathway on a disease outcome using logistic kernel machine regression via logistic mixed model. BMC Bioinformatics. 2008, 9: 292-10.1186/1471-2105-9-292. Lin D: An efficient Monte Carlo approach to assessing statistical significance in genomic studies. Bioinformatics. 2005, 6: 781-787. Satterthwaite F: An Approximate Distribution of Estimates of Variance Components. Biometrics Bull. 1946, 2: 110-114. 10.2307/3002019. Cai T, Lin X, Carroll R: Identifying genetic marker sets associated with phenotypes via an efficient adaptive score test. Biostatistics. 2012, 13:776-790. Storey J: A direct approach to false discovery rates. J R Stat Society, Series B. 2002, 64: 479-498. 10.1111/1467-9868.00346. Storey J: The positive false discovery rate: a Bayesian interpretation and the q-value. Ann Stat. 2003, 31: 2013-2035. 10.1214/aos/1074290335.