Giải quyết đa biến của dữ liệu vi mạch theo thời gian

BMC Bioinformatics - Tập 7 - Trang 1-19 - 2006
Peter D Wentzell1, Tobias K Karakach1, Sushmita Roy2, M Juanita Martinez2, Christopher P Allen2, Margaret Werner-Washburne2
1Department of Chemistry, Dalhousie University, Halifax, Canada
2Department of Biology, University of New Mexico, Albuquerque, USA

Tóm tắt

Mô hình hóa dữ liệu biểu hiện gen từ các thí nghiệm theo thời gian thường liên quan đến việc sử dụng các mô hình tuyến tính như những cái thu được từ phân tích thành phần chính (PCA), phân tích thành phần độc lập (ICA), hoặc các phương pháp khác. Những phương pháp này thường không mang lại các yếu tố có thể diễn giải sinh học rõ ràng. Hơn nữa, các giả định ngầm về sai số đo lường thường giới hạn việc áp dụng những phương pháp này cho dữ liệu đã được chuyển đổi logarit, phá hủy cấu trúc tuyến tính trong dữ liệu biểu hiện chưa được chuyển đổi. Trong công trình này, một phương pháp phân tích tuyến tính dữ liệu biểu hiện gen bằng cách giải quyết đường cong đa biến (MCR) được giới thiệu. Phương pháp MCR dựa trên một thuật toán bình phương tối thiểu luân phiên (ALS) được thực hiện với phương pháp bình phương tối thiểu có trọng số. Phương pháp mới, MCR-WALS, trích xuất một số lượng nhỏ các hàm cơ sở từ dữ liệu vi mạch chưa được chuyển đổi chỉ bằng cách sử dụng các ràng buộc không âm. Thông tin về sai số đo lường có thể được tích hợp vào quá trình mô hình hóa và dữ liệu bị thiếu có thể được suy diễn. Tính hữu ích của phương pháp được chứng minh qua ứng dụng của nó vào dữ liệu chu kỳ tế bào nấm men. Các hồ sơ được trích xuất bằng MCR-WALS thể hiện sự tương quan mạnh với các gen liên quan đến chu kỳ tế bào, nhưng cũng gợi ý những hiểu biết mới về quy trình điều hòa các gen đó. Các đặc điểm độc đáo của thuật toán MCR-WALS là sự tự do khỏi các giả định về mô hình tuyến tính cơ bản, ngoại trừ việc không âm của biểu hiện gen, khả năng phân tích dữ liệu chưa được chuyển đổi logarit, và việc sử dụng thông tin sai số đo lường để có được một mô hình có trọng số và điều chỉnh các phép đo bị thiếu.

Từ khóa

#biểu hiện gen #dữ liệu vi mạch #phân tích thành phần chính #phân tích thành phần độc lập #giải quyết đường cong đa biến #sai số đo lường

Tài liệu tham khảo

Bar-Joseph Z: Analyzing time series gene expression data. Bioinformatics 2001, 20: 2493–2503. 10.1093/bioinformatics/bth283 Lu P, Nakorchevskiy A, Marcotte EM: Expression deconvolution: A reinterpretation of DNA microarray data reveals dynamic changes in cell populations. Proc Natl Acad Sci USA 2003, 100: 10370–10375. 10.1073/pnas.1832361100 Holter NS, Mitra M, Maritan A, Cieplak M, Banavar JR, Fereroff N: Fundamental patterns underlying gene expression profiles: Simplicity from complexity. Proc Natl Acad Sci USA 2000, 97: 8409–8414. 10.1073/pnas.150242097 Raychaudhuri S, Stuart JM, Altman B: Principal component analysis to summarize microarray experiments: Application to sporulation time series. Pac Symp Biocomput 2000, 5: 452–463. Alter O, Brown PO, Botstein D: Singular value decomposition for genome-wide expression data processing and modeling. Proc Natl Acad Sci USA 2000, 97: 10101–10106. 10.1073/pnas.97.18.10101 Liu L, Hawkins DM, Ghosh S, Young SS: Robust singular value decomposition analysis of microarray data. Proc Natl Acad Sci USA 2003, 100: 13167–13172. 10.1073/pnas.1733249100 Alter O, Brown PO, Botstein D: Generalized singular value decomposition for comparative analysis of genome-scale expression data sets of two different organisms. Proc Natl Acad Sci USA 2003, 100: 3351–3356. 10.1073/pnas.0530258100 Alter O, Golub GH: Integrative analysis of genome scale data by using pseudoinverse projection predicts novel correlation between DNA replication and RNA transcription. Proc Natl Acad Sci USA 2004, 101: 16577–16582. 10.1073/pnas.0406767101 Liebermeister W: Linear modes of gene expression determined by independent component analysis. Bioinformatics 2002, 18: 51–60. 10.1093/bioinformatics/18.1.51 Lee SI, Batzoglou S: Application of independent component analysis to microarrays. Genome Biol 2003, 4: R76. 10.1186/gb-2003-4-11-r76 Kreil DP, MacKay DJC: Reproducibility assessment of independent component analysis of expression ratios from DNA microarrays. Comp Funct Genom 2003, 4: 300–317. 10.1002/cfg.298 Segal E, Battle A, Koller D: Decomposing gene expression into cellular processes. Pac Symp Biocomput 2003, 8: 89–100. Bergmann S, Ihmels J, Barkai N: Iterative signature algorithm for the analysis of large-scale gene expression data. Phys Rev E 2003, 67: 031902/1–031902/18. 10.1103/PhysRevE.67.031902 de Juan A, Tauler R: Chemometrics applied to unravel multicomponent processes and mixtures. Revisiting latest trends in multivariate resolution. Anal Chim Acta 2003, 500: 195–210. 10.1016/S0003-2670(03)00724-4 Jiang JH, Liang Y, Ozaki Y: Principles and methodologies in self-modeling curve resolution. Chemom Intell Lab Syst 2004, 71: 1–12. 10.1016/j.chemolab.2003.07.002 Rocke DM, Durbin B: A model for measurement error for gene expression arrays. J Comput Biol 2001, 8: 557–569. 10.1089/106652701753307485 Wentzell PD, Andrews DT, Hamilton DC, Faber K, Kowalski BR: Maximum likelihood principal components analysis. J Chemom 1997, 11: 339–366. Publisher Full Text 10.1002/(SICI)1099-128X(199707)11:4<339::AID-CEM476>3.0.CO;2-L Van Huffel S, Vandewalle J: The Total Least Squares Problem: Computational Aspects and Analysis. Philadelphia: SIAM; 1991. Lawton WH, Sylvestre EA: Self-modeling curve resolution. Technometrics 1971, 13: 617–633. 10.2307/1267173 Tauler R, Kowalski B, Fleming S: Multivariate curve resolution applied to spectral data from multiple runs of an industrial process. Anal Chem 1993, 65: 2040–2047. 10.1021/ac00063a019 Malinowski ER: Factor Analysis in Chemistry. 3rd edition. New York: Wiley; 2002. Windig W, Guilment J: Interactive self-modeling mixture analysis. Anal Chem 1991, 63: 1425–1432. 10.1021/ac00014a016 de Juan A, van den Bogaert B, Cuesta Sanchez F, Massart DL: Application of the needle algorithm for exploratory analysis and resolution of HPLC-DAD data. Chemom Intell Lab Syst 1996, 33: 133–145. 10.1016/0169-7439(96)00009-3 Van Benthem M, Keenan MR: Fast algorithm for the solution of large-scale non-negativity-constrained least squares problems. J Chemom 2004, 18: 441–450. 10.1002/cem.889 Chen Y, Dougherty ER, Bittner ML: Ratio-based decisions on the quantitative analysis of cDNA microarray images. J Biomed Opt 1997, 2: 364–374. 10.1117/12.281504 Ideker T, Thorsson V, Siegel AF, Hood LE: Testing for differentially-expressed genes by maximum-likelihood analysis of microarray data. J Comput Biol 2000, 6: 805–817. 10.1089/10665270050514945 Yang MCK, Ruan QG, Yang JJ, Eckenrode S, Wu S, McIndoe RA, She JX: A statistical method for flagging weak spots improves normalization and ratio estimates in microarrays. Physiol Genomics 2001, 7: 45–53. Huber W, von Heydebreck A, Sültmann H, Poustka A, Vingron M: Variance stabilization applied to microarray data calibration and to quantification of diferential expression. Bioinformatics 2002, 18: S96-S104. Cui X, Kerr MK, Churchill GA: Transformations for cDNA microarray data. Stat Appl Genet Mol Biol 2003, 2: Article 4. Kim H, Golub GH, Park H: Missing value estimation for DNA microarray gene expression data: Local least squares imputation. Bioinformatics 2005, 21: 187–198. 10.1093/bioinformatics/bth499 Schuemans M, Markovsky I, Wentzell PD, Van Huffel S: On the equivalence between total least squares and maximum likelihood PCA. Anal Chim Acta 2005, 544: 254–267. 10.1016/j.aca.2004.12.059 Spellman PT, Sherlock G, Zhang MQ, Iyer VR, Anders K, Eisen B, Brown PO, Botstein D, Futcher B: Comprehensive identification of cell cycle regulated genes of the yeast Saccharomyces cerevisiae by microarray hybridization. Mol Biol Cell 1998, 9: 3273–3297. Borgen OS, Kowalski BR: An extension of the multivariate component-resolution method to three components. Anal Chim Acta 1985, 174: 1–26. 10.1016/S0003-2670(00)84361-5 Kim BM, Henry RC: Extension of self-modeling curve resolution to mixtures of more than three components Part 2. Finding the complete solution. Chemom Intell Lab Syst 1999, 49: 67–77. 10.1016/S0169-7439(99)00029-5 Rajkó R, István K: Analytical solution for determining feasible regions of self-modeling curve resolution (SMCR) method based on computational geometry. J Chemomet 2005, 19: 448–463. 10.1002/cem.947 Leger MN, Wentzell PD: Dynamic Monte Carlo self-modeling curve resolution method for multicomponent mixtures. Chemom Intell Lab Syst 2002, 62: 171–188. 10.1016/S0169-7439(02)00016-3 Gemperline PJ: Computation of the range of feasible solutions in self-modeling curve resolution algorithms. Anal Chem 1999, 71: 5398–5404. 10.1021/ac990648y Tauler R: Calculation of maximum and minimum band boundaries of feasible solutions for species profilesobtained by multivariate curve resolution. J Chemomet 2001, 15: 627–646. 10.1002/cem.654 Dalhousie University Chemometrics Group Website[http://myweb.dal.ca/pdwentze/publications.html]