Một phương pháp tích hợp dữ liệu cho sinh học hệ thống: Xác thực thực nghiệm

Daehee Hwang1, Jennifer J. Smith1, Deena M. Leslie Pedrioli1, Andrea D. Weston1, Alistair G. Rust1, Stephen A. Ramsey1, Pedro de Atauri1, Andrew F. Siegel1, Hamid Bolouri1, John D. Aitchison1, Leroy Hood1
1Institute for Systems Biology, 1441 North 34th Street, Seattle, WA 98103; and Departments of Management Science, Finance, and Statistics, University of Washington, Seattle WA 98195

Tóm tắt

Việc tích hợp dữ liệu từ nhiều phép đo toàn cầu là điều cần thiết để hiểu rõ các tương tác động học theo không gian và thời gian trong tế bào. Trong một bài báo kèm theo, chúng tôi đã báo cáo một phương pháp tích hợp dữ liệu, được gọi là Pointillist, có khả năng xử lý nhiều loại dữ liệu từ các công nghệ có đặc tính nhiễu khác nhau. Ở đây, chúng tôi trình bày ứng dụng của nó trong việc tích hợp 18 tập dữ liệu liên quan đến việc sử dụng galactose ở nấm men. Các dữ liệu này bao gồm sự thay đổi toàn cầu về số lượng mRNA và protein, dữ liệu tương tác protein–DNA trên toàn bộ genome, thông tin từ cơ sở dữ liệu, và các dự đoán tính toán về tương tác protein–DNA và protein–protein. Chúng tôi đã chia nhỏ nhiệm vụ tích hợp để xác định ba thành phần mạng: các yếu tố hệ thống chính (gen và protein), tương tác protein–protein, và tương tác protein–DNA. Kết quả chỉ ra rằng mạng lưới được tái cấu trúc tập trung hiệu quả vào và phục hồi lại sinh học đã biết về việc sử dụng galactose. Nó cũng cung cấp những hiểu biết mới, trong đó một số đã được xác thực thực nghiệm. Phương pháp được mô tả ở đây đáp ứng một nhu cầu cấp thiết trong tất cả các lĩnh vực sinh học phân tử và tế bào, để tích hợp hiệu quả các tập dữ liệu lớn và khác biệt.

Từ khóa


Tài liệu tham khảo

10.1101/gr.206701

10.1073/pnas.0508647102

10.1126/science.292.5518.929

10.1101/gr.2020604

10.1002/(SICI)1097-0061(199807)14:10<953::AID-YEA293>3.0.CO;2-U

10.1083/jcb.131.5.1133

10.1126/science.290.5500.2306

Ausubel F. Brent R. Kingston R. Moore D. Seidman J. Smith J. & Struhl K. (2000) Current Protocols in Molecular Biology (Wiley New York).

10.1083/jcb.200204059

10.1101/sqb.2003.68.345

10.1093/bib/5.1.9

10.1093/nar/gkh036

10.1002/bit.1075

10.1093/nar/30.1.303

Alfarano, C., Andrade, C. E., Anthony, K., Bahroos, N., Bajec, M., Bantoft, K., Betel, D., Bobechko, B., Boutilier, K., Burgess, E., et al. (2005) Nucleic Acids Res. 33, D418–D24.15608229

10.1073/pnas.061034498

10.1038/415141a

10.1074/mcp.M100037-MCP200

10.1038/nature02026

10.1101/gr.1145203

10.1093/nar/gkg079

10.1093/nar/30.1.276

10.1126/science.1075090

10.1016/S0168-9525(00)02024-2

10.1006/jmbi.2000.3519

Bailey, T. L. & Elkan, C. (1994) Proc. Int. Conf. Intell. Syst. Mol. Biol. 2, 28–36.7584402

10.1093/bioinformatics/btg402

10.1093/bioinformatics/17.12.1113

10.1002/j.1460-2075.1986.tb04253.x

10.1016/0378-1119(89)90423-X

10.1038/nbt890

10.1016/S0021-9258(18)54353-2

10.1242/jcs.00454

10.1111/j.1567-1364.2001.tb00012.x