Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Trích xuất, tích hợp và phân tích thông tin phân tách biệt lập và cấu trúc protein
BMC Bioinformatics - 2009
Tóm tắt
Phân tách biệt lập (alternative splicing) đã được chứng minh là ảnh hưởng đến hầu hết các gen ở người; các isoform khác nhau từ cùng một gen mã hóa cho các protein khác nhau với một số lượng giới hạn các dư lượng, từ đó tạo ra các cấu trúc tương tự. Điều này gợi ý về những mối tương quan khả thi giữa phân tách biệt lập và cấu trúc protein. Để hỗ trợ việc điều tra các mối quan hệ như vậy, chúng tôi đã phát triển Trình kiểm tra Phân tách biệt lập và Cấu trúc Protein (PASS), một ứng dụng Web tự động trích xuất, tích hợp và phân tích dữ liệu phân tách biệt lập của con người và dữ liệu cấu trúc protein được cung cấp ít ỏi trong Cơ sở Dữ liệu Phân tách Biệt lập, ngân hàng dữ liệu Ensembl và Ngân hàng Dữ liệu Protein. Dữ liệu chính từ các cơ sở dữ liệu này đã được tích hợp và phân tích bằng cách sử dụng các công cụ phần mềm Protein Identifier Cross-Reference, BLAST, CLUSTALW và FeatureMap3D. Một cơ sở dữ liệu đã được phát triển để lưu trữ dữ liệu chính được xem xét và kết quả từ phân tích của chúng; một hệ thống script Perl đã được triển khai để tự động tạo và cập nhật cơ sở dữ liệu cũng như phân tích dữ liệu đã tích hợp; một giao diện web đã được triển khai để làm cho các phân tích dễ dàng truy cập; một cơ sở dữ liệu đã được tạo ra để quản lý quyền truy cập của người dùng vào ứng dụng Web PASS và lưu trữ dữ liệu và tìm kiếm của người dùng. PASS tự động tích hợp dữ liệu từ Cơ sở Dữ liệu Phân tách Biệt lập với dữ liệu cấu trúc protein từ Ngân hàng Dữ liệu Protein. Thêm vào đó, nó phân tích một cách toàn diện dữ liệu tích hợp bằng các công cụ sinh tin học nổi tiếng công khai để tạo ra thông tin cấu trúc của các cặp isoform. Phân tích sâu hơn về thông tin quý giá này có thể tiết lộ những mối quan hệ thú vị giữa phân tách biệt lập và sự khác biệt cấu trúc protein, điều này có thể liên quan một cách đáng kể đến các chức năng khác nhau.
Từ khóa
#phân tách biệt lập #cấu trúc protein #cơ sở dữ liệu #phân tích sinh tin học #isoformTài liệu tham khảo
Adams MD, Celniker SE, Holt RA, Evans CA, Gocayne JD, Amanatides PG, Scherer SE, Li PW, Hoskins RA, Galle RF, et al.: The genome sequence of Drosophila melanogaster. Science 2000, 287(5461):2185–2195. 10.1126/science.287.5461.2185
Modrek B, Resch A, Grasso C, Lee C: Genome-wide detection of alternative splicing in expressed sequences of human genes. Nucleic Acids Res 2001, 29(13):2850–2859. 10.1093/nar/29.13.2850
Hiller M, Backofen R, Heymann S, Busch A, Glaesser TM, Freytag JC: Efficient prediction of alternative splice forms using protein domain homology. In Silico Biol 2004, 4(2):195–208.
Boue S, Letunic I, Bork P: Alternative splicing and evolution. Bioessays 2003, 25(11):1031–1034. 10.1002/bies.10371
Zhang T, Haws P, Wu Q: Multiple variable first exons: a mechanism for cell- and tissue-specific gene regulation. Genome Res 2004, 14(1):79–89. 10.1101/gr.1225204
Nakao M, Barrero RA, Mukai Y, Motono C, Suwa M, Nakai K: Large-scale analysis of human alternative protein isoforms: pattern classification and correlation with subcellular localization signals. Nucleic Acids Res 2005, 33(8):2355–2363. 10.1093/nar/gki520
Kriventseva EV, Koch I, Apweiler R, Vingron M, Bork P, Gelfand MS, Sunyaev S: Increase of functional diversity by alternative splicing. Trends Genet 2003, 19(3):124–128. 10.1016/S0168-9525(03)00023-4
Kabsch W, Sander C: Dictionary of protein secondary structure: pattern recognition of hydrogen-bonded and geometrical features. Biopolymers 1983, 22(12):2577–2637. 10.1002/bip.360221211
Thanaraj TA, Stamm S, Clark F, Riethoven JJ, Le Texier V, Muilu J: ASD: the Alternative Splicing Database. Nucleic Acids Res 2004, (32 Database):D64-D69. 10.1093/nar/gkh030
Flicek P, Aken BL, Beal K, Ballester B, Caccamo M, Chen Y, Clarke L, Coates G, Cunningham F, Cutts T, et al.: Ensembl 2008. Nucleic Acids Res 2008, (36 Database):D707-D714.
Berman HM, Westbrook J, Feng Z, Gilliland G, Bhat TN, Weissig H, Shindyalov IN, Bourne PE: The Protein Data Bank. Nucleic Acids Res 2000, 28(1):235–242. 10.1093/nar/28.1.235
Cote RG, Jones P, Martens L, Kerrien S, Reisinger F, Lin Q, Leinonen R, Apweiler R, Hermjakob H: The Protein Identifier Cross-Referencing (PICR) service: reconciling protein identifiers across multiple source databases. BMC Bioinformatics 2007, 8: 401. 10.1186/1471-2105-8-401
Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ: Basic local alignment search tool. J Mol Biol 1990, 215(3):403–410.
Thompson JD, Higgins DG, Gibson TJ: CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res 1994, 22(22):4673–4680. 10.1093/nar/22.22.4673
Wernersson R, Rapacki K, Staerfeldt HH, Sackett PW, Molgaard A: FeatureMap3D – a tool to map protein features and sequence conservation onto homologous structures in the PDB. Nucleic Acids Res 2006, (34 Web Server):W84-W88. 10.1093/nar/gkl227
Henikoff S, Henikoff JG: Amino acid substitution matrices from protein blocks. Proc Natl Acad Sci USA 1992, 89(22):10915–10919. 10.1073/pnas.89.22.10915
