Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Dự đoán gen ở sinh vật nhân thực với mô hình Markov ẩn tổng quát sử dụng tín hiệu từ các nguồn bên ngoài
Tóm tắt
Để cải thiện dự đoán gen, các chứng cứ bên ngoài về cấu trúc gen có thể được thu thập từ nhiều nguồn thông tin khác nhau như so sánh genome-genome và căn chỉnh EST và protein. Tuy nhiên, các chứng cứ này thường không đầy đủ và thường không chắc chắn. Chứng cứ bên ngoài thường không đủ để phục hồi hoàn toàn cấu trúc gen của tất cả các gen hoàn chỉnh, và các chứng cứ có sẵn thường không đáng tin cậy. Do đó, chứng cứ bên ngoài có giá trị nhất khi được cân bằng với chứng cứ bên trong. Chúng tôi trình bày một phương pháp khá tổng quát để tích hợp thông tin bên ngoài. Phương pháp của chúng tôi dựa trên việc đánh giá các tín hiệu đối với các vùng có khả năng mã hóa protein thông qua một Mô hình Markov ẩn tổng quát (GHMM) mà xem xét cả thông tin bên trong và bên ngoài. Chúng tôi đã sử dụng phương pháp này để mở rộng chương trình dự đoán gen ab initio AUGUSTUS thành một công cụ đa năng mà chúng tôi gọi là AUGUSTUS+. Trong nghiên cứu này, chúng tôi tập trung vào các tín hiệu thu được từ việc khớp với một cơ sở dữ liệu EST hoặc protein, nhưng cách tiếp cận của chúng tôi có thể được sử dụng để bao gồm các tín hiệu do người dùng xác định tùy ý. Phương pháp của chúng tôi chỉ bị ảnh hưởng vừa phải bởi độ dài của một khớp cơ sở dữ liệu. Hơn nữa, nó khai thác thông tin có thể được suy ra từ sự vắng mặt của các khớp như vậy. Như một trường hợp đặc biệt, AUGUSTUS+ có thể dự đoán các gen theo các ràng buộc do người dùng xác định, ví dụ như nếu vị trí của một số exon đã được biết. Với các tín hiệu từ cơ sở dữ liệu EST và protein, phương pháp mới của chúng tôi đã có khả năng dự đoán 89% các exon trong nhiễm sắc thể 22 của người một cách chính xác. Mô hình hóa xác suất nhạy cảm với các chứng cứ bên ngoài như các khớp cơ sở dữ liệu có thể làm tăng độ chính xác của dự đoán gen. Khi một khớp của một khoảng thời gian chuỗi với một chuỗi EST hoặc protein được sử dụng, nó nên được coi là thông tin hợp thành chứ không phải là thông tin về các vị trí riêng lẻ.
Từ khóa
#dự đoán gen #mô hình Markov ẩn #chứng cứ bên ngoài #protein #EST #sinh vật nhân thựcTài liệu tham khảo
Burge C: Identification of Genes in Human Genomic DNA. PhD thesis. Stanford University; 1997.
Stanke M, Waack S: Gene prediction with a hidden Markov model and new intron submodel. Bioinformatics 2003, 19(Suppl 2):ii215-ii225.
Krogh A: Two methods for improving performance of an HMM and their application for gene finding. Proc Fifth Int Conf Intelligent Systems for Molecular Biology 1997, 179–186.
Parra G, Enrique B, Guigó R: GenelD in Drosophila. Genome Research 2000, 10: 511–515.
Parra G, Agarwal P, Abril J, Wiehe T, Fickett J, Guigó R: Comparative Gene Prediction in Human and Mouse. Genome Research 2003, 13: 108–117.
Korf I, Flicek P, Duan D, Brent MR: Integrating Genomic Homology into Gene Structure Prediction. Bioinformatics 2001, 1(Suppl 1):S1-S9.
Gross SS, Brent MR: Using Multiple Alignments to Improve Gene Prediction. Proceedings of the Ninth Annual International Conference on Research in Computational Molecular Biology (RECOMB 2005) 2005.
Alexandersson M, Cawley S, Pachter L: SLAM: Cross-Species Gene Finding and Alignment with a Generalized Pair Hidden Markov Model. Genome Research 2003, 13: 496–502.
Meyer IM, Durbin R: Comparative ab initio prediction of gene structures using pair HMMs. Bioinformatics 2002, 18(10):1309–1318.
Taher L, Rinner O, Gargh S, Sczyrba A, Morgenstern B: AGenDA: gene prediction by cross-species sequence comparison. Nucleic Acids Research 2004, 32: W305-W308.
Pedersen JS, Hein J: Gene finding with a hidden Markov model of genome structure and evolution. Bioinformatics 2003, 19: 219–227.
Siepel A, Haussler D: Computational identification of evolutionarily conserved exons. Proceedings of the Eighth Annual International Conference on Research in Computational Molecular Biology (RECOMB 2004) 2004, 177–186.
Brent MR, Guigó R: Recent advances in gene structure prediction. Current Opinion in Structural Biology 2004, 14: 264–272.
Yeh RF, Lim LP, Burge C: Computational Inference of Homologous Gene Structures in the Human Genome. Genome Research 2001, 11: 803–816.
Krogh A: Using Database Matches with HMMGene for Automated Gene Detection in Drosophila. Genome Research 2000, 10(4):523–528.
Birney E, Clamp M, Durbin R: Gene Wise and Genomewise. Genome Research 2004, 14: 988–995.
Brejova B, Brown DG, Li M, Vinar T: ExonHunter: A Comprehensive Approach to Gene Finding. Bioinformatics 2005, 21(Suppl 1):i57-i65. [Inteligent Systems for Molecular Biology (ISMB 2005)]
Allen JE, Pertea M, Salzberg SL: Computational Gene Prediction Using Multiple Sources of Evidence. Genome Research 2004, 14: 142–148.
Stanke M: Gene Prediction with a Hidden Markov Model. PhD thesis. Universität Göttingen, Germany; 2003. [http://webdoc.sub.gwdg.de/diss/2004/stanke/]
Stanke M, Steinkamp R, Waack S, Morgenstern B: AUGUSTUS: A web server for gene finding in eukaryotes. Nucleic Acids Res 2004, 32: W309-W312.
Gish W, States DJ: Identification of protein coding regions by database similarity search. Nat Genet 1993, 3: 266–272.
Guigó R, Agarwal P, Abril J, Burset M, Fickett J: An Assessment of Gene Prediction Accuracy in Large DNA Sequences. Genome Res 2000, 10: 1631–1642.
Collins JE, Goward ME, Cole CG, Smink LJ, Huckle EJ, Knowles S, Bye JM, Beare DM, Dunham I: Reevaluating Human Gene Annotation: A Second-Generation Analysis of Chromosome 22. Genome Research 2003, 13: 27–36.
Human Chromosome 22 Project[http://www.sanger.ac.uk/HGP/Chr22]
Morgenstern B, Dress A, Werner T: Multiple DNA and protein sequence alignment based on segment-to-segment comparison. Proc Natl Acad Sci USA 93 1996, 12098–12103.
Brudno M, Chapman M, Göttgens B, Batzoglou S, Morgenstern B: Fast and sensitive multiple alignment of large genomic sequences. BMC Bioinformatics 2003, 4: 66.
AUGUSTUS web server[http://augustus.gobics.de]
TWINSCAN web server[http://genes.cs.wustl.edu]
GENEID and SGP gene predictions[http://genome.imim.es]
