WebScipio: Một công cụ trực tuyến để xác định cấu trúc gen bằng cách sử dụng chuỗi protein

Florian Odronitz1, Holger Pillmann1, Oliver Keller2, Stephan Waack2, Martin Kollmar1
1Max-Planck-Institut für Biophysikalische Chemie, Abteilung NMR-basierte Strukturbiologie, Am Fassberg 11, 37077, Göttingen, Germany
2Institut für Informatik, Universität Göttingen, Lotzestr. 16-18, 37083, Göttingen, Germany

Tóm tắt

tổng quan Nền tảng Việc thu thập cấu trúc gen cho một gen mã hóa protein nhất định là bước quan trọng trong nhiều phân tích. Một phần mềm phù hợp cho nhiệm vụ này cần dễ dàng truy cập, chính xác, dễ sử dụng và cung cấp cho người dùng một biểu diễn hợp lý về cấu trúc gen có khả năng xảy ra cao nhất. Nó cần phải đủ nghiêm ngặt để tối ưu hóa các đặc điểm trên cấp độ từng nucleotide và đồng thời đủ linh hoạt để cho phép tìm kiếm giữa các loài khác nhau. Kết quả WebScipio, một giao diện web cho phần mềm Scipio, cho phép người dùng thu được cấu trúc chuỗi mã hóa tương ứng của một chuỗi protein truy vấn đã cho mà thuộc về một bộ gen eukaryote đã được lắp ráp. Cấu trúc gen kết quả được trình bày dưới nhiều định dạng dễ đọc cho con người như biểu diễn sơ đồ, và một sự căn chỉnh chi tiết giữa chuỗi truy vấn và chuỗi mục tiêu làm nổi bật bất kỳ sự khác biệt nào. WebScipio cũng có thể được sử dụng để xác định và đặc trưng hóa các cấu trúc gen của các gen tương đồng trong các sinh vật liên quan. Ngoài ra, nó cung cấp một dịch vụ web cho việc tích hợp với các chương trình khác.

Từ khóa

#WebScipio #cấu trúc gen #eukaryote #chuỗi protein #phân tích di truyền

Tài liệu tham khảo

Dubchak I, Frazer K: Multi-species sequence comparison: the next frontier in genome annotation. Genome biology. 2003, 4 (12): 122-

Bird CP, Stranger BE, Dermitzakis ET: Functional variation and evolution of non-coding DNA. Curr Opin Genet Dev. 2006, 16 (6): 559-64.

Birney E, Stamatoyannopoulos JA, Dutta A, Guigo R, Gingeras TR, Margulies EH, Weng Z, Snyder M, Dermitzakis ET, Thurman RE, Kuehn MS, Taylor CM, Neph S, Koch CM, Asthana S, Malhotra A, Adzhubei I, Greenbaum JA, Andrews RM, Flicek P, Boyle PJ, Cao H, Carter NP, Clelland GK, Davis S, Day N, Dhami P, Dillon SC, Dorschner MO, Fiegler H, Giresi PG, Goldy J, Hawrylycz M, Haydock A, Humbert R, James KD, Johnson BE, Johnson EM, Frum TT, Rosenzweig ER, Karnani N, Lee K, Lefebvre GC, Navas PA, Neri F, Parker SC, Sabo PJ, Sandstrom R, Shafer A, Vetrie D, Weaver M, Wilcox S, Yu M, Collins FS, Dekker J, Lieb JD, Tullius TD, Crawford GE, Sunyaev S, Noble WS, Dunham I, Denoeud F, Reymond A, Kapranov P, Rozowsky J, Zheng D, Castelo R, Frankish A, Harrow J, Ghosh S, Sandelin A, Hofacker IL, Baertsch R, Keefe D, Dike S, Cheng J, Hirsch HA, Sekinger EA, Lagarde J, Abril JF, Shahab A, Flamm C, Fried C, Hackermuller J, Hertel J, Lindemeyer M, Missal K, Tanzer A, Washietl S, Korbel J, Emanuelsson O, Pedersen JS, Holroyd N, Taylor R, Swarbreck D, Matthews N, Dickson MC, Thomas DJ, Weirauch MT, Gilbert J: Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project. Nature. 2007, 447 (7146): 799-816.

Waterston RH, Lindblad-Toh K, Birney E, Rogers J, Abril JF, Agarwal P, Agarwala R, Ainscough R, Alexandersson M, An P, Antonarakis SE, Attwood J, Baertsch R, Bailey J, Barlow K, Beck S, Berry E, Birren B, Bloom T, Bork P, Botcherby M, Bray N, Brent MR, Brown DG, Brown SD, Bult C, Burton J, Butler J, Campbell RD, Carninci P, Cawley S, Chiaromonte F, Chinwalla AT, Church DM, Clamp M, Clee C, Collins FS, Cook LL, Copley RR, Coulson A, Couronne O, Cuff J, Curwen V, Cutts T, Daly M, David R, Davies J, Delehaunty KD, Deri J, Dermitzakis ET, Dewey C, Dickens NJ, Diekhans M, Dodge S, Dubchak I, Dunn DM, Eddy SR, Elnitski L, Emes RD, Eswara P, Eyras E, Felsenfeld A, Fewell GA, Flicek P, Foley K, Frankel WN, Fulton LA, Fulton RS, Furey TS, Gage D, Gibbs RA, Glusman G, Gnerre S, Goldman N, Goodstadt L, Grafham D, Graves TA, Green ED, Gregory S, Guigo R, Guyer M, Hardison RC, Haussler D, Hayashizaki Y, Hillier LW, Hinrichs A, Hlavina W, Holzer T, Hsu F, Hua A, Hubbard T, Hunt A, Jackson I, Jaffe DB, Johnson LS, Jones M, Jones TA, Joy A, Kamal M, Karlsson EK: Initial sequencing and comparative analysis of the mouse genome. Nature. 2002, 420 (6915): 520-62.

Fischer DF, Backendorf C: Identification of regulatory elements by gene family footprinting and in vivo analysis. Advances in biochemical engineering/biotechnology. 2007, 104: 37-64.

Guigo R, Dermitzakis ET, Agarwal P, Ponting CP, Parra G, Reymond A, Abril JF, Keibler E, Lyle R, Ucla C, Antonarakis SE, Brent MR: Comparison of mouse and human genomes followed by experimental verification yields an estimated 1,019 additional genes. Proceedings of the National Academy of Sciences of the United States of America. 2003, 100 (3): 1140-5.

Ner-Gaon H, Leviatan N, Rubin E, Fluhr R: Comparative cross-species alternative splicing in plants. Plant physiology. 2007, 144 (3): 1632-41.

Ureta-Vidal A, Ettwiller L, Birney E: Comparative genomics: genome-wide analysis in metazoan eukaryotes. Nature reviews. 2003, 4 (4): 251-62.

Kuhn RM, Karolchik D, Zweig AS, Trumbower H, Thomas DJ, Thakkapallayil A, Sugnet CW, Stanke M, Smith KE, Siepel A, Rosenbloom KR, Rhead B, Raney BJ, Pohl A, Pedersen JS, Hsu F, Hinrichs AS, Harte RA, Diekhans M, Clawson H, Bejerano G, Barber GP, Baertsch R, Haussler D, Kent WJ: The UCSC genome browser database: update 2007. Nucleic acids research. 2007, D668-73. 35 Database

Elnitski LL, Shah P, Moreland RT, Umayam L, Wolfsberg TG, Baxevanis AD: The ENCODEdb portal: simplified access to ENCODE Consortium data. Genome research. 2007, 17 (6): 954-9.

Odronitz F, Hellkamp M, Kollmar M: diArk-a resource for eukaryotic genome research. BMC Genomics. 2007, 8: 103-

Lazzarato F, Franceschinis G, Botta M, Cordero F, Calogero RA: RRE: a tool for the extraction of non-coding regions surrounding annotated genes from genomic datasets. Bioinformatics (Oxford, England). 2004, 20 (16): 2848-50.

Doh ST, Zhang Y, Temple MH, Cai L: Non-coding sequence retrieval system for comparative genomic analysis of gene regulatory elements. BMC bioinformatics. 2007, 8: 94-

Flicek P, Aken BL, Beal K, Ballester B, Caccamo M, Chen Y, Clarke L, Coates G, Cunningham F, Cutts T, Down T, Dyer SC, Eyre T, Fitzgerald S, Fernandez-Banet J, Graf S, Haider S, Hammond M, Holland R, Howe KL, Howe K, Johnson N, Jenkinson A, Kahari A, Keefe D, Kokocinski F, Kulesha E, Lawson D, Longden I, Megy K, Meidl P, Overduin B, Parker A, Pritchard B, Prlic A, Rice S, Rios D, Schuster M, Sealy I, Slater G, Smedley D, Spudich G, Trevanion S, Vilella AJ, Vogel J, White S, Wood M, Birney E, Cox T, Curwen V, Durbin R, Fernandez-Suarez XM, Herrero J, Hubbard TJP, Kasprzyk A, Proctor G, Smith J, Ureta-Vidal A, Searle S: Ensembl 2008. Nucleic Acids Res. 2008, D707-14. 36 Database

Karolchik D, Kuhn RM, Baertsch R, Barber GP, Clawson H, Diekhans M, Giardine B, Harte RA, Hinrichs AS, Hsu F, Kober KM, Miller W, Pedersen JS, Pohl A, Raney BJ, Rhead B, Rosenbloom KR, Smith KE, Stanke M, Thakkapallayil A, Trumbower H, Wang T, Zweig AS, Haussler D, Kent WJ: The UCSC Genome Browser Database: 2008 update. Nucleic Acids Res. 2008, D773-9. 36 Database

Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ: Basic local alignment search tool. J Mol Biol. 1990, 215 (3): 403-410.

Kent WJ: BLAT-the BLAST-like alignment tool. Genome research. 2002, 12 (4): 656-64.

Keller O, Odronitz F, Stanke M, Kollmar M, Waack S: Scipio: Using protein sequences to determine the precise exon/intron structures of genes and their orthologs in closely related species. BMC Bioinformatics. 2008, 9: 278-

Ruby Programming Language. 2008, [http://www.ruby-lang.org]

Ruby on Rails. 2006, [http://www.rubyonrails.com]

YAML (YAML Ain't Markup Language). 2008, [http://www.yaml.org]

SVG (Scalable Vector Graphics). 2008, [http://www.w3.org/Graphics/SVG/]

PNG (Portable Network Graphics). 1996, [http://www.w3.org/Graphics/PNG/]

Odronitz F, Kollmar M: Pfarao: a web application for protein family analysis customized for cytoskeletal and motor proteins (CyMoBase). BMC Genomics. 2006, 7: 300-

Odronitz F, Kollmar M: Drawing the tree of eukaryotic life based on the analysis of 2,269 manually annotated myosins from 328 species. Genome Biol. 2007, 8 (9): R196-