Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Trình duyệt Cây Chú Giải Ontology
Tóm tắt
Phân tích biểu hiện gen và proteomics cho phép nghiên cứu hàng ngàn sinh phẩm đồng thời. Điều này dẫn đến một danh sách dài các gen hoặc protein thú vị và một danh sách các thuật ngữ chú giải trong hàng nghìn. Việc hiểu một danh sách gen như vậy không phải là một nhiệm vụ đơn giản và sẽ đòi hỏi nỗ lực lớn để tập hợp những thông tin liên quan khổng lồ từ tài liệu và cơ sở dữ liệu. Do đó, điều hiển nhiên là chúng ta cần những cách để cô đặc và lọc thông tin này. Một cách tuyệt vời để đại diện cho kiến thức là sử dụng các ontology, nơi có thể nhóm các gen hoặc thuật ngữ có ngữ cảnh chồng chéo, thay vì nghiên cứu các danh sách từ khóa một chiều. Do đó, chúng tôi đã xây dựng hệ thống trình duyệt cây chú giải ontology (OAT) để đại diện, cô đọng, lọc và tóm tắt kiến thức liên quan đến danh sách các gen hoặc protein. Hệ thống OAT bao gồm hai phần riêng biệt; một cơ sở dữ liệu MySQL® có tên là OATdb, và một engine trình duyệt cây được triển khai dưới dạng giao diện web. Hệ thống OAT được thực hiện bằng cách sử dụng các tập lệnh Perl trên máy chủ web Apache và dữ liệu gen, ontology và chú giải được lưu trữ trong cơ sở dữ liệu quan hệ MySQL®. Trong OAT, chúng tôi đã hài hòa hai ontology của các tiêu đề chủ đề y khoa (MeSH) và ontology gen (GO), để chúng tôi có thể sử dụng kiến thức từ cả tài liệu và các dự án chú giải trong cùng một công cụ. OAT bao gồm nhiều bộ định danh gen, được hợp nhất nội bộ trong cơ sở dữ liệu OAT. Chúng tôi cũng đã tạo ra các chú giải MeSH mới bằng cách ánh xạ các số đăng ký tới các mục MEDLINE. Trình duyệt ontology OAT được tạo ra để tạo điều kiện phân tích danh sách gen. Nó có thể được duyệt động, vì vậy một nhà khoa học có thể tương tác với dữ liệu và điều khiển kết quả. Thống kê kiểm tra cho thấy các nhánh nào được làm giàu. Chúng tôi cũng cho thấy rằng hai ontology bổ sung cho nhau, với sự chồng chéo bất ngờ thấp, bằng cách ánh xạ chú giải tới Hệ thống Ngôn ngữ Y học Thống nhất (UMLS). Chúng tôi đã phát triển một trình duyệt chú giải tương tác mới là trình duyệt đầu tiên kết hợp cả MeSH và GO để cải thiện việc giải thích danh sách gen. Với OAT, chúng tôi minh họa lợi ích của việc kết hợp MeSH và GO để hiểu danh sách gen. OAT có sẵn như một dịch vụ web công cộng tại:
http://www.ifm.liu.se/
Từ khóa
#biểu hiện gen #proteomics #chú giải ontology #trình duyệt cây chú giải #MeSH #ontology gen #GO #Hệ thống Ngôn ngữ Y học Thống nhấtTài liệu tham khảo
Gruber T. Towards principles for the design of ontologies used for knowledge sharing [technical report KSL 93–04]. Stanford (CA): Stanford Knowledge System Laboratory, Stanford University, 1993
Ashbumer M, Ball C, Blake J, et al. Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nat Genet 2000; 25: 25–9
Harris M, Clark J, Ireland A, et al. The gene ontology (GO) database and informatics resource. Nucleic Acids Res 2004; 32 (database issue): D258–61
The Gene Ontology [online]. Available from URL: http://www.geneontology.org [Accessed 2006 Nov 13]
National Library of Medicine. Medical subject headings [online]. Available from URL: http://www.nlm.nih.gov/mesh [Accessed 2006 Nov 13]
Nelson S, Johnston D, Humphreys B. Relationships in medical subject headings. In: Bean CA, Green R, editors. Relationships in the organization of knowledge. New York: Kluwer Academic Publisher, 2000: 174–184
Zhang B, Schmoyer D, Kirov S, et al. GOTree Machine (GOTM): a web-based platform for interpreting sets of interesting genes using gene ontology hierarchies. BMC Bioinformatics 2004 Feb 18; 5: 16
Zeeberg B, Feng W, Wang G, et al. GoMiner: a resource for biological interpretation of genomic and proteomic data. Genome Biol 2003; 4(4): R28
Al-Shahrour F, Diaz-Uriarte R, Dopazo J. FatiGO: a web tool for finding significant associations of gene ontology terms with groups of genes. Bioinformatics 2004; 20(4): 578–80
Khatri P, Draghici S, Ostermeier G, et al. Profiling gene expression using ontoexpress. Genomics 2002; 79(2): 266–70
European Bioinformatics Institute. FTP root [online]. Available from URL: http://ftp.ebi.ac.uk [Accessed 2006 Nov 17]
National Center for Biotechnology Information. FTP root [online]. Available from URL: http://ftp.ncbi.nlm.nih.gov [Accessed 2006 Nov 17]
Affymetrix [online]. Available from URL: http://www.affymetrix.com [Accessed 2006 Nov 13]
The Gene Ontology. FTP root [online]. Available from URL: http://ftp.geneontology.org [Accessed 2006 Nov 17]
Liu G, Loraine A, Shigeta R, et al. NetAffx: Affymetrix probesets and annotations. Nucleic Acids Res 2003; 31: 82–6
Kersey P, Duarte J, Williams A, et al. The international protein index: an integrated database for proteomics experiments. Proteomics 2005; 4(7): 1985–8
Maglott D, Katz K, Sicotte H, et al. NCBI’s LocusLink and RefSeq. Nucleic Acids Res 2000; 28: 126–8
Pruitt K, Maglott D. RefSeq and LocusLink: NCBI gene-centered resources. Nucleic Acids Res 2001; 29: 137–40
Wu CH, Apweiler R, Bairoch A, et al. The universal protein resource (UniProt): an expanding universe of protein information. Nucleic Acid Res 2006 Jan; 34 (Database issue): D187–91
Bairoch A, Apweiler R, Wu C, et al. The universal protein resource (UniProt). Nucleic Acids Res 2004; 33 (database issue): D154–9
Hubbard T, Barker D, Birney E, et al. The Ensembl genome database project. Nucleic Acids Res 2002; 30: 38–41
Hubbard T, Andrews D, Caccamo M, et al. Ensembl 2005. Nucleic Acids Res 2004; 33 (database issue): D447–53
Benson D, Karsch-Mizrachi I, Lipman D, et al. GenBank. Nucleic Acids Res 2004; 33 (database issue): D34–8
Camon E, Magrane M, Barrell D, et al. The gene ontology annotation (GOA) project: implementation of GO in SWISS-PROT, TrEMBL, and InterPro. Genome Res 2003; 13(4): 662–72
Camon E, Magrane M, Barrell D, et al. The gene ontology annotation (GOA) database: sharing knowledge in Uniprot with gene ontology. Nucleic Acids Res 2004; 32 (database issue): D262–6
Storey JD, Tibshirani R. Statistical significance for genomewide studies. Proc Natl Acad Sci U S A 2003; 100(16): 9440–5
Schuyler PL, Hole WT, Tuttle MS, et al. The UMLS metathesaurus: representing different views of biomedical concepts. Bull Med Libr Assoc 1993; 81(2): 217–22
Golub T, Slonim D, Tamayo P, et al. Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science 1999; 286(5439): 531–7
Zhong S, Storch K, Lipan O, et al. GoSurfer: a graphical interactive tool for comparative analysis of large gene sets in gene ontology space. Appl Bioinformatics 2005; 3(4): 261–4
Martinez-Cruz LA, Rubio A, Martinez-Chantar ML, et al. GARBAN: genomic analysis and rapid biological annotation of cDNA microarray and proteomic data. Bioinformatics 2003; 19(16): 2158–60
Dennis GJ, Sherman BT, Hosack DA, et al. DAVID: database for annotation, visualization, and integrated discovery. Genome Biol 2003; 4: R60
Joslyn CA, Mniszewski SM, Fulmer A, et al. The gene ontology categorizer. Bioinformatics 2004; 20Suppl. 1: 1169–77
Ji Y, Xu X, Stormo GD. A graph theoretical approach for predicting common RNA secondary structure motifs including pseudoknots in unaligned sequences. Bioinformatics 2004; 20(10): 1591–602
Berriz GF, King OD, Bryant B, et al. Characterizing gene sets with FuncAssociate. Bioinformatics 2003; 19(18): 2502–4
Cheung KH, de Knikker R, Guo Y, et al. Biosphere: the interOperation of web services in microarray cluster analysis. Appl Bioinformatics 2004; 3(4): 253–6
Fink JL, Drewes S, Patel H, et al. 2HAPI: a microarray data analysis system. Bioinformatics 2003; 19(11): 1443–5
Rihn BH, Vidal S, Nemurat C, et al. From transcriptomics to bibliomics. Med Sci Monit 2003 Aug; 9(8): MT89–95
Tanabe L, Scherf U, Smith LH, et al. MedMiner: an Internet text-mining tool for biomedical information, with application to gene expression profiling. Biotechniques 1999; 27(6): 1210–7
Djebbari A, Karamycheva S, Howe E, et al. MeSHer: identifying biological concepts in microarray assays based on PubMed references and MeSH terms. Bioinformatics 2005; 21(15): 3324–6
Masys DR, Welsh JB, Fink JL, et al. Use of keyword hierarchies to interpret gene expression patterns. Bioinformatics 2001; 17(4): 319–26
Bussey K, Kane D, Sunshine M, et al. MatchMiner: a tool for batch navigation among gene and gene product identifiers. Genome Biol 2003; 4(4): R27
Beissbarth T, Speed T. GOstat: find statistically overrepresented gene ontologies within a group of genes. Bioinformatics 2004; 20(9): 1464–5
Zhong S, Tian L, Li C, et al. Comparative analysis of gene sets in the gene ontology space under the multiple hypothesis testing framework. Proc IEEE Comp Systems Bioinformatics 2004; 4: 425–35
Broberg P. A comparative review of estimates of the proportion unchanged genes and the false discovery rate. BMC Bioinformatics 2005; 6: 199
Gentleman R, Scholtens D, Ding B, et al. Case studies using graph on biological data. In: Gentleman R, Carey V, Huber W, et al., editors. Bioinformatics and computational biology solutions using R and bioconductor. New York: Springer, 2005: 369–394
Open Biomedical Ontologies [online]. Available from URL: http://obo.sourceforge.net [Accessed 2006 Nov 13]