Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Các phương pháp phát sinh chủng để phân loại cộng đồng vi sinh vật
Tóm tắt
Vi sinh vật từ các khu vực khác nhau trên cơ thể được thống trị bởi các nhóm vi sinh vật chính khác nhau, nhưng sự biến đổi trong một khu vực cơ thể như miệng có thể tinh vi hơn. Các mô hình dự đoán chính xác có thể là công cụ hữu ích để phân biệt các vị trí phụ và hiểu các sinh vật chính cũng như vai trò của chúng, đồng thời có thể làm nổi bật những sai lệch so với sự phân bố vi sinh vật mong đợi. Phân loại tốt phụ thuộc vào việc lựa chọn đúng kết hợp giữa bộ phân loại, đại diện đặc trưng và mô hình học. Các quy trình học máy đã được sử dụng trong quá khứ cho việc phân loại có giám sát, nhưng việc chú ý nhiều hơn đến việc đại diện và lựa chọn đặc trưng có thể tạo ra các mô hình và dự đoán tốt hơn. Chúng tôi đã tập trung chú ý vào việc phân loại chín vị trí miệng và đặc biệt là mảng bám răng, sử dụng dữ liệu thu thập từ Dự án Vi sinh vật học Nhân loại (Human Microbiome Project). Một điểm chính trong các đại diện của chúng tôi là việc sử dụng thông tin phát sinh chủng, cả như cơ sở cho các hạt tùy chỉnh và như một cách để biểu diễn các tập hợp vi sinh vật cho bộ phân loại. Chúng tôi cũng đã sử dụng phần mềm PICRUSt, dựa trên các mối quan hệ phát sinh chủng để dự đoán chức năng phân tử và tạo ra các đặc trưng bổ sung cho bộ phân loại. Các hạt tùy chỉnh dựa trên đo lường sự khác biệt cộng đồng UniFrac không làm cải thiện hiệu suất. Tuy nhiên, việc đại diện đặc trưng rất quan trọng cho độ chính xác phân loại, với các đại diện về nhánh vi sinh vật và chức năng cung cấp thông tin hữu ích cho bộ phân loại; việc kết hợp hai loại đặc trưng không mang lại sự gia tăng độ chính xác dự đoán. Nhiều nhánh và chức năng có hiệu suất tốt nhất có mối liên hệ rõ ràng với hệ vi sinh vật miệng. Việc phân loại vi sinh vật miệng vẫn là một vấn đề đầy thách thức; độ chính xác tốt nhất của chúng tôi trên tập dữ liệu mảng bám là khoảng 81 %. Độ chính xác hoàn hảo có thể không thể đạt được do sự gần gũi của các vị trí và biến đổi trong cá thể. Tuy nhiên, việc khám phá thêm về không gian của cả bộ phân loại và đại diện đặc trưng có khả năng tăng độ chính xác của các mô hình dự đoán.
Từ khóa
#vi sinh vật #phân loại cộng đồng #phát sinh chủng #hệ vi sinh vật miệng #học máyTài liệu tham khảo
Costello EK, Lauber CL, Hamady M, Fierer N, Gordon JI, Knight R. Bacterial community variation in human body habitats across space and time. Science. 2009;326:1694–7.
Zhou Y, Gao H, Mihindukulasuriya KA, La Rosa PS, Wylie KM, Vishnivetskaya T, et al. Biogeography of the ecosystems of the healthy human body. Genome Biol. 2013;14:R1.
Schloss PD. Microbiology: an integrated view of the skin microbiome. Nature. 2014;514:44–5.
Cho I, Blaser MJ. The human microbiome: at the interface of health and disease. Nat Rev Genet. 2012;13:260–70.
Parks DH, Beiko RG. Measures of phylogenetic differentiation provide robust and complementary insights into microbial communities. ISME J. 2013;7:173–83.
Huse SM, Ye Y, Zhou Y, Fodor AA. A core human microbiome as viewed through 16S rRNA sequence clusters. PLoS One. 2012;7:1–12.
Galimanas V, Hall MW, Singh N, Lynch MDJ, Goldberg M, Tenenbaum H, et al. Bacterial community composition of chronic periodontitis and novel oral sampling sites for detecting disease indicators. Microbiome. 2014;2:32.
Turnbaugh PJ, Hamady M, Yatsunenko T, Cantarel BL, Duncan A, Ley RE, et al. A core gut microbiome in obese and lean twins. Nature. 2009;457:480–4.
Schmidt BL, Kuczynski J, Bhattacharya A, Huey B, Corby PM, Queiroz ELS, et al. Changes in abundance of oral microbiota associated with oral cancer. PLoS One. 2014;9:e98741.
Wade WG. The oral microbiome in health and disease. Pharmacol Res. 2013;69:137–43.
Grice EA, Kong HH, Conlan S, Deming CB, Davis J, Young AC, et al. Topographical and temporal diversity of the human skin. Science (80-). 2009;324:1190–2.
Segata N, Haake SK, Mannon P, Lemon KP, Waldron L, Gevers D, et al. Composition of the adult digestive tract bacterial microbiome based on seven mouth surfaces, tonsils, throat and stool samples. Genome Biol. 2012;13:R42.
Ximénez-Fyvie LA, Haffajee AD, Socransky SS. Comparison of the microbiota of supra- and subgingival plaque in health and periodontitis. J Clin Periodontol. 2000;27:648–57.
Bik EM, Long CD, Armitage GC, Loomer P, Emerson J, Mongodin EF, et al. Bacterial diversity in the oral cavity of 10 healthy individuals. ISME J. 2010;4:962–74.
Costello EK, Stagaman K, Dethlefsen L, Bohannan BJM, Relman DA. The application of ecological theory. Science. 2012;336(6086):1255–62.
Ding T, Schloss PD. Dynamics and associations of microbial community types across the human body. Nature. 2014;509:357–60.
Simón-Soro A, Tomás L, Cabrera-Rubio R, Catalan MD, Nyvad B, Mira A. Microbial geography of the oral cavity. J Dent Res. 2013;92:616–21.
Meadow JF, Bateman AC, Herkert KM, O’Connor TK, Green JL. Significant changes in the skin microbiome mediated by the sport of roller derby. PeerJ. 2013;1:e53.
Kort R, Caspers M, Van De GA, Van EW, Keijser B, Roeselers G. Shaping the oral microbiota through intimate kissing. Microbiome. 2014;2:1–8.
Faust K, Sathirapongsasuti JF, Izard J, Segata N, Gevers D, Raes J, et al. Microbial co-occurrence relationships in the human microbiome. PLoS Comput Biol. 2012;8:e1002606.
Claridge JE, Attorri S, Musher DM, Hebert J, Dunbar S. Streptococcus intermedius, Streptococcus constellatus, and Streptococcus anginosus (“Streptococcus milleri group”) are of different clinical importance and are not equally associated with abscess. Clin Infect Dis. 2001;32:1511–5.
Knights D, Costello EK, Knight R. Supervised classification of human microbiota. FEMS Microbiol Rev. 2011;35:343–59.
Knights D, Kuczynski J, Charlson ES, Zaneveld J, Mozer MC, Collman RG, et al. Bayesian community-wide culture-independent microbial source tracking. Nat Methods. 2011;8:761–3.
Statnikov A, Henaff M, Narendra V, Konganti K, Li Z, Yang L, et al. A comprehensive evaluation of multicategory classification methods for microbiomic data. Microbiome. 2013;1:11.
Wang Y, Zhou Y, Li Y, Ling Z, Zhu Y, Guo X, et al. An improved dimensionality reduction method for meta-transcriptome indexing based diseases classification. BMC Syst Biol. 2012;6(3):S12.
Liu Z, Hsiao W, Cantarel BL, Drábek EF, Fraser-Liggett C. Sparse distance-based learning for simultaneous multiclass classification and feature selection of metagenomic data. Bioinformatics. 2011;27:3242–9.
Saeys Y, Inza I, Larrañaga P. A review of feature selection techniques in bioinformatics. Bioinformatics. 2007;23:2507–17.
Lozupone C, Knight R. UniFrac: a new phylogenetic method for comparing microbial communities UniFrac: a new phylogenetic method for comparing microbial communities. Appl Environ Microbiol. 2005;71(12):8228–35.
Lozupone C, Lladser ME, Knights D, Stombaugh J, Knight R. UniFrac: an effective distance metric for microbial community comparison. ISME J. 2011;5:169–72.
Chang Q, Luan Y, Sun F. Variance adjusted weighted UniFrac: a powerful beta diversity measure for comparing communities based on phylogeny. BMC Bioinformatics. 2011;12:118.
Langille MGI, Zaneveld J, Caporaso JG, McDonald D, Knights D, Reyes JA, et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nat Biotechnol. 2013;31:814–21.
Andam CP, Gogarten JP. Biased gene transfer and its implications for the concept of lineage. Biol Direct. 2011;6:47.
The NIH HMP Working Group. The NIH human microbiome project. Genome Res. 2009;19:2317–23.
Human microbiome project [ftp://public-ftp.hmpdacc.org] Access February 4, 2014.
Gonzalez A, Stombaugh J, Lauber CL, Fierer N, Knight R. SitePainter: a tool for exploring biogeographical patterns. Bioinformatics. 2012;28:436–8.
Caporaso JG, Kuczynski J, Stombaugh J, Bittinger K, Bushman FD, Costello EK, et al. QIIME allows analysis of high-throughput community sequencing data. Nat Methods. 2010;7:335–6.
Edgar RC. Search and clustering orders of magnitude faster than BLAST. Bioinformatics. 2010;26:2460–1.
DeSantis TZ, Hugenholtz P, Larsen N, Rojas M, Brodie EL, Keller K, et al. Greengenes, a chimera-checked 16S rRNA gene database and workbench compatible with ARB. Appl Environ Microbiol. 2006;72:5069–72.
Caporaso JG, Bittinger K, Bushman FD, Desantis TZ, Andersen GL, Knight R. PyNAST: a flexible tool for aligning sequences to a template alignment. Bioinformatics. 2010;26:266–7.
Price MN, Dehal PS, Arkin AP. Fasttree: computing large minimum evolution trees with profiles instead of a distance matrix. Mol Biol Evol. 2009;26:1641–50.
Huerta-Cepas J, Dopazo J, Gabaldón T. ETE: a python environment for tree exploration. BMC Bioinformatics. 2010;11:24.
Kanehisa M, Goto S, Sato Y, Furumichi M, Tanabe M. KEGG for integration and interpretation of large-scale molecular data sets. Nucleic Acids Res. 2012;40:109–14.
Yang Y, Pedersen JO. A comparative study on feature selection in text categorization. Mach Learn Work Then Conf. 1997;9:412–20.
Zheng Z, Wu X, Srihari R, Srihani R. Feature selection for text categorization on imbalanced data. ACM SIGKDD Explor Newsl. 2004;6:80–9.
Altmann A, Toloşi L, Sander O, Lengauer T. Permutation importance: a corrected feature importance measure. Bioinformatics. 2010;26:1340–7.
Cortes C, Vapnik V: Support-Vector Networks. Mach Learn. 1995, 20:273–297.
Chang C-C, Lin C-J. LIBSVM. ACM Trans Intell Syst Technol. 2011;2:1–27.
Davis L, Hawkins J, Maetschke SR, Boden M. Comparing SVM sequence kernels: a subcellular localization theme. 2006 Work Intell Syst Bioinforma (WISB 2006). 2006;73(Platt):39–47.
Chen J, Li H. Topics in applied statistics. Springer Proceedings in Mathematics & Statistics. 2013;55:191–201.
Paulson JN, Stine OC, Bravo HC, Pop M. Differential abundance analysis for microbial marker-gene surveys. Nat Methods. 2013;10:1200–2.
Breiman L. Random forests. Mach Learn. 2001;45:5–32.
Pedregosa F, Varoquax G, Gramfort A, Michel V, Thirion B, Grisel O, et al. Scikit-learn: machine learning in Python. J Mach Learn Res. 2011;12:2825–30.
McInnes P, Cutting M. Manual of procedures for human microbiome project: Core microbiome sampling, protocol A, HMP protocol no. 07–001, version 11. 2010. Current version: http://hmpdacc.org/doc/HMP_MOP_Version12_0_072910.pdf.
Daniluk T, Tokajuk G. Aerobic and anaerobic bacteria in subgingival and supragingival plaques of adult patients with periodontal disease. Adv Med Sci. 2006;51(1):81–5.
Zijnge V, Van Leeuwen MBM, Degener JE, Abbas F, Thurnheer T, Gmür R, et al. Oral biofilm architecture on natural teeth. PLoS One. 2010;5:1–9.
Aas JA, Paster BJ, Stokes LN, Olsen I, Dewhirst FE. Defining the normal bacterial flora of the oral cavity defining the normal bacterial flora of the oral cavity. J Clin Microbiol. 2005;43:5721–32.
Kuczynski J, Liu Z, Lozupone C, McDonald D, Fierer N, Knight R. Microbial community resemblance methods differ in their ability to detect biologically relevant patterns. Nat Methods. 2010;7:813–9.
Xu Z, Malmer D, Langille MGI, Way SF, Knight R: Which is more important for classifying microbial communities: who’s there or what they can do? ISME J 2014;8:1–3.
Salim KY, De Azavedo JC, Bast DJ, Cvitkovitch DG. Role for sagA and siaA in quorum sensing and iron regulation in Streptococcus pyogenes. Infect Immun. 2007;75:5011–7.
Bates CS, Montañez GE, Woods CR, Vincent RM, Eichenbaum Z. Identification and characterization of a Streptococcus pyogenes operon involved in binding of hemoproteins and acquisition of iron. Infect Immun. 2003;71:1042–55.
Schymeinsky J, Mócsai A, Walzog B. Neutrophil activation via beta2 integrins (CD11/CD18): molecular mechanisms and clinical implications. Thromb Haemost. 2007;98:262–73.
Mahé F, Rognes T, Quince C, de Vargas C, Dunthorn M. Swarm: robust and fast clustering method for amplicon-based studies. PeerJ. 2014;25:e593.
Tikhonov M, Leach RW, Wingreen NS. Interpreting 16S metagenomic data without clustering to achieve sub-OTU resolution. ISME J. 2015;9:68–80.