Khoảng cách dựa trên nén (CBD): một phương pháp đơn giản, nhanh chóng và chính xác để so sánh thành phần vi khuẩn

BMC Bioinformatics - Tập 14 - Trang 1-12 - 2013
Fang Yang1,2, Nicholas Chia2,3,4, Bryan A White1,2,5, Lawrence B Schook1,2,5
1Division of Nutritional Sciences, University of Illinois at Urbana-Champaign, Urbana, USA
2Institute for Genomic Biology, University of Illinois at Urbana-Champaign, Urbana, USA
3Loomis Laboratory of Physics, University of Illinois at Urbana-Champaign, Urbana, USA
4Department of Surgical Research and Health Sciences Research, Mayo Clinic, Rochester, USA
5Department of Animal Sciences, University of Illinois at Urbana-Champaign, Urbana, USA

Tóm tắt

Sự thay đổi trong thành phần vi khuẩn đường ruột đã được liên kết với nhiều bệnh lý liên quan đến ống tiêu hóa. Việc giảm bớt triệu chứng đã được thực hiện thông qua các phương pháp điều trị làm thay đổi vi khuẩn trong ống tiêu hóa theo hướng giống với của những cá thể khỏe mạnh. Việc xác định sự khác biệt trong thành phần vi khuẩn thông qua việc sử dụng chuỗi gene 16S rRNA có phân đoạn biến đổi siêu biến là có ý nghĩa sâu sắc với sức khỏe. Các phương pháp tính toán hiện tại để so sánh các cộng đồng vi sinh vật thường dựa trên các căn chỉnh nhiều và suy diễn phát sinh chủng loài, điều này làm cho chúng tốn thời gian và yêu cầu chuyên môn cũng như tài nguyên tính toán đáng kể. Khi dữ liệu giải trình tự nhanh chóng tăng kích thước, các phương pháp phân tích đơn giản hơn là cần thiết để đáp ứng gánh nặng tính toán ngày càng tăng của các so sánh về vi khuẩn. Do đó, chúng tôi đã phát triển một phương pháp đơn giản, nhanh chóng và chính xác, độc lập với việc căn chỉnh nhiều và suy diễn phát sinh chủng loài, nhằm hỗ trợ cho các so sánh về vi khuẩn. Chúng tôi tạo ra một chỉ số, gọi là khoảng cách dựa trên nén (CBD) để định lượng mức độ tương đồng giữa các cộng đồng vi sinh vật. CBD sử dụng tính chất lặp đi lặp lại của các tập dữ liệu phân đoạn biến đổi siêu biến và các thuật toán nén đã được thiết lập tốt để ước lượng tổng thông tin được chia sẻ giữa hai tập dữ liệu. Ba tập dữ liệu vi khuẩn đã công bố được sử dụng làm ví dụ cho CBD như một công cụ khả thi. Nghiên cứu của chúng tôi cho thấy rằng CBD đã tái hiện 100% các kết luận có ý nghĩa thống kê được báo cáo trong các nghiên cứu trước đó, trong khi đạt được sự giảm thiểu về thời gian tính toán cần thiết khi so với các công cụ tương tự mà không cần can thiệp của người dùng chuyên gia. CBD cung cấp một phương pháp đơn giản, nhanh chóng và chính xác để đánh giá khoảng cách giữa các tập dữ liệu vi khuẩn 16S của ống tiêu hóa.

Từ khóa

#vi khuẩn đường ruột #so sánh vi khuẩn #khoảng cách dựa trên nén #16S rRNA #phương pháp tính toán

Tài liệu tham khảo

Savage DC: Microbial ecology of the gastrointestinal tract. Annu Rev Microbiol. 1977, 31 (6): 107-133. Jia W, Li H, Zhao L, Nicholson JK: Gut microbiota: a potential new territory for drug targeting. Nat Rev Drug Discov. 2008, 7 (2): 123-129. 10.1038/nrd2505. Hrncir T, Stepankova R, Kozakova H, Hudcovic T, Tlaskalova-Hogenova H: Gut microbiota and lipopolysaccharide content of the diet influence development of regulatory T cells: studies in germ-free mice. BMC Immunol. 2008, 9 (65): 65- Sekirov I, Russell SL, Caetano M, Antunes L, Finlay BB: Gut microbiota in health and disease. Physiol Rev. 2010, 90 (3): 859-904. 10.1152/physrev.00045.2009. Heijtz RD, Wang S, Anuar F, Qian Y, Björkholm B, Samuelsson A, Hibberd ML, Forssberg H, Pettersson S: Normal gut microbiota modulates brain development and behavior. Proc Natl Acad Sci USA. 2011, 108 (7): 3047-3052. 10.1073/pnas.1010529108. Ananthaswamy A: Bugs from your gut to mine. New Sci. 2011, 209 (2796): 8-9. 10.1016/S0262-4079(11)60124-3. Manichanh C, Rigottier-Gois L, Bonnaud E, Gloux K, Pelletier E, Frangeul L, Nalin R, Jarrin C, Chardon P, Marteau P, Roca J, Dore J: Reduced diversity of faecal microbiota in Crohn’s disease revealed by a metagenomic approach. Gut. 2006, 55 (2): 205-211. 10.1136/gut.2005.073817. Andoh A, Sakata S, Koizumi Y, Mitsuyama K, Fujiyama Y, Benno Y: Terminal restriction fragment length polymorphism analysis of the diversity of fecal microbiota in patients with ulcerative colitis. Inflamm Bowel Dis. 2007, 13 (8): 955-962. 10.1002/ibd.20151. Si J, Yu Y, Fan Y, Chen S: Intestinal microecology and quality of life in irritable bowel syndrome patients. World J Gastroenterol. 2004, 10 (12): 1802-1805. Ley RE, Bäckhed F, Turnbaugh P, Lozupone CA, Knight RD, Gordon JI: Obesity alters gut microbial ecology. Proc Natl Acad Sci USA. 2005, 102 (31): 11070-11075. 10.1073/pnas.0504978102. Ley RE, Turnbaugh PJ, Klein S, Gordon JI: Microbial ecology: Human gut microbes associated with obesity. Nature. 2006, 444 (7122): 1022-1023. 10.1038/4441022a. Khoruts A, Dicksved J, Jansson JK, Sadowsky MJ: Changes in the composition of the human fecal microbiome after bacteriotherapy for recurrent Clostridium difficile-associated diarrhea. J Clin Gastroenterol. 2010, 44 (5): 354-360. Yoon SS, Brandt LJ: Treatment of refractory/recurrent C. difficile-associated disease by donated stool transplanted via colonoscopy: a case series of 12 patients. J Clin Gastroenterol. 2010, 44 (8): 562-566. 10.1097/MCG.0b013e3181dac035. Duncan SH, Lobley GE, Holtrop G, Ince J, Johnstone AM, Louis P, Flint HJ: Human colonic microbiota associated with diet, obesity and weight loss. Int J Obes. 2008, 32 (11): 1720-1724. 10.1038/ijo.2008.155. Schwiertz A, Taras D, Schafer K, Beijer S, Bos NA, Donus C, Hardt PD: Microbiota and SCFA in lean and overweight healthy subjects. Obesity (Silver Spring). 2010, 18 (1): 190-195. 10.1038/oby.2009.167. Salonen A, De Vos WM, Palva A: Gastrointestinal microbiota in irritable bowel syndrome: present state and perspectives. Microbiology. 2010, 156 (Pt 11): 3205-3215. Pace NR: A molecular view of microbial diversity and the biosphere. Science. 1997, 276 (5313): 734-740. 10.1126/science.276.5313.734. Woese CR, Kandler O, Wheelis ML: Towards a natural system of organisms: Proposal for the domains Archaea, Bacteria, and Eucarya. Proc Natl Acad Sci USA. 1990, 87 (12): 4576-4579. 10.1073/pnas.87.12.4576. Schloss PD, Larget BR, Handelsman J: Integration of microbial ecology and statistics: a test to compare gene libraries. Appl Environ Microbiol. 2004, 70 (9): 5485-5492. 10.1128/AEM.70.9.5485-5492.2004. Singleton DR, Furlong MA, Rathbun SL, Whitman WB: Quantitative comparisons of 16S rRNA gene sequence libraries from environmental samples. Appl Environ Microbiol. 2001, 67 (9): 4374-4376. 10.1128/AEM.67.9.4374-4376.2001. Anderson M: A new method for non-parametric multivariate analysis of variance. Austral Ecol. 2001, 26 (1): 32-46. Excoffier L, Smouse P, Quattro J: Analysis of molecular variance inferred from metric distances among DNA haplotypes - application to human mitochondrial-DNA restriction data. Genetics. 1992, 131 (2): 479-491. Martin AP: Phylogenetic approaches for describing and comparing the diversity of microbial communities. Appl Environ Microbiol. 2002, 68 (8): 3673-3682. 10.1128/AEM.68.8.3673-3682.2002. Fitch W: Toward defining course of evolution - minimum change for a specific tree topology. Syst Zool. 1971, 20 (4): 406-416. 10.2307/2412116. Maddison W, Slatkin M: Null models for the number of evolutionary steps in a character on a phylogenetic tree. Evolution. 1991, 45 (5): 1184-1197. 10.2307/2409726. Lozupone C, Hamady M, Knight R: UniFrac - an online tool for comparing microbial community diversity in a phylogenetic context. BMC Bioinformatics. 2006, 7: 371-10.1186/1471-2105-7-371. Lozupone C, Knight R: UniFrac: a new phylogenetic method for comparing microbial communities. Appl Environ Microbiol. 2005, 71 (12): 8228-8235. 10.1128/AEM.71.12.8228-8235.2005. Lozupone C, Lladser ME, Knights D, Stombaugh J, Knight R: UniFrac: an effective distance metric for microbial community comparison. ISME J. 2011, 5 (2): 169-172. 10.1038/ismej.2010.133. White JR, Navlakha S, Nagarajan N, Ghodsi M, Kingsford C, Pop M: Alignment and clustering of phylogenetic markers - implications for microbial diversity studies. BMC Bioinformatics. 2010, 11: 152-10.1186/1471-2105-11-152. Schloss PD: The effects of alignment quality, distance calculation method, sequence filtering, and region on the analysis of 16S rRNA gene-based studies. PLoS Comput Biol. 2010, 6 (7): e1000844-10.1371/journal.pcbi.1000844. Sipos M, Jeraldo P, Chia N, Qu A, Dhillon AS, Konkel ME, Nelson KE, White BA, Goldenfeld N: Robust computational analysis of rRNA hypervariable tag datasets. PLoS One. 2010, 5 (12): e15220-10.1371/journal.pone.0015220. Rudi K, Zimonja M, Kvenshagen B, Rugtveit J, Midtvedt T, Eggesbo M: Alignment-independent comparisons of human gastrointestinal tract microbial communities in a multidimensional 16S rRNA gene evolutionary space. Appl Environ Microbiol. 2007, 73 (8): 2727-2734. 10.1128/AEM.01205-06. Li M, Vitányi P: An introduction to Kolmogorov complexity and its applications. 2008, New York: Springer Li M, Chen X, Li X, Ma B, Vitanyi PMB: The similarity metric. IEEE Trans Inf Theory. 2004, 50 (12): 3250-3264. 10.1109/TIT.2004.838101. Cilibrasi R, Vitanyi PMB: Clustering by compression. IEEE Trans Inf Theory. 2005, 51 (4): 1523-1545. 10.1109/TIT.2005.844059. Nykter M, Price ND, Aldana M, Ramsey SA, Kauffman SA, Hood LE, Yli-Harja O, Shmulevich I: Gene expression dynamics in the macrophage exhibit criticality. Proc Natl Acad Sci USA. 2008, 105 (6): 1897-1900. 10.1073/pnas.0711525105. Otu HH, Sayood K: A new sequence distance measure for phylogenetic tree construction. Bioinformatics. 2003, 19 (16): 2122-2130. 10.1093/bioinformatics/btg295. Kocsor A, Kertész-Farkas A, Kaján L, Pongor S: Application of compression-based distance measures to protein sequence classification: A methodological study. Bioinformatics. 2006, 22 (4): 407-412. 10.1093/bioinformatics/bti806. Santoni D, Romano-Spica V: A gzip-based algorithm to identify bacterial families by 16S rRNA. Lett Appl Microbiol. 2006, 42 (4): 312-314. 10.1111/j.1472-765X.2006.01872.x. Schloss PD, Westcott SL, Ryabin T, Hall JR, Hartmann M, Hollister EB, Lesniewski RA, Oakley BB, Parks DH, Robinson CJ, Sahl JW, Stres B, Thallinger GG, Van Horn DJ, Weber CF: Introducing mothur: open-source, platform-independent, community-supported software for describing and comparing microbial communities. Appl Environ Microbiol. 2009, 75 (23): 7537-7541. 10.1128/AEM.01541-09. Caporaso JG, Kuczynski J, Stombaugh J, Bittinger K, Bushman FD, Costello EK, Fierer N, Pẽa AG, Goodrich JK, Gordon JI, Huttley GA, Kelley ST, Knights D, Koenig JE, Ley RE, Lozupone CA, McDonald D, Muegge BD, Pirrung M, Reeder J, Sevinsky JR, Turnbaugh PJ, Walters WA, Widmann J, Yatsunenko T, Zaneveld J, Knight R: QIIME allows analysis of high-throughput community sequencing data. Nat Methods. 2010, 7 (5): 335-336. 10.1038/nmeth.f.303. Turnbaugh PJ, Hamady M, Yatsunenko T, Cantarel BL, Duncan A, Ley RE, Sogin ML, Jones WJ, Roe BA, Affourtit JP, Egholm M, Henrissat B, Heath AC, Knight R, Gordon JI: A core gut microbiome in obese and lean twins. Nature. 2009, 457 (7228): 480-484. 10.1038/nature07540. Turnbaugh PJ, Ridaura VK, Faith JJ, Rey FE, Knight R, Gordon JI: The effect of diet on the human gut microbiome: a metagenomic analysis in humanized gnotobiotic mice. Sci Transl Med. 2009, 1 (6): 6ra14-10.1126/scitranslmed.3000322. Walker AW, Sanderson JD, Churcher C, Parkes GC, Hudspith BN, Rayment N, Brostoff J, Parkhill J, Dougan G, Petrovska L: High-throughput clone library analysis of the mucosa-associated microbiota reveals dysbiosis and differences between inflamed and non-inflamed regions of the intestine in inflammatory bowel disease. BMC Microbiol. 2011, 11: 7-10.1186/1471-2180-11-7. Caporaso JG, Lauber CL, Walters WA, Berg-Lyons D, Lozupone CA, Turnbaugh PJ, Fierer N, Knight R: Global patterns of 16S rRNA diversity at a depth of millions of sequences per sample. Proc Natl Acad Sci USA. 2011, 108 (SUPPL. 1): 4516-4522. Bartram AK, Lynch MDJ, Stearns JC, Moreno-Hagelsieb G, Neufeld JD: Generation of multimillion-sequence 16S rRNA gene libraries from complex microbial communities by assembling paired-end Illumina reads. Appl Environ Microbiol. 2011, 77 (11): 3846-3852. 10.1128/AEM.02772-10. Caporaso JG, Lauber CL, Walters WA, Berg-Lyons D, Huntley J, Fierer N, Owens SM, Betley J, Fraser L, Bauer M, Gormley N, Gilbert JA, Smith G, Knight R: Ultra-high-throughput microbial community analysis on the Illumina HiSeq and MiSeq platforms. ISME J. 2012, 6 (8): 1621-1624. 10.1038/ismej.2012.8. Smith MI, Yatsunenko T, Manary MJ, Trehan I, Mkakosya R, Cheng J, Kau AL, Rich SS, Concannon P, Mychaleckyj JC, Liu J, Houpt E, Li JV, Holmes E, Nicholson J, Knights D, Ursell LK, Knight R, Gordon JI: Gut microbiomes of Malawian twin pairs discordant for kwashiorkor. Science. 2013, 339 (6119): 548-554. 10.1126/science.1229000. Qin J, Li R, Raes J, Arumugam M, Burgdorf KS, Manichanh C, Nielsen T, Pons N, Levenez F, Yamada T, Mende DR, Li J, Xu J, Li S, Li D, Cao J, Wang B, Liang H, Zheng H, Xie Y, Tap J, Lepage P, Bertalan M, Batto J, Hansen T, Le Paslier D, Linneberg A, Nielsen HB, Pelletier E, Renault P: A human gut microbial gene catalogue established by metagenomic sequencing. Nature. 2010, 464 (7285): 59-65. 10.1038/nature08821. Mugavin ME: Multidimensional scaling - a brief overview. Nurs Res. 2008, 57 (1): 64-68. 10.1097/01.NNR.0000280659.88760.7c. Hunter JD: Matplotlib: a 2D graphics environment. Comput Sci Eng. 2007, 9 (3): 90-95.