STRAIN: một gói R để phân loại nhiều vị trí trình tự từ dữ liệu giải trình tự toàn bộ gen

BMC Bioinformatics - Tập 20 - Trang 1-8 - 2019
Mattia Dalsass1,2, Margherita Bodini1, Christophe Lambert3, Marie-Cécile Mortier3, Marco Romanelli1,4, Duccio Medini1, Alessandro Muzzi1, Alessandro Brozzi1
1GSK, Siena, Italy
2Present address: Department of Experimental Oncology, European Institute of Oncology, Milan, Italy
3GSK, Rixensart, Belgium
4Università degli Studi di Siena, Siena, Italy

Tóm tắt

Phân loại trình tự nhiều vị trí (MLST) là một kỹ thuật phân loại tiêu chuẩn được sử dụng để liên kết một kiểu trình tự (ST) với một mẫu vi khuẩn. Khi kết quả giải trình tự toàn bộ gen (WGS) của một mẫu có sẵn, ST có thể được gán trực tiếp thông qua việc xử lý tập hợp đọc. Các phương pháp hiện tại sử dụng ánh xạ đọc (SRST2) đối với các vị trí MLST, phân bố k-mer (stringMLST), lắp ráp chọn lọc (GRAbB) hoặc lắp ráp toàn bộ gen (BIGSdb) tiếp theo là truy vấn trình tự BLASTn. Ở đây, chúng tôi giới thiệu STRAIN (ST Reduced Assembly IdentificatioN), một gói R thực hiện một chiến lược kết hợp giữa lắp ráp và ánh xạ các đọc để gán ST cho một mẫu bắt đầu từ các tập hợp đọc của nó. Phân tích 540 tập dữ liệu đọc Illumina có sẵn công khai cho thấy STRAIN chính xác hơn trong việc gán các alen đúng và xác định các alen mới so với SRTS2, stringMLST và GRAbB. STRAIN đã gán chính xác 3666 trên tổng số 3780 alen (khả năng xác định alen đúng 97%) và, khi được cung cấp các mẫu chứa alen mới, đã xác định chúng trong 3730 trên tổng số 3780 ST (khả năng xác định alen mới 98,7%) trong các trường hợp. Trên cùng một tập dữ liệu, các công cụ khác được kiểm tra đạt được khả năng xác định alen đúng thấp hơn (từ 28,5 đến 96,9%) và khả năng xác định alen mới thấp hơn (từ 1,1 đến 97,1%). STRAIN là một phương pháp mới chính xác để gán alen và ST cho một mẫu bằng cách xử lý đầu ra đọc thô của WGS. STRAIN cũng có khả năng truy xuất các trình tự alen mới nếu có. Khả năng xác định các ST/alen đúng và mới, được đánh giá trên một tập dữ liệu chuẩn, cao hơn so với các phương pháp hiện có khác. STRAIN được thiết kế cho phân loại alen đơn cũng như MLST. Việc triển khai STRAIN trong R làm cho việc gán alen và ST trở nên đơn giản, trực tiếp và nhanh chóng được tích hợp vào quy trình phân tích sinh bioinformatics rộng hơn.

Từ khóa


Tài liệu tham khảo

Maiden MCJ, Jansen van Rensburg MJ, Bray JE, Earle SG, Ford Sa, Jolley Ka, McCarthy ND. MLST revisited: the gene-by-gene approach to bacterial genomics. Nat Rev Microbiol. 2013;11(10):728–36. https://doi.org/10.1038/nrmicro3093. Jolley KA, Maiden MC. BIGSdb: scalable analysis of bacterial genome variation at the population level. BMC Bioinformatics. 2010;11(1):595. https://doi.org/10.1186/1471-2105-11-595. Inouye M, Dashnow H, Raven L-A, Schultz MB, Pope BJ, Tomita T, Zobel J, Holt KE. SRST2: rapid genomic surveillance for public health and hospital microbiology labs. Genome medicine. 2014;6(11):90. https://doi.org/10.1186/s13073-014-0090-6. Gupta A, Jordan IK, Rishishwar L. stringMLST: a fast k-mer based tool for multi locus sequence typing. Bioinformatics (Oxford, England). 2016;33(September 2016):586. https://doi.org/10.1093/bioinformatics/btw586. Brankovics B, Zhang H, van Diepeningen AD, van der Lee TAJ, Waalwijk C, de Hoog GS. GRAbB: selective assembly of genomic regions, a new niche for genomic research. PLoS Comput Biol. 2016;12(6):1–9. https://doi.org/10.1371/journal.pcbi.1004753. Langmead B, Salzberg SL. Fast gapped-read alignment with bowtie 2. Nat Methods. 2012;9(4):357–9. https://doi.org/10.1038/nmeth.1923. Bankevich A, Nurk S, Antipov D, Gurevich AA, Dvorkin M, Kulikov AS, Lesin VM, Nikolenko SI, Pham S, Prjibelski AD, Pyshkin AV, Sirotkin AV, Vyahhi N, Tesler G, Alekseyev Ma, Pevzner Pa. SPAdes: a new genome assembly algorithm and its applications to single-cell sequencing. J Comput Biol. 2012;19(5):455–77. https://doi.org/10.1089/cmb.2012.0021. Zerbino DR, Birney E. Velvet: algorithms for de novo short read assembly using de Bruijn graphs. Genome Res. 2008;18(5):821–9. https://doi.org/10.1101/gr.074492.107.0209100. Bolger AM, Lohse M, Usadel B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 2014;30:2114–20. Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, Marth G, Abecasis G, Durbin R. The sequence alignment/map format and SAMtools. Bioinformatics. 2009;25(16):2078–9. https://doi.org/10.1093/bioinformatics/btp352.1006.1266v2. Quinlan AR, Hall IM. BEDTools: a flexible suite of utilities for comparing genomic features. Bioinformatics. 2010;26:841–2. Altschul SF, Gish W, Miller WT, Myers EW, Lipman DJ. Basic local alignment search tool. J Mol Biol [Internet]. 1990;215:403–410.