Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo

STRAIN: một gói R để phân loại nhiều vị trí trình tự từ dữ liệu giải trình tự toàn bộ gen

BMC Bioinformatics - Tập 20 - Trang 1-8 - 2019

Mattia Dalsass^1,2, Margherita Bodini¹, Christophe Lambert³, Marie-Cécile Mortier³, Marco Romanelli^1,4, Duccio Medini¹, Alessandro Muzzi¹, Alessandro Brozzi¹

¹GSK, Siena, Italy

²Present address: Department of Experimental Oncology, European Institute of Oncology, Milan, Italy

³GSK, Rixensart, Belgium

⁴Università degli Studi di Siena, Siena, Italy

Tóm tắt

Phân loại trình tự nhiều vị trí (MLST) là một kỹ thuật phân loại tiêu chuẩn được sử dụng để liên kết một kiểu trình tự (ST) với một mẫu vi khuẩn. Khi kết quả giải trình tự toàn bộ gen (WGS) của một mẫu có sẵn, ST có thể được gán trực tiếp thông qua việc xử lý tập hợp đọc. Các phương pháp hiện tại sử dụng ánh xạ đọc (SRST2) đối với các vị trí MLST, phân bố k-mer (stringMLST), lắp ráp chọn lọc (GRAbB) hoặc lắp ráp toàn bộ gen (BIGSdb) tiếp theo là truy vấn trình tự BLASTn. Ở đây, chúng tôi giới thiệu STRAIN (ST Reduced Assembly IdentificatioN), một gói R thực hiện một chiến lược kết hợp giữa lắp ráp và ánh xạ các đọc để gán ST cho một mẫu bắt đầu từ các tập hợp đọc của nó. Phân tích 540 tập dữ liệu đọc Illumina có sẵn công khai cho thấy STRAIN chính xác hơn trong việc gán các alen đúng và xác định các alen mới so với SRTS2, stringMLST và GRAbB. STRAIN đã gán chính xác 3666 trên tổng số 3780 alen (khả năng xác định alen đúng 97%) và, khi được cung cấp các mẫu chứa alen mới, đã xác định chúng trong 3730 trên tổng số 3780 ST (khả năng xác định alen mới 98,7%) trong các trường hợp. Trên cùng một tập dữ liệu, các công cụ khác được kiểm tra đạt được khả năng xác định alen đúng thấp hơn (từ 28,5 đến 96,9%) và khả năng xác định alen mới thấp hơn (từ 1,1 đến 97,1%). STRAIN là một phương pháp mới chính xác để gán alen và ST cho một mẫu bằng cách xử lý đầu ra đọc thô của WGS. STRAIN cũng có khả năng truy xuất các trình tự alen mới nếu có. Khả năng xác định các ST/alen đúng và mới, được đánh giá trên một tập dữ liệu chuẩn, cao hơn so với các phương pháp hiện có khác. STRAIN được thiết kế cho phân loại alen đơn cũng như MLST. Việc triển khai STRAIN trong R làm cho việc gán alen và ST trở nên đơn giản, trực tiếp và nhanh chóng được tích hợp vào quy trình phân tích sinh bioinformatics rộng hơn.

Từ khóa

Tài liệu tham khảo

Maiden MCJ, Jansen van Rensburg MJ, Bray JE, Earle SG, Ford Sa, Jolley Ka, McCarthy ND. MLST revisited: the gene-by-gene approach to bacterial genomics. Nat Rev Microbiol. 2013;11(10):728–36. https://doi.org/10.1038/nrmicro3093. Jolley KA, Maiden MC. BIGSdb: scalable analysis of bacterial genome variation at the population level. BMC Bioinformatics. 2010;11(1):595. https://doi.org/10.1186/1471-2105-11-595. Inouye M, Dashnow H, Raven L-A, Schultz MB, Pope BJ, Tomita T, Zobel J, Holt KE. SRST2: rapid genomic surveillance for public health and hospital microbiology labs. Genome medicine. 2014;6(11):90. https://doi.org/10.1186/s13073-014-0090-6. Gupta A, Jordan IK, Rishishwar L. stringMLST: a fast k-mer based tool for multi locus sequence typing. Bioinformatics (Oxford, England). 2016;33(September 2016):586. https://doi.org/10.1093/bioinformatics/btw586. Brankovics B, Zhang H, van Diepeningen AD, van der Lee TAJ, Waalwijk C, de Hoog GS. GRAbB: selective assembly of genomic regions, a new niche for genomic research. PLoS Comput Biol. 2016;12(6):1–9. https://doi.org/10.1371/journal.pcbi.1004753. Langmead B, Salzberg SL. Fast gapped-read alignment with bowtie 2. Nat Methods. 2012;9(4):357–9. https://doi.org/10.1038/nmeth.1923. Bankevich A, Nurk S, Antipov D, Gurevich AA, Dvorkin M, Kulikov AS, Lesin VM, Nikolenko SI, Pham S, Prjibelski AD, Pyshkin AV, Sirotkin AV, Vyahhi N, Tesler G, Alekseyev Ma, Pevzner Pa. SPAdes: a new genome assembly algorithm and its applications to single-cell sequencing. J Comput Biol. 2012;19(5):455–77. https://doi.org/10.1089/cmb.2012.0021. Zerbino DR, Birney E. Velvet: algorithms for de novo short read assembly using de Bruijn graphs. Genome Res. 2008;18(5):821–9. https://doi.org/10.1101/gr.074492.107.0209100. Bolger AM, Lohse M, Usadel B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 2014;30:2114–20. Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, Marth G, Abecasis G, Durbin R. The sequence alignment/map format and SAMtools. Bioinformatics. 2009;25(16):2078–9. https://doi.org/10.1093/bioinformatics/btp352.1006.1266v2. Quinlan AR, Hall IM. BEDTools: a flexible suite of utilities for comparing genomic features. Bioinformatics. 2010;26:841–2. Altschul SF, Gish W, Miller WT, Myers EW, Lipman DJ. Basic local alignment search tool. J Mol Biol [Internet]. 1990;215:403–410.

Scholar Hub - Công cụ hỗ trợ trích dẫn và phân tích khoa học Việt Nam

Về chúng tôi

Scholar Hub là công cụ hỗ trợ trích dẫn và phân tích các bài báo, công bố khoa học Việt Nam. Công cụ trợ giúp người nghiên cứu, tạp chí, đơn vị nghiên cứu tra cứu, phân tích và thống kê dữ liệu nghiên cứu khoa học tại Việt Nam và quốc tế.
ScholarHub KHÔNG đăng thông tin tổng hợp, KHÔNG đăng lại nội dung từ các trang báo chí Việt Nam hoặc trang thông tin điện tử khác tại Việt Nam.

Thông tin, cập nhật

Đăng ký Tạp chí tham gia vào Scholar Hub

Phản hồi ý kiến về Scholar Hub

Bài viết, nội dung cập nhật

Chủ đề khoa học

Website liên kết

Hệ thống CSDL Khoa học & Công nghệ

Phần mềm kiểm tra trùng lặp Kiểm Tra Tài Liệu

Phần mềm xuất bản tạp chí điện tử VOJS

Nền tảng trắc nghiệm và đề thi đa lĩnh vực LetQA