Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
PaCBAM: xử lý nhanh và có thể mở rộng dữ liệu giải trình tự toàn bộ exon và giải trình tự mục tiêu
Tóm tắt
Việc thẩm tra dữ liệu giải trình tự toàn bộ exon và giải trình tự mục tiêu (NGS) đang ngày càng trở thành phương pháp ưa chuộng cho việc khám phá các nhóm đông người trong bối cảnh nghiên cứu, và quan trọng hơn là trong ngữ cảnh y học chính xác. Việc truy xuất và xử lý dữ liệu mức độ gen và dữ liệu vị trí nucleotide đơn lẻ vẫn là những trở ngại chính trong phân tích dữ liệu NGS. Do đó, cần thiết phải có các công cụ nhanh chóng và có thể mở rộng. PaCBAM là một công cụ dùng dòng lệnh, được viết bằng ngôn ngữ C và được thiết kế để phân loại các vùng gen và các vị trí nucleotide đơn lẻ từ dữ liệu giải trình tự toàn bộ exon và giải trình tự mục tiêu. PaCBAM tính toán độ phủ và thống kê pileup theo kiểu alen, triển khai một động cơ tính toán đa nhân nhanh chóng và có thể mở rộng, giới thiệu một chiến lược lọc bản sao đọc nhanh chóng và hiệu quả theo kiểu on-the-fly, và cung cấp các tập tin đầu ra dạng văn bản toàn diện và các báo cáo hình ảnh. Chúng tôi minh chứng rằng PaCBAM khai thác tài nguyên tính toán song song tốt hơn so với các công cụ hiện có, dẫn đến giảm thời gian xử lý và mức sử dụng bộ nhớ đáng kể, qua đó enabling việc khám phá hiệu quả và nhanh chóng các tập dữ liệu lớn. PaCBAM là một công cụ nhanh chóng và có thể mở rộng được thiết kế để xử lý các vùng gen từ các tập tin dữ liệu NGS và tạo ra các thống kê toàn diện về độ phủ và pileup cho các phân tích tiếp theo. Công cụ này có thể dễ dàng tích hợp vào các pipeline xử lý NGS và có thể được tìm thấy trên Bitbucket và các hub Docker/Singularity.
Từ khóa
#Giải trình tự toàn bộ exon #giải trình tự mục tiêu #NGS #xử lý dữ liệu gen #PaCBAM #phân tích dữ liệu #y học chính xácTài liệu tham khảo
Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, et al. The sequence alignment/map format and SAMtools. Bioinformatics. 2009;25:2078–9.
Quinlan AR, Hall IM. BEDTools: a flexible suite of utilities for comparing genomic features. Bioinformatics. 2010;26:841–2.
Pedersen BS, Quinlan AR. Mosdepth: quick coverage calculation for genomes and exomes. Bioinformatics. 2018;34:867–8.
Tarasov A, Vilella AJ, Cuppen E, Nijman IJ, Prins P. Sambamba: fast processing of NGS alignment formats. Bioinformatics. 2015;31:2032–4.
DePristo MA, Banks E, Poplin R, Garimella KV, Maguire JR, Hartl C, et al. A framework for variation discovery and genotyping using next-generation DNA sequencing data. Nat Genet. 2011;43:491–8.
Romanel A, Lago S, Prandi D, Sboner A, Demichelis F. ASEQ: fast allele-specific studies from next-generation sequencing data. BMC Med Genet. 2015;8. https://doi.org/10.1186/s12920-015-0084-2.
Faust GG, Hall IM. SAMBLASTER: fast duplicate marking and structural variant read extraction. Bioinformatics. 2014;30:2503–5.
