fastp: một công cụ tiền xử lý FASTQ siêu nhanh đa năng
Tóm tắt
Kiểm soát chất lượng và tiền xử lý các tệp FASTQ là rất cần thiết để cung cấp dữ liệu sạch cho các phân tích tiếp theo. Truyền thống, một công cụ khác nhau được sử dụng cho mỗi thao tác, chẳng hạn như kiểm soát chất lượng, cắt adapter và lọc chất lượng. Những công cụ này thường không đủ nhanh vì hầu hết được phát triển bằng các ngôn ngữ lập trình cấp cao (ví dụ: Python và Java) và cung cấp hỗ trợ đa luồng hạn chế. Việc đọc và tải dữ liệu nhiều lần cũng tạo ra sự chậm chạp và không hiệu quả trong xử lý I/O.
Chúng tôi đã phát triển fastp như một bộ tiền xử lý FASTQ siêu nhanh với những tính năng kiểm soát chất lượng và lọc dữ liệu hữu ích. Nó có thể thực hiện kiểm soát chất lượng, cắt adapter, lọc chất lượng, cắt giảm chất lượng theo từng đọc và nhiều thao tác khác chỉ với một lần quét dữ liệu FASTQ. Công cụ này được phát triển bằng C++ và có hỗ trợ đa luồng. Dựa trên đánh giá của chúng tôi, fastp nhanh hơn 2-5 lần so với các công cụ tiền xử lý FASTQ khác như Trimmomatic hoặc Cutadapt mặc dù thực hiện nhiều thao tác hơn những công cụ tương tự.
Mã nguồn mở và hướng dẫn tương ứng có sẵn tại https://github.com/OpenGene/fastp.
Từ khóa
Tài liệu tham khảo
Andrews S. (2010) A quality control tool for high throughput sequence data. http://www.bioinformatics.babraham.ac.uk/projects/fastqc/.
Bianchi, 2015, Noninvasive prenatal testing and incidental detection of occult maternal malignancies, JAMA, 314, 162, 10.1001/jama.2015.7120
Bolger, 2014, Trimmomatic: a flexible trimmer for Illumina sequence data, Bioinformatics, 30, 2114, 10.1093/bioinformatics/btu170
Brad Chapman R.K. et al. (2018) Validated, Scalable, Community Developed Variant Calling, RNA-Seq and Small RNA Analysis, https://github.com/chapmanb/bcbio-nextgen.
Chen, 2017, AfterQC: automatic filtering, trimming, error removing and quality control for fastq data, BMC Bioinformatics, 18, 80, 10.1186/s12859-017-1469-3
Chen, 2018, SOAPnuke: a MapReduce acceleration-supported software for integrated quality control and preprocessing of high-throughput sequencing data, Gigascience, 7, 1, 10.1093/gigascience/gix120
Chiang, 2015, SpeedSeq: ultra-fast personal genome analysis and interpretation, Nat. Methods, 12, 966, 10.1038/nmeth.3505
Esposito, 2017, The emerging role of “Liquid Biopsies,” circulating tumor cells, and circulating cell-free tumor dna in lung cancer diagnosis and identification of resistance mutations, Curr. Oncol. Rep., 19, 10.1007/s11912-017-0564-y
Kennedy, 2014, Detecting ultralow-frequency mutations by duplex sequencing, Nat. Protoc., 9, 2586, 10.1038/nprot.2014.170
Li, 2009, Fast and accurate short read alignment with Burrows-Wheeler transform, Bioinformatics, 25, 1754, 10.1093/bioinformatics/btp324
Li, 2009, The Sequence Alignment/Map format and SAMtools, Bioinformatics, 25, 2078, 10.1093/bioinformatics/btp352
Martin, 2011, Cutadapt removes adapter sequences from high-throughput sequencing reads, EMBnet J., 17, 10, 10.14806/ej.17.1.200
Newman, 2016, Integrated digital error suppression for improved detection of circulating tumor DNA, Nat. Biotechnol., 34, 547, 10.1038/nbt.3520
Smith, 2017, UMI-tools: modelling sequencing errors in Unique Molecular Identifiers to improve quantification accuracy, Genome Res., 27, 491, 10.1101/gr.209601.116
Valentine Svensson R.K. et al. (2018) Tools for Processing UMI RNA-Tag Data, https://github.com/vals/umis.