fastp: một công cụ tiền xử lý FASTQ siêu nhanh đa năng

Bioinformatics (Oxford, England) - Tập 34 Số 17 - Trang i884-i890 - 2018
Shifu Chen1,2, Yanqing Zhou1, Yaru Chen1, Jia Gu2
1Department of Bioinformatics, HaploX Biotechnology, Shenzhen, China
2Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences, Shenzhen, China

Tóm tắt

Tóm tắt Động lực

Kiểm soát chất lượng và tiền xử lý các tệp FASTQ là rất cần thiết để cung cấp dữ liệu sạch cho các phân tích tiếp theo. Truyền thống, một công cụ khác nhau được sử dụng cho mỗi thao tác, chẳng hạn như kiểm soát chất lượng, cắt adapter và lọc chất lượng. Những công cụ này thường không đủ nhanh vì hầu hết được phát triển bằng các ngôn ngữ lập trình cấp cao (ví dụ: Python và Java) và cung cấp hỗ trợ đa luồng hạn chế. Việc đọc và tải dữ liệu nhiều lần cũng tạo ra sự chậm chạp và không hiệu quả trong xử lý I/O.

Kết quả

Chúng tôi đã phát triển fastp như một bộ tiền xử lý FASTQ siêu nhanh với những tính năng kiểm soát chất lượng và lọc dữ liệu hữu ích. Nó có thể thực hiện kiểm soát chất lượng, cắt adapter, lọc chất lượng, cắt giảm chất lượng theo từng đọc và nhiều thao tác khác chỉ với một lần quét dữ liệu FASTQ. Công cụ này được phát triển bằng C++ và có hỗ trợ đa luồng. Dựa trên đánh giá của chúng tôi, fastp nhanh hơn 2-5 lần so với các công cụ tiền xử lý FASTQ khác như Trimmomatic hoặc Cutadapt mặc dù thực hiện nhiều thao tác hơn những công cụ tương tự.

Khả năng truy cập và triển khai

Mã nguồn mở và hướng dẫn tương ứng có sẵn tại https://github.com/OpenGene/fastp.

Từ khóa


Tài liệu tham khảo

Andrews  S. (2010) A quality control tool for high throughput sequence data. http://www.bioinformatics.babraham.ac.uk/projects/fastqc/.

Bianchi, 2015, Noninvasive prenatal testing and incidental detection of occult maternal malignancies, JAMA, 314, 162, 10.1001/jama.2015.7120

Bolger, 2014, Trimmomatic: a flexible trimmer for Illumina sequence data, Bioinformatics, 30, 2114, 10.1093/bioinformatics/btu170

Brad Chapman  R.K.  et al. (2018) Validated, Scalable, Community Developed Variant Calling, RNA-Seq and Small RNA Analysis, https://github.com/chapmanb/bcbio-nextgen.

Chen, 2017, AfterQC: automatic filtering, trimming, error removing and quality control for fastq data, BMC Bioinformatics, 18, 80, 10.1186/s12859-017-1469-3

Chen, 2018, SOAPnuke: a MapReduce acceleration-supported software for integrated quality control and preprocessing of high-throughput sequencing data, Gigascience, 7, 1, 10.1093/gigascience/gix120

Chiang, 2015, SpeedSeq: ultra-fast personal genome analysis and interpretation, Nat. Methods, 12, 966, 10.1038/nmeth.3505

Esposito, 2017, The emerging role of “Liquid Biopsies,” circulating tumor cells, and circulating cell-free tumor dna in lung cancer diagnosis and identification of resistance mutations, Curr. Oncol. Rep., 19, 10.1007/s11912-017-0564-y

Kennedy, 2014, Detecting ultralow-frequency mutations by duplex sequencing, Nat. Protoc., 9, 2586, 10.1038/nprot.2014.170

Langmead, 2012, Fast gapped-read alignment with Bowtie 2, Nat. Methods, 9, 357, 10.1038/nmeth.1923

Li, 2009, Fast and accurate short read alignment with Burrows-Wheeler transform, Bioinformatics, 25, 1754, 10.1093/bioinformatics/btp324

Li, 2009, The Sequence Alignment/Map format and SAMtools, Bioinformatics, 25, 2078, 10.1093/bioinformatics/btp352

Martin, 2011, Cutadapt removes adapter sequences from high-throughput sequencing reads, EMBnet J., 17, 10, 10.14806/ej.17.1.200

Newman, 2016, Integrated digital error suppression for improved detection of circulating tumor DNA, Nat. Biotechnol., 34, 547, 10.1038/nbt.3520

Smith, 2017, UMI-tools: modelling sequencing errors in Unique Molecular Identifiers to improve quantification accuracy, Genome Res., 27, 491, 10.1101/gr.209601.116

Valentine Svensson  R.K.  et al. (2018) Tools for Processing UMI RNA-Tag Data, https://github.com/vals/umis.