Bioinformatics (Oxford, England)
Công bố khoa học tiêu biểu
* Dữ liệu chỉ mang tính chất tham khảo
Động lực: Mô phỏng phân tử từ trước đến nay luôn là một kỹ thuật với thông lượng thấp, nhưng sự phát triển của máy tính nhanh hơn và sự gia tăng dữ liệu gen và cấu trúc đang thay đổi điều này bằng cách cho phép mô phỏng tự động quy mô lớn, ví dụ, nhiều dạng hình dạng hoặc đột biến của các phân tử sinh học với hoặc không có một loạt các phân tử liên kết. Đồng thời, những tiến bộ trong hiệu năng và khả năng mở rộng hiện nay làm cho việc mô hình hóa tương tác và chức năng của phân tử sinh học phức tạp theo cách có thể dễ dàng thử nghiệm trở nên khả thi. Những ứng dụng này đều cần phần mềm nhanh chóng và hiệu quả có thể được triển khai quy mô lớn trên các cụm máy, máy chủ web, tính toán phân tán hoặc tài nguyên đám mây.
Kết quả: Ở đây, chúng tôi giới thiệu một loạt các thuật toán và tính năng mô phỏng mới được phát triển trong 4 năm qua, dẫn đến gói phần mềm GROMACS 4.5. Phần mềm hiện tự động xử lý các loại phân tử sinh học rộng lớn, như protein, axit nucleic và lipid, và tích hợp tất cả các trường lực thường dùng cho các phân tử này. GROMACS hỗ trợ một số mô hình dung môi ngầm và các thuật toán năng lượng tự do mới, và phần mềm giờ đây sử dụng đa luồng để tối ưu hóa tính song song ngay cả trên các hệ thống có hiệu suất thấp, bao gồm cả các trạm làm việc dựa trên Windows. Kết hợp với các nhân lắp ráp được điều chỉnh cụ thể và kỹ thuật song song tiên tiến, điều này cung cấp hiệu suất cực cao và hiệu quả chi phí cho mô phỏng quy mô lớn cũng như mô phỏng song song cực lớn.
Tính khả dụng: GROMACS là phần mềm mã nguồn mở và miễn phí có sẵn tại http://www.gromacs.org.
Liên hệ: [email protected]
Thông tin bổ sung: Dữ liệu bổ sung có sẵn trên Bioinformatics trực tuyến.
Tóm tắt: Những hạn chế của các kỹ thuật giải trình tự gen đã dẫn đến hàng chục thuật toán lắp ráp, nhưng không có thuật toán nào là hoàn hảo. Một số phương pháp so sánh các bộ lắp ráp đã được phát triển, nhưng chưa có phương pháp nào được công nhận là tiêu chuẩn. Hơn nữa, hầu hết các phương pháp hiện có để so sánh các bộ lắp ráp chỉ có thể áp dụng cho các bộ lắp ráp mới của các gen đã hoàn chỉnh; vấn đề đánh giá các bộ lắp ráp của các loài chưa được giải trình tự chưa được xem xét đầy đủ. Ở đây, chúng tôi trình bày QUAST - một công cụ đánh giá chất lượng cho việc đánh giá và so sánh các bộ gen. Công cụ này cải thiện phần mềm so sánh lắp ráp hàng đầu với các ý tưởng và chỉ số chất lượng mới. QUAST có thể đánh giá các bộ lắp ráp cả với một bộ gen tham chiếu cũng như không có bộ gen tham chiếu. QUAST tạo ra nhiều báo cáo, bảng tóm tắt và đồ thị để giúp các nhà khoa học trong nghiên cứu và công bố của họ. Trong nghiên cứu này, chúng tôi đã sử dụng QUAST để so sánh một số bộ lắp ráp gen trên ba tập dữ liệu. Các bảng và đồ thị của QUAST cho tất cả chúng đều có sẵn trong Tài liệu bổ sung, và các phiên bản tương tác của các báo cáo này có trên trang web của QUAST.
Khả năng truy cập: http://bioinf.spbau.ru/quast
Liên hệ: [email protected]
Thông tin bổ sung: Dữ liệu bổ sung có sẵn trên Bioinformatics trực tuyến.
Tóm tắt: Jalview Phiên bản 2 là một hệ thống cho việc chỉnh sửa, phân tích và chú thích bố trí chuỗi đa dạng một cách tương tác và WYSIWYG. Các tính năng cốt lõi bao gồm chỉnh sửa dựa trên bàn phím và chuột, nhiều chế độ xem và tổng quan về bố trí, cũng như hiển thị cấu trúc liên kết với Jmol. Jalview 2 có sẵn dưới hai hình thức: một applet Java nhẹ cho việc sử dụng trong các ứng dụng web, và một ứng dụng desktop mạnh mẽ sử dụng dịch vụ web cho việc căn chỉnh chuỗi, dự đoán cấu trúc thứ cấp, và truy xuất các bố trí, chuỗi, chú thích và cấu trúc từ các cơ sở dữ liệu công cộng cùng bất kỳ máy chủ chuỗi hoặc chú thích nào tuân thủ DAS 1.53.
Sự có mặt: Ứng dụng Jalview 2 Desktop và applet JalviewLite được phát hành miễn phí dưới giấy phép GPL, và có thể được tải xuống từ www.jalview.org
Liên hệ: [email protected]
Các tiến bộ gần đây trong công nghệ giải trình tự hứa hẹn cung cấp các đoạn siêu dài khoảng 100 kb trung bình, các đoạn mRNA hoặc cDNA đầy đủ chiều dài với thông lượng cao và các đoạn gen có độ dài trên 100 Mb. Các chương trình căn chỉnh hiện có không thể hoặc không hiệu quả để xử lý dữ liệu như vậy ở quy mô lớn, điều này đặt ra yêu cầu phát triển các thuật toán căn chỉnh mới.
Minimap2 là một chương trình căn chỉnh đa năng để ánh xạ DNA hoặc các chuỗi mRNA dài vào một cơ sở dữ liệu tham chiếu lớn. Nó hoạt động với các đoạn ngắn chính xác có độ dài ≥100 bp, các đoạn gen dài ≥1 kb với tỷ lệ lỗi khoảng 15%, các đoạn RNA thô đầy đủ chiều dài hoặc cDNA và các đoạn lắp ráp hoặc các nhiễm sắc thể đầy đủ liên quan chặt chẽ có độ dài hàng trăm megabases. Minimap2 thực hiện căn chỉnh split-read, sử dụng chi phí khoảng trống lõm cho các chèn và xóa dài và giới thiệu các phương pháp mới để giảm thiểu các căn chỉnh giả. Nó nhanh hơn từ 3–4 lần so với các chương trình căn chỉnh đọc ngắn chính thống với độ chính xác tương đương, và nhanh hơn ≥30 lần so với các chương trình căn chỉnh genomic hoặc cDNA dài với độ chính xác cao hơn, vượt qua hầu hết các chương trình căn chỉnh chuyên biệt cho một loại căn chỉnh.
Tóm tắt: Chúng tôi trình bày Blast2GO (B2G), một công cụ nghiên cứu được thiết kế với mục đích chính là cho phép khai thác dữ liệu dựa trên Gene Ontology (GO) trên dữ liệu chuỗi mà chưa có chú thích GO. B2G kết hợp trong một ứng dụng chú thích GO dựa trên tìm kiếm có độ tương đồng với phân tích thống kê và trực quan hóa nổi bật trên các đồ thị có hướng acyclic. Công cụ này cung cấp một nền tảng phù hợp cho nghiên cứu gen chức năng ở các loài không phải mô hình. B2G là một ứng dụng máy tính để bàn trực quan và tương tác, cho phép theo dõi và hiểu toàn bộ quá trình chú thích và phân tích.
Tính khả dụng: Blast2GO có sẵn miễn phí qua Java Web Start tại http://www.blast2go.de
Tài liệu bổ sung: http://www.blast2go.de -> Đánh giá
Liên hệ: [email protected]; [email protected]
Động lực: Genomics đã cách mạng hóa nghiên cứu sinh học, nhưng việc đánh giá chất lượng của các chuỗi lắp ráp kết quả thì phức tạp và chủ yếu bị giới hạn trong các biện pháp kỹ thuật như N50.
Kết quả: Chúng tôi đề xuất một biện pháp để đánh giá định lượng tính hoàn chỉnh của việc lắp ráp và chú thích gen dựa trên những kỳ vọng có thông tin từ tiến hóa về nội dung gen. Chúng tôi đã triển khai quy trình đánh giá trong phần mềm mã nguồn mở, với các bộ Benchmarking Universal Single-Copy Orthologs, gọi tắt là BUSCO.
Khả năng tiếp cận và triển khai: Phần mềm được triển khai bằng Python và các tập dữ liệu có thể tải về từ http://busco.ezlab.org.
Liên hệ: [email protected]
Thông tin bổ sung: Dữ liệu bổ sung có sẵn tại Bioinformatics online.
Tóm lược: Phân tích Phylogenetics và Tiến hóa (APE) là một gói phần mềm được viết bằng ngôn ngữ R, phục vụ cho việc nghiên cứu tiến hóa phân tử và phylogenetics. APE cung cấp cả các hàm tiện ích để đọc và ghi dữ liệu, cũng như thao tác với các cây phát sinh chủng loài, và cũng nhiều phương pháp nâng cao cho phân tích phylogenetics và tiến hóa (ví dụ: các phương pháp di truyền so sánh và dân số). APE tận dụng nhiều hàm R cho thống kê và đồ họa, và cũng cung cấp một khung linh hoạt để phát triển và thực hiện thêm các phương pháp thống kê cho phân tích các quá trình tiến hóa.
Sự có sẵn: Chương trình này miễn phí và có sẵn từ kho gói chính thức của R tại http://cran.r-project.org/src/contrib/PACKAGES.html#ape. APE được cấp phép theo Giấy phép Công cộng GNU.
Tóm tắt: GenAlEx: Phân tích di truyền trong Excel là một gói phần mềm đa nền tảng cho các phân tích di truyền quần thể chạy trong Microsoft Excel. GenAlEx cung cấp phân tích các loci gen diploid đồng trội, haploid và nhị phân cùng với các chuỗi DNA. Cả phân tích dựa trên tần suất (F-statistics, độ đa dạng dị hợp tử, HWE, phân loại quần thể, mối quan hệ) và phân tích dựa trên khoảng cách (AMOVA, PCoA, kiểm định Mantel, phân tích tự tương quan không gian đa biến) đều được cung cấp. Các tính năng mới bao gồm tính toán các ước lượng mới về cấu trúc quần thể: G′ST, G′′ST, Jost’s Dest và F′ST qua AMOVA, phân tích thông tin Shannon, phân tích sự cân bằng liên kết cho dữ liệu biallelic và các kiểm định không đồng nhất mới cho phân tích tự tương quan không gian. Hỗ trợ xuất ra hơn 30 định dạng dữ liệu khác nhau. Các bài giảng giảng dạy và tùy chọn xuất kết quả mở rộng từng bước cũng được bao gồm. Hướng dẫn toàn diện đã được sửa đổi hoàn toàn.
Sự sẵn có và triển khai: GenAlEx được viết bằng VBA và được cung cấp dưới dạng tiện ích bổ sung cho Microsoft Excel (tương thích với Excel 2003, 2007, 2010 trên PC; Excel 2004, 2011 trên Macintosh). GenAlEx, tài liệu hỗ trợ và các bài giảng giảng dạy có sẵn miễn phí tại: http://biology.anu.edu.au/GenAlEx.
Liên hệ: [email protected]
Kiểm soát chất lượng và tiền xử lý các tệp FASTQ là rất cần thiết để cung cấp dữ liệu sạch cho các phân tích tiếp theo. Truyền thống, một công cụ khác nhau được sử dụng cho mỗi thao tác, chẳng hạn như kiểm soát chất lượng, cắt adapter và lọc chất lượng. Những công cụ này thường không đủ nhanh vì hầu hết được phát triển bằng các ngôn ngữ lập trình cấp cao (ví dụ: Python và Java) và cung cấp hỗ trợ đa luồng hạn chế. Việc đọc và tải dữ liệu nhiều lần cũng tạo ra sự chậm chạp và không hiệu quả trong xử lý I/O.
Chúng tôi đã phát triển fastp như một bộ tiền xử lý FASTQ siêu nhanh với những tính năng kiểm soát chất lượng và lọc dữ liệu hữu ích. Nó có thể thực hiện kiểm soát chất lượng, cắt adapter, lọc chất lượng, cắt giảm chất lượng theo từng đọc và nhiều thao tác khác chỉ với một lần quét dữ liệu FASTQ. Công cụ này được phát triển bằng C++ và có hỗ trợ đa luồng. Dựa trên đánh giá của chúng tôi, fastp nhanh hơn 2-5 lần so với các công cụ tiền xử lý FASTQ khác như Trimmomatic hoặc Cutadapt mặc dù thực hiện nhiều thao tác hơn những công cụ tương tự.
Mã nguồn mở và hướng dẫn tương ứng có sẵn tại https://github.com/OpenGene/fastp.
Động lực: Các công nghệ giải trình tự thế hệ tiếp theo tạo ra hàng triệu đoạn chuỗi ngắn, thường được định sẵn vào một bộ gen tham chiếu. Trong nhiều ứng dụng, thông tin chính cần thiết để phân tích hạ nguồn là số lượng đoạn chuỗi ánh xạ tới mỗi đặc điểm gen, ví dụ như mỗi exon hoặc mỗi gen. Quá trình đếm các đoạn chuỗi được gọi là tóm tắt đoạn chuỗi. Tóm tắt đoạn chuỗi là cần thiết cho nhiều phân tích gen khác nhau nhưng đến nay vẫn chưa nhận được nhiều sự chú ý trong tài liệu khoa học.
Kết quả: Chúng tôi giới thiệu featureCounts, một chương trình tóm tắt đoạn chuỗi thích hợp cho việc đếm các đoạn chuỗi được tạo ra từ các thí nghiệm giải trình tự RNA hoặc DNA gen. featureCounts thực hiện các kỹ thuật băm nhiễm sắc thể và chặn đặc điểm rất hiệu quả. Nó nhanh hơn nhiều so với các phương pháp hiện có (nhanh hơn một bậc độ cho tóm tắt cấp độ gen) và yêu cầu ít bộ nhớ máy tính hơn. Nó hoạt động với cả đoạn chuỗi đơn lẻ hoặc đôi và cung cấp một loạt tùy chọn phù hợp cho các ứng dụng giải trình tự khác nhau.
Tình trạng sẵn có và thực thi: featureCounts có sẵn theo Giấy phép Công cộng GNU và là một phần của gói phần mềm Subread (http://subread.sourceforge.net) hoặc Rsubread (http://www.bioconductor.org).
Liên hệ: [email protected]
- 1
- 2
- 3
- 4
- 5
- 6
- 10