Bộ công cụ phân tích bộ gen: Một khung MapReduce cho việc phân tích dữ liệu giải trình tự DNA thế hệ tiếp theo

Genome Research - Tập 20 Số 9 - Trang 1297-1303 - 2010
Aaron McKenna1, Matthew G. Hanna1, Eric Banks1, Andrey Sivachenko1, Kristian Cibulskis1, Andrew Kernytsky1, Kiran Garimella1, David Green2,1, Stacey Gabriel1, Mark J. Daly2,1, Mark A. DePristo1
1Program in Medical and Population Genetics, The Broad Institute of Harvard and MIT, Cambridge, Massachusetts 02142, USA;
2Center for Human Genetic Research, Massachusetts General Hospital, Richard B. Simches Research Center, Boston, Massachusetts

Tóm tắt

Các dự án giải trình tự DNA thế hệ tiếp theo (NGS), chẳng hạn như Dự án Bộ Gen 1000, đã và đang cách mạng hóa sự hiểu biết của chúng ta về sự biến dị di truyền giữa các cá nhân. Tuy nhiên, các tập dữ liệu khổng lồ được tạo ra bởi NGS—chỉ riêng dự án thí điểm Bộ Gen 1000 đã bao gồm gần năm terabase—làm cho việc viết các công cụ phân tích giàu tính năng, hiệu quả và đáng tin cậy trở nên khó khăn ngay cả đối với những cá nhân có kiến thức tính toán phức tạp. Thực tế, nhiều chuyên gia gặp phải giới hạn về quy mô và sự dễ dàng trong việc trả lời các câu hỏi khoa học bởi sự phức tạp trong việc truy cập và xử lý dữ liệu do những máy này tạo ra. Trong bài báo này, chúng tôi thảo luận về Bộ công cụ Phân tích Bộ Gen (GATK) của chúng tôi, một khung lập trình có cấu trúc được thiết kế để tạo điều kiện thuận lợi cho sự phát triển của các công cụ phân tích hiệu quả và đáng tin cậy dành cho các máy giải trình tự DNA thế hệ tiếp theo sử dụng triết lý lập trình hàm MapReduce. GATK cung cấp một bộ mẫu truy cập dữ liệu nhỏ nhưng phong phú, bao trùm hầu hết các nhu cầu của công cụ phân tích. Việc tách biệt các tính toán phân tích cụ thể khỏi hạ tầng quản lý dữ liệu chung cho phép chúng tôi tối ưu hóa khung GATK về độ chính xác, độ ổn định, và hiệu quả CPU và bộ nhớ, cũng như cho phép phân giải song song bộ nhớ chia sẻ và phân tán. Chúng tôi nhấn mạnh các khả năng của GATK bằng cách mô tả việc triển khai và ứng dụng các công cụ đáng tin cậy và dung nạp quy mô như máy tính phủ và gọi đa hình đơn nucleotide (SNP). Chúng tôi kết luận rằng khung lập trình GATK cho phép các nhà phát triển và nhà phân tích nhanh chóng và dễ dàng viết các công cụ NGS hiệu quả và đáng tin cậy, nhiều công cụ trong số đó đã được tích hợp vào các dự án giải trình tự quy mô lớn như Dự án Bộ Gen 1000 và Atlas Bộ Gen Ung thư.

Từ khóa

#khoa học #giải trình tự DNA #Bộ Gen 1000 #GATK #MapReduce #phân tích bộ gen #sự biến dị di truyền #công cụ NGS #phân giải song song #SNP #Atlas Bộ Gen Ung thư

Tài liệu tham khảo

10.1038/nature07517

Bhandarkar M . 2009. Practical problem solving with hadoop and pig. In USENIX. The USENIX Association, San Diego, CA.

10.1038/ng.128

10.1038/nmeth.1363

2008, MapReduce: Simplified data processing on large clusters, Commun ACM, 51, 107, 10.1145/1327452.1327492

10.1038/ng1885

10.1126/science.1181498

10.1038/nbt.1523

10.1038/nature02168

10.1101/gr.229102. Article published online before print in May 2002

10.1093/bioinformatics/btp373

10.1093/bioinformatics/btp324

10.1101/gr.078212.108

10.1093/bioinformatics/btn025

10.1093/bioinformatics/btp352

2005, Genome sequencing in microfabricated high-density picolitre reactors, Nature, 437, 376, 10.1038/nature03959

10.1093/bioinformatics/btp429

10.1101/gr.091868.109

10.1093/bioinformatics/btp450

10.1101/gr.194201

10.1038/nmeth.1371

10.1038/nbt1486

10.1093/nar/29.1.308

10.1016/S0168-9525(99)01751-5

10.1101/gr.2188104

10.1038/nature07484

10.1038/nature06884