Giả-Sanger: sản xuất song song lớn các chuỗi dài và gần như không có lỗi sử dụng công nghệ NGS

Jue Ruan1, Lan Jiang1, Zechen Chong1, Qiang Gong1, Heng Li2, Chunyan Li1, Yong Tao1, Caihong Zheng1, Weiwei Zhai1, David A. Turissini3, Charles H. Cannon4,5, Xuemei Lu1, Chung I. Wu3,1
1Laboratory of Disease Genomics and Individualized Medicine, Beijing Institute of Genomics, Chinese Academy of Sciences, Beijing, People’s Republic of China
2Broad Institute of Harvard and MIT, Cambridge, USA
3Department of Ecology and Evolution, University of Chicago, Chicago, USA
4Department of Biological Sciences, Texas Tech University, Lubbock, USA
5Ecological Evolution Group, Xishuangbanna Tropical Botanic Garden, Chinese Academy of Sciences, Menglun, Mengla, People’s Republic of China

Tóm tắt

Tóm tắtBối cảnh

Công nghệ giải trình tự thế hệ tiếp theo (NGS) thường có đặc điểm là có thông lượng cực cao nhưng độ dài đoạn đọc lại rất ngắn so với phương pháp giải trình tự Sanger truyền thống. Giải trình tự NGS hai đầu có thể mở rộng độ dài đoạn đọc một cách tính toán nhưng mang theo nhiều bất tiện thực tiễn vì khoảng trống cố hữu. Hiện nay, giải trình tự hai đầu của Illumina có khả năng đọc cả hai đầu từ các đoạn DNA dài 600 bp hoặc thậm chí 800 bp, việc lấp đầy khoảng trống giữa hai đầu để tạo ra những đoạn đọc dài chính xác là vấn đề thú vị nhưng thách thức.

Kết quả

Chúng tôi đã phát triển một công nghệ mới, gọi là giải trình tự Giả-Sanger (PS). Công nghệ này cố gắng lấp đầy các khoảng trống giữa hai đầu và có thể tạo ra các chuỗi gần như không có lỗi tương đương với độ dài của các đoạn đọc Sanger truyền thống nhưng có thông lượng cao của giải trình tự thế hệ tiếp theo. Điểm mới cốt lõi của phương pháp PS nằm ở việc lấp đầy khoảng trống dựa trên việc lắp ráp cục bộ các đoạn đọc hai đầu có trùng lặp ở bất kỳ đầu nào. Do đó, chúng tôi có thể lấp đầy các khoảng trống trong vùng gen lặp lại một cách chính xác. Giải trình tự PS bắt đầu từ các đoạn đọc ngắn từ các nền tảng NGS, sử dụng một loạt các thư viện hai đầu có kích thước chèn giảm dần từng bước. Một phương pháp tính toán được giới thiệu để biến các đoạn hai đầu đặc biệt này thành những chuỗi PS dài và gần như không có lỗi, tương ứng với các đoạn có kích thước chèn lớn nhất. Việc xây dựng PS có 3 lợi thế so với các đoạn đọc không được biến đổi: lấp đầy khoảng trống, sửa lỗi và dung lượng dị hợp. Trong số nhiều ứng dụng của việc xây dựng PS là lắp ráp bộ gen de novo, đã được chúng tôi kiểm tra trong nghiên cứu này. Lắp ráp các đoạn đọc PS từ một dòng không đồng nhất của Drosophila melanogaster tạo ra một N50 contig dài 190 kb, cải thiện gấp 5 lần so với các phương pháp lắp ráp de novo hiện có và gấp 3 lần so với lắp ráp các đoạn đọc dài từ giải trình tự 454.

Kết luận

Phương pháp của chúng tôi tạo ra các đoạn đọc dài gần như không có lỗi từ giải trình tự hai đầu NGS. Chúng tôi đã chứng minh rằng lắp ráp de novo có thể có lợi rất nhiều từ các chuỗi giống Sanger này. Ngoài ra, đặc điểm của các chuỗi dài có thể được áp dụng vào các ứng dụng như phát hiện biến đổi cấu trúc và metagenomics.

Từ khóa

#Giải trình tự giả-Sanger #công nghệ NGS #trình tự hai đầu #lỗi tự do #lắp ráp bộ gen de novo #Drosophila melanogaster

Tài liệu tham khảo

Metzker ML: Sequencing technologies - the next generation. Nat Rev Genet. 2010, 11: 31-46. 10.1038/nrg2626.

Shendure J, Ji H: Next-generation DNA sequencing. Nat Biotechnol. 2008, 26: 1135-1145. 10.1038/nbt1486.

Alkan C, Sajjadian S, Eichler EE: Limitations of next-generation genome sequence assembly. Nat Methods. 2011, 8: 61-65. 10.1038/nmeth.1527.

Birney E: Assemblies: the good, the bad, the ugly. Nat Methods. 2011, 8: 59-60. 10.1038/nmeth0111-59.

Rodrigue S, Materna AC, Timberlake SC, Blackburn MC, Malmstrom RR, Alm EJ, Chisholm SW: Unlocking short read sequencing for metagenomics. PLoS One. 2010, 5: e11840-10.1371/journal.pone.0011840.

Magoč T, Salzberg SL: FLASH: fast length adjustment of short reads to improve genome assemblies. Bioinformatics. 2011, 27: 2957-2963. 10.1093/bioinformatics/btr507.

Liu B, Yuan J, Yiu S-M, Li Z, Xie Y, Chen Y, Shi Y, Zhang H, Li Y, Lam T-W, Luo R: COPE: an accurate k-mer-based pair-end reads connection tool to facilitate genome assembly. Bioinformatics. 2012, 28: 2870-2874. 10.1093/bioinformatics/bts563.

Nadalin F, Vezzi F, Policriti A: GapFiller: a de novo assembly approach to fill the gap within paired reads. BMC Bioinforma. 2012, 13 Suppl 1 (Suppl 14): S8-

Butler J, MacCallum I, Kleber M, Shlyakhter IA, Belmonte MK, Lander ES, Nusbaum C, Jaffe DB: ALLPATHS: de novo assembly of whole-genome shotgun microreads. Genome Res. 2008, 18: 810-820. 10.1101/gr.7337908.

Sorber K, Chiu C, Webster D, Dimon M, Ruby JG, Hekele A, DeRisi JL: The long march: a sample preparation technique that enhances contig length and coverage by high-throughput short-read sequencing. PLoS One. 2008, 3: e3495-10.1371/journal.pone.0003495.

Hiatt JB, Patwardhan RP, Turner EH, Lee C, Shendure J: Parallel, tag-directed assembly of locally derived short sequence reads. Nat Methods. 2010, 7: 119-122. 10.1038/nmeth.1416.

Margulies M, Egholm M, Altman WE, Attiya S, Bader JS, Bemben LA, Berka J, Braverman MS, Chen Y-J, Chen Z, Dewell SB, Du L, Fierro JM, Gomes XV, Godwin BC, He W, Helgesen S, Ho CH, Irzyk GP, Jando SC, Alenquer MLI, Jarvie TP, Jirage KB, Kim J-B, Knight JR, Lanza JR, Leamon JH, Lefkowitz SM, Lei M, Li J, et al: Genome sequencing in microfabricated high-density picolitre reactors. Nature. 2005, 437: 376-380.

Sommer DD, Delcher AL, Salzberg SL, Pop M: Minimus: a fast, lightweight genome assembler. BMC Bioinforma. 2007, 8: 64-10.1186/1471-2105-8-64.

Salzberg SL, Phillippy AM, Zimin A, Puiu D, Magoc T, Koren S, Treangen TJ, Schatz MC, Delcher AL, Roberts M, Marçais G, Pop M, Yorke JA: GAGE: a critical evaluation of genome assemblies and assembly algorithms. Genome Res. 2012, 22: 557-567. 10.1101/gr.131383.111.

Adams MD, Celniker SE, Holt RA, Evans CA, Gocayne JD, Amanatides PG, Scherer SE, Li PW, Hoskins RA, Galle RF, George RA, Lewis SE, Richards S, Ashburner M, Henderson SN, Sutton GG, Wortman JR, Yandell MD, Zhang Q, Chen LX, Brandon RC, Rogers Y-HC, Blazej RG, Champe M, Pfeiffer BD, Wan KH, Doyle C, Baxter EG, Helt G, Nelson CR, et al: The genome sequence of drosophila melanogaster. Science. 2000, 287: 2185-2195. 10.1126/science.287.5461.2185.

Begun DJ, Holloway AK, Stevens K, Hillier LW, Poh Y-P, Hahn MW, Nista PM, Jones CD, Kern AD, Dewey CN, Pachter L, Myers E, Langley CH: Population genomics: whole-genome analysis of polymorphism and divergence in Drosophila simulans. PLoS Biol. 2007, 5: e310-10.1371/journal.pbio.0050310.

Sackton TB, Kulathinal RJ, Bergman CM, Quinlan AR, Dopman EB, Carneiro M, Marth GT, Hartl DL, Clark AG: Population genomic inferences from sparse high-throughput sequencing of two populations of Drosophila melanogaster. Genome Biol Evol. 2009, 1: 449-465.

Kim EB, Fang X, Fushan AA, Huang Z, Lobanov AV, Han L, Marino SM, Sun X, Turanov AA, Yang P, Yim SH, Zhao X, Kasaikina MV, Stoletzki N, Peng C, Polak P, Xiong Z, Kiezun A, Zhu Y, Chen Y, Kryukov GV, Zhang Q, Peshkin L, Yang L, Bronson RT, Buffenstein R, Wang B, Han C, Li Q, Chen L, et al: Genome sequencing reveals insights into physiology and longevity of the naked mole rat. Nature. 2011, 479: 223-7. 10.1038/nature10533.

Li R, Fan W, Tian G, Zhu H, He L, Cai J, Huang Q, Cai Q, Li B, Bai Y, Zhang Z, Zhang Y, Wang W, Li J, Wei F, Li H, Jian M, Li J, Zhang Z, Nielsen R, Li D, Gu W, Yang Z, Xuan Z, Ryder OA, Leung FC-C, Zhou Y, Cao J, Sun X, Fu Y, et al: The sequence and de novo assembly of the giant panda genome. Nature. 2010, 463: 311-7. 10.1038/nature08696.

Zerbino DR, Birney E: Velvet: algorithms for de novo short read assembly using de Bruijn graphs. Genome Res. 2008, 18: 821-829. 10.1101/gr.074492.107.

Simpson JT, Wong K, Jackman SD, Schein JE, Jones SJM, Birol I: ABySS: a parallel assembler for short read sequence data. Genome Res. 2009, 19: 1117-1123. 10.1101/gr.089532.108.

Li R, Zhu H, Ruan J, Qian W, Fang X, Shi Z, Li Y, Li SS, Shan G, Kristiansen K, Yang H, Wang JJ: De novo assembly of human genomes with massively parallel short read sequencing. Genome Res. 2010, 20: 265-272. 10.1101/gr.097261.109.

Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, Marth G, Abecasis G, Durbin R: The sequence alignment/Map format and SAMtools. Bioinformatics. 2009, 25: 2078-2079. 10.1093/bioinformatics/btp352.

Li H, Durbin R: Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatics. 2009, 25: 1754-1760. 10.1093/bioinformatics/btp324.

Li H, Durbin R: Fast and accurate long-read alignment with Burrows-Wheeler transform. Bioinformatics. 2010, 26: 589-595. 10.1093/bioinformatics/btp698.