Trình tự bộ gen của muỗi truyền bệnh sốt rét Anopheles gambiae

American Association for the Advancement of Science (AAAS) - Tập 298 Số 5591 - Trang 129-149 - 2002
Robert A. Holt1, G. Subramanian1, Daniel L. Halligan1, Granger G. Sutton1, Rosane Charlab1, Deborah Nusskern1, Patrick Wincker2, Andrew G. Clark3, José M. C. Ribeiro4, Ron Wides5, Steven L. Salzberg6, Brendan Loftus6, Mark Yandell1, William H. Majoros1,6, Douglas B. Rusch1, Zhongwu Lai1, Ðắc-Trung Nguyễn1, Josep F. Abril7, Véronique Anthouard2, Peter Arensburger8, Peter W. Atkinson8, Holly Baden1, Véronique de Berardinis2, Danita Baldwin1, Vladimı́r Beneš9, Jim Biedler10, Claudia Blass9, Randall Bolanos1, Didier Boscus2, Mary Barnstead1, Shuang Cai1, Angela Center1, Kabir Chatuverdi1, George K. Christophides9, Mathew A. Chrystal11, Michèle Clamp12, Anibal Cravchik1, Val Curwen12, Ali Dana11, Art L. Delcher1, Ian Dew1, Cheryl Evans1, Michael J. Flanigan1, Anne Grundschober-Freimoser13, Lisa Friedli8, Zhiping Gu1, Ping Guan1, Roderic Guigó7, Maureen E. Hillenmeyer11, Susanne L. Hladun1, James R. Hogan11, Young Seok Hong11, Jeffrey P. Hoover1, Olivier Jaillon2, Zhaoxi Ke1,11, Chinnappa D. Kodira1, E. B. Kokoza14, Anastasios C. Koutsos15,16, Ivica Letunić9, Alex Levitsky1, Yong Liang1, Jing‐Jer Lin1,6, Puji Budi Setia Asih11, John Lopez1, Joel A. Malek6, Tina C. McIntosh1, Stephan Meister9, Jason Miller1, Clark Mobarry1, Emmanuel Mongin17, Sean D. Murphy1, David A. O’Brochta13, Cynthia Pfannkoch1, Rong Qi1, Megan A. Regier1, Karin Remington1, Hongguang Shao10, Maria V. Sharakhova11, Cynthia D. Sitter1, Jyoti Shetty6, Thomas J. Smith1, Renee Strong1, Jing‐Tao Sun1, Dana Thomasová9, Lucas Q. Ton11, Pantelis Topalis16, Zhijian Tu10, Maria Unger11, Brian P. Walenz1, Aihui Wang1, Jun Wang1, Mei Wang1, Xuelan Wang11, Kerry J. Woodford1, Jennifer R. Wortman1,6, Martin Wu6, Alison Yao1, Evgeny M. Zdobnov9, Zhang HongYu1, Qi Zhao1, Claire M. Fraser6, Shiaoping C. Zhu1, И. Ф. Жимулев14, M. Cóluzzi18, Alessandra della Torre18, Charles W. Roth19, Christos Louis15,16, Francis Kalush1, Richard Mural1, Eugene W. Myers1, Mark D. Adams1, Hamilton O. Smith1, Samuel Broder1, Malcolm J. Gardner6, Ewan Birney17, Peer Bork9, Paul T. Brey19, J. Craig Venter1,6, Jean Weissenbach2, Fotis C. Kafatos9, Frank H. Collins11, Stephen L. Hoffman1
1Celera Genomics, 45 West Gude Drive, Rockville, MD 20850, USA
2Genoscope/Centre National de Sequencage and CNRS-UMR 8030, 2 rue Gaston Cremieux, 91057 Evry Cedex 06, France.
3Molecular Biology and Genetics, Cornell University, Ithaca, NY 14853 USA
4Laboratory of Malaria and Vector Research, National Institute of Allergy and Infectious Diseases (NIAID), Building 4, Room 126, 4 Center Drive, MSC-0425, Bethesda, MD 20892, USA.
5Faculty of Life Sciences, Bar-Ilan University, Ramat-Gan, Israel
6The Institute for Genomic Research (TIGR), 9712 Medical Center Drive, Rockville, MD 20850, USA
7Grup de Recerca en Informatica Biomedica, IMIM/UPF/CRG, Barcelona, Catalonia, Spain.
8Department of Entomology, University of California, Riverside, CA 92521 USA
9European Molecular Biology Laboratory, Meyerhofstr. 1, 69117 Heidelberg, Germany
10Virginia Polytechnic Institute and State University, Blacksburg, VA 24061, USA
11Center for Tropical Disease Research and Training, University of Notre Dame, Galvin Life Sciences Building, Notre Dame, IN 46556, USA.
12Wellcome Trust Sanger Institute, Wellcome Trust Genome Campus, Hinxton, Cambridge, CB10 1SA, UK
13Center for Agricultural Biotechnology, University of Maryland Biotechnology Institute, College Park, MD 20742, USA
14Institute of Cytology and Genetics, Lavrentyeva ave 10, Novosibirsk 630090, Russia.
15Department of Biology, University of Crete, GR-711 10 Heraklion, Crete, Greece.
16Institute of Molecular Biology and Biotechnology of the Foundation of Research and Technology–Hellas (IMBB-FORTH), Post Office Box 1527, GR-711 10 Heraklion, Crete, Greece, and University of Crete, GR-711 10 Heraklion, Crete, Greece.
17European Bioinformatics Institute, Wellcome Trust Genome Campus, Hinxton, Cambridge CB10 1SD, UK
18Dipartimento di Scienze di Sanità Pubblica, Sezione di Parassitologia, Universitàdegli Studi di Roma “La Sapienza,” P.le Aldo Moro 5, 00185 Roma, Italy.
19Unité de Biochimie et Biologie Moléculaire des Insectes, Institut Pasteur, Paris 75724 Cedex 15, France.

Tóm tắt

Anopheles gambiae là vector chính của bệnh sốt rét, căn bệnh gây ảnh hưởng đến hơn 500 triệu người và làm hơn 1 triệu người tử vong mỗi năm. Đã thu thập phạm vi trình tự 10 lần của chủng PEST của A. gambiae và lắp ráp thành các scaffold bao phủ 278 triệu cặp base. Tổng cộng, 91% bộ gen được tổ chức thành 303 scaffold; scaffold lớn nhất dài 23.1 triệu cặp base. Có sự thay đổi di truyền đáng kể trong chủng này, và sự tồn tại rõ ràng của hai kiểu haplotype với tần số gần như bằng nhau ("kiểu haplotype kép") trong một phần lớn của bộ gen có thể phản ánh tính chất khác giống của chủng PEST. Chuỗi trình tự cho thấy sự suy luận bảo thủ về hơn 400,000 đa hình nucleotide đơn lẻ, có phân bố mật độ hai cực rõ rệt. Phân tích trình tự bộ gen chỉ ra bằng chứng mạnh mẽ về khoảng 14,000 chuyển đoạn mã hóa protein. Sự mở rộng nổi bật trong các gia đình protein có khả năng tham gia vào sự bám dính tế bào và miễn dịch đã được ghi nhận. Phân tích tag trình tự biểu hiện của các gen điều chỉnh bởi việc ăn máu đã cung cấp cái nhìn sâu sắc vào các thích nghi sinh lý của một loài côn trùng hút máu.

Từ khóa

#trình tự bộ gen #Anopheles gambiae #vector bệnh sốt rét #đa hình nucleotide đơn #khả năng thích nghi sinh lý #bám dính tế bào #miễn dịch #chủng PEST

Tài liệu tham khảo

J. G. Breman A. Egan G. T. Keusch Am. J. Trop. Med. Hyg. 64 (suppl.) 1 (2001).

10.1016/0035-9203(79)90036-1

10.1080/11250008509440343

10.1046/j.1365-2583.2001.00235.x

Touré Y. T., et al., Parassitologia 40, 477 (1998).

10.1007/BF00352298

10.1017/S001667230001096X

See supporting data on Science Online.

10.1016/0035-9203(92)90216-Y

10.1101/gr.10.7.939

10.1101/gr.179201

10.1126/science.1058040

10.1126/science.287.5461.2185

10.1126/science.287.5461.2196

10.1126/science.1069193

A mate pair is a set of two sequence reads derived from either end of a clone insert such that their relative orientation and distance apart are known.

Unitigs are sets of sequence reads that have been uniquely assembled into a single contiguous sequence such that no fragment in the unitig overlaps a fragment not in the unitig. The depth of reads in a unitig and the mate pair structure between it and other unitigs are used to determine whether a given unitig has single or multiple copies in the genome. We define contigs as sets of overlapping unitigs. Unlike scaffolds which comprise ordered and oriented contigs unitigs and contigs do not have internal gaps.

A nucleotide position was considered to be a SND if the respective column of the multialignment satisfied the following three criteria. First two different bases (A C G T or unknown) had to be observed each in at least two fragments. Second the total number of fragments covering the column had to be ≤15 [halfway between single (10×) and double (20×) coverage] to reduce the frequency of false positives resulting from overcollapsed repeats. Third we eliminated all but one of a run of adjacent SND columns so that block mismatches or (more likely) block indels (insertions/deletions) were counted only once.

SND “balance” is the ratio of the number of fragments showing the second most frequent character in a column to the number showing the most frequent character.

SND “association” shows for a sliding window of 100 kb the fraction of polymorphic columns that can be partitioned into two consistent haplotypes. For an SND column A of the multiple sequence alignment and the previous such column B each fragment might have one of four possible haplotype phases: AB Ab aB or ab where the upper- and lowercase letters indicate alternative nucleotides. We say that columns A and B are consistent if only two of these four haplotypes are present. For the test to be nontrivial we require that at least two fragments be observed with each of the two haplotype phases.

10.1073/pnas.88.1.305

10.1073/pnas.191003598

10.1073/pnas.97.11.5960

10.1093/oxfordjournals.molbev.a003804

10.1073/pnas.082235599

10.1093/jmedent/29.1.125

M. Ashburner Drosophila : A Laboratory Handbook (Cold Spring Harbor Laboratory Press Plainview NY 1989) p. 74.

F. H. Collins unpublished data.

10.1016/S0959-437X(00)00249-5

10.1038/35038580

10.1101/gr.210802

10.1093/jhered/91.5.364

On the basis of empirical tests homologous proteins were required to be one of the five best mutual Blast hits within the entire genome to fall within 15 gene calls of the closest neighboring pair and to consist of three or more spatial matches.

The C. elegans Sequencing Consortium Science 282 2012 (1998).

10.1126/science.1072104

S. L. Salzberg R. Wides unpublished data.

10.1126/science.1077061

10.1093/nar/29.1.37

10.1093/bioinformatics/17.9.847

10.1126/science.287.5461.2204

The complete hierarchy of InterPro entries is described at www.ebi.ac.uk/interpro; the hierarchy for GO is described at www.geneontology.org.

10.1016/S0965-1748(00)00145-4

10.1073/pnas.97.12.6619

10.1034/j.1600-065X.2001.1800107.x

10.1016/S0960-9822(01)00648-0

10.1016/S0896-6273(01)00291-4

10.1074/jbc.M110078200

10.1146/annurev.ento.44.1.397

A. N. Clements Biology of Mosquitoes Vol. I: Development Nutrition Reproduction (Chapman & Hall Wallingford UK 1992).

10.1073/pnas.092274999

10.1046/j.1365-2583.2000.00214.x

10.1126/science.1076781

10.1042/bj3590295

10.1126/science.1076196

10.1016/S0952-7915(00)00186-2

10.1126/science.1077136

10.1126/science.3532325

10.1038/417452a

10.1126/science.276.5311.425

10.1093/bioinformatics/16.8.743

Supported in part by NIH grant U01AI50687 (R.A.H.) and grants U01AI48846 and R01AI44273 (F.H.C.) on behalf of the Anopheles gambiae Genome Consortium and by the French Ministry of Research. We thank K. Aultman (NIAID) for her insights and effective coordination D. Lilley (Celera) for competent financial and administrative management and all members of the sequencing and support teams at the sequencing centers Celera Genoscope and TIGR.