Hiểu rõ độ chính xác của suy diễn haplotype thống kê với dữ liệu chuỗi có phase đã biết

Genetic Epidemiology - Tập 31 Số 7 - Trang 659-671 - 2007
Aida M. Andrés1,2, Andrew G. Clark3, Lawrence C. Shimmin4, Eric Boerwinkle5, Christian Ehnholm6, James E. Hixson5
1Department of Molecular Biology and Genetics, Cornell University, Ithaca, New York;
2National Human Genome Research Institute, National Institutes of Health, 50 South Drive, Building 50 Room 5527, Bethesda, MD 20892
3(Cornell University
4University of Texas Health Science Center at Houston
5Human Genetics Center, University of Texas Health Science Center, Houston, Texas
6Department of Human Genetics, University of Michigan, Ann Arbor, Michigan

Tóm tắt

Tóm tắt

Các phương pháp thống kê để suy diễn haplotype từ kiểu gen đa điểm của những cá thể không có quan hệ có ứng dụng quan trọng trong nghiên cứu liên kết và di truyền học quần thể. Việc hiểu rõ các yếu tố ảnh hưởng đến độ chính xác của suy diễn này là rất quan trọng, nhưng việc đánh giá đã bị hạn chế bởi sự sẵn có hạn chế của dữ liệu sinh học với phase đã biết. Chúng tôi đã tạo ra các dòng tế bào lai đơn bội cho nhiễm sắc thể người 19 và sản xuất các chuỗi hoàn chỉnh đơn nhiễm sắc thể của một vùng gen 48 kb trên 39 cá thể có nguồn gốc Phi Mỹ (AA) và Mỹ gốc châu Âu (EA). Chúng tôi sử dụng những kiểu gen đã biết phase này và các mô phỏng đồng biến để đánh giá độ chính xác của sự tái tạo haplotype thống kê bằng một số thuật toán. Độ chính xác của suy diễn phase là rất thấp trong dữ liệu sinh học của chúng tôi ngay cả đối với các vùng ngắn như 25–50 kb, cho thấy sự thận trọng là cần thiết khi phân tích các haplotype đã tái tạo. Hơn nữa, độ tin cậy của ước lượng sự tự tin trong suy diễn phase không đủ cao để cho phép việc kết hợp đáng tin cậy thông tin về sự không chắc chắn theo vị trí trong các phân tích tiếp theo. Chúng tôi cho thấy rằng, trong các mẫu có nguồn gốc hỗn hợp nhất định (các quần thể AA và EA), có lẽ haplotype chính xác nhất được thu được khi tăng kích thước mẫu bằng cách xem xét mẫu ghép lớn nhất, mặc dù có những vấn đề lý thuyết liên quan đến việc ghép các mẫu không đồng nhất đó. Các chiến lược để cải thiện sự tự tin trong các haplotype đã tái tạo và các phương án thực tế thay thế cho phân tích các haplotype suy diễn được thảo luận. Genet. Epidemiol. © 2007 Wiley‐Liss, Inc.

Từ khóa


Tài liệu tham khảo

10.1093/bioinformatics/bth457

10.1086/381000

10.1093/bioinformatics/btg078

Clark AG, 1990, Inference of haplotypes from PCR‐amplified samples of diploid populations, Mol Biol Evol, 7, 111

10.1002/gepi.20025

10.1086/301977

10.1002/gepi.20032

10.1038/ng582

Excoffier L, 1995, Maximum‐likelihood estimation of molecular haplotype frequencies in a diploid population, Mol Biol Evol, 12, 921

10.1186/1479-7364-1-1-7

10.1126/science.1069424

10.1093/bioinformatics/bth149

10.1093/oxfordjournals.jhered.a111613

10.1038/hdy.1974.89

10.1093/bioinformatics/18.2.337

10.1038/ng1001-233

10.1093/jhered/esh060

10.1073/pnas.0404730102

10.1101/gr.4371105

10.1086/344347

Long JC, 1995, An E‐M algorithm and testing strategy for multiple‐locus haplotypes, Am J Hum Genet, 56, 799

10.1086/500808

10.1534/genetics.166.1.351

10.1101/gr.GR-1677RR

10.1086/316940

10.1086/420773

10.1126/science.1117196

10.1002/gepi.20024

10.1086/338446

10.1126/science.1065573

10.1016/j.ygeno.2005.08.013

10.1038/35075590

10.1038/nature01140

10.1186/1479-7364-2-1-39

10.1534/genetics.166.1.505

10.1086/502802

10.1534/genetics.105.042762

10.1086/379378

10.1086/428594

Stephens JC, 1990, Theoretical underpinning of the single‐molecule‐dilution. SMD. method of direct haplotype resolution, Am J Hum Genet, 46, 1149

10.1086/319501

10.1038/nature04226

10.1126/science.271.5254.1380

10.1515/9781400859832-007

10.1038/35002251