Hợp nhất dữ liệu microsatellite: phương pháp và phần mềm nâng cao để kết hợp dữ liệu kiểu gen cho phân tích liên kết và liên kết

BMC Bioinformatics - Tập 9 Số 1 - 2008
Angela P. Presson1, Eric M. Sobel2, Päivi Pajukanta2, Christopher Plaisier2, Daniel E. Weeks3, Karolina A. Åberg4, Jeanette C. Papp2
1Department of Biostatistics, University of California, Los Angeles, USA
2Department of Human Genetics, University of California, Los Angeles, USA
3Department of Biostatistics, University of Pittsburgh, Pittsburgh, USA
4Department of Human Genetics, University of Pittsburgh, Pittsburgh, USA

Tóm tắt

Tóm tắt Nền tảng Các tập dữ liệu được ghép chính xác và đã được định kiểu độc lập có thể tăng cường sức mạnh thống kê trong các nghiên cứu liên kết và liên kết. Tuy nhiên, các alen từ các tập dữ liệu microsatellite được định kiểu bằng các giao thức hoặc nền tảng thí nghiệm khác nhau không thể được so khớp chính xác chỉ bằng thông tin kích thước cặp cơ sở. Trong một công bố trước đó, chúng tôi đã giới thiệu một mô hình thống kê để hợp nhất dữ liệu microsatellite bằng cách so khớp tần suất alen giữa các tập dữ liệu. Các phương pháp này đã được triển khai trong phần mềm MicroMerge phiên bản 1 (v1). Mặc dù đầu ra của MicroMerge v1 có thể được phân tích bởi một số chương trình phân tích di truyền, nhưng nhiều chương trình không thể phân tích các căn chỉnh không khớp một-một giữa các tập dữ liệu. Hệ quả của các căn chỉnh như vậy là các kiểu gen đồng trội thường phải được phân tích như các kiểu hình. Trong bài báo này, chúng tôi mô tả một số mở rộng đã được triển khai trong MicroMerge phiên bản 2 (v2). Kết quả Đặc biệt, MicroMerge v2 bao gồm một tùy chọn căn chỉnh một-một mới tạo ra các tập tin phả hệ và locus được hợp nhất có thể được xử lý bởi hầu hết các phần mềm phân tích di truyền. Các tính năng khác trong MicroMerge v2 nâng cao các khía cạnh điều khiển sau: 1) tối ưu hóa thuật toán cho các kịch bản hợp nhất khác nhau, chẳng hạn như các tập dữ liệu có kích thước mẫu rất khác nhau hoặc nhiều tập dữ liệu, 2) hợp nhất các tập dữ liệu nhỏ khi có một tập tần suất alen đáng tin cậy, và 3) cải thiện số lượng và 4) chất lượng dữ liệu đã hợp nhất. Chúng tôi trình bày kết quả từ các tập dữ liệu genotipe microsatellite giả lập và thực tế, và kết luận bằng một phân tích liên kết của ba mẫu nghiên cứu rối loạn lipid gia đình (FD) được định kiểu tại các phòng thí nghiệm khác nhau. Phân tích độc lập từng tập dữ liệu FD không mang lại kết quả nhất quán, nhưng phân tích các tập dữ liệu đã hợp nhất cho thấy sự liên kết mạnh tại locus D11S2002. Kết luận Các tính năng của MicroMerge v2 sẽ cho phép hợp nhất cho nhiều loại tập dữ liệu kiểu gen, từ đó sẽ hỗ trợ cho các phân tích meta để tăng cường sức mạnh cho các phân tích liên kết.

Từ khóa


Tài liệu tham khảo

Ioannidis JP: Genetic associations: false or true? Trends Mol Med 2003, 9(4):135–8. [1471–4914 (Print) Journal Article Review] 10.1016/S1471-4914(03)00030-3

Burgner D, Jamieson SE, Blackwell JM: Genetic susceptibility to infectious diseases: big is beautiful, but will bigger be even better? Lancet Infect Dis 2006, 6(10):653–63. [1473–3099 (Print) Journal Article Research Support, Non-U.S. Gov't Review] 10.1016/S1473-3099(06)70601-6

Freimer N, Sabatti C: The use of pedigree, sib-pair and association studies of common diseases for genetic mapping and epidemiology. Nat Genet 2004, 36(10):1045–51. [1061–4036 (Print) Journal Article Review] 10.1038/ng1433

Presson AP, Sobel E, Lange K, Papp JC: Merging microsatellite data. J Comput Biol 2006, 13(6):1131–47. [1066–5277 (Print) Journal Article] 10.1089/cmb.2006.13.1131

Chen GK, Slaten E, Ophoff RA, Lange K: Accommodating chromosome inversions in linkage analysis. Am J Hum Genet 2006, 79(2):238–51. [Chen, Gary K Slaten, Erin Ophoff, Roel A Lange, Kenneth GM068875/GM/United States NIGMS GM53275/GM/United States NIGMS MH59490/MH/United States NIMH T32 HG02536/HG/United States NHGRI Research Support, N.I.H., Extramural Research Support, Non-U.S. Gov't United States American journal of human genetics Am J Hum Genet. 2006 Aug;79(2):238–51. Epub 2006 Jun 6.] 10.1086/505540

Dorr DA, Rice JP, Armstrong C, Reich T, Blehar M: A meta-analysis of chromosome 18 linkage data for bipolar illness. Genet Epidemiol 1997, 14(6):617–22. [Dorr, D A Rice, J P Armstrong, C Reich, T Blehar, M MH31302/MH/United States NIMH MH37685/MH/United States NIMH Meta-Analysis Research Support, U.S. Gov't, P.H.S. United states Genetic epidemiology Genet Epidemiol. 1997;14(6):617–22.] 10.1002/(SICI)1098-2272(1997)14:6<617::AID-GEPI11>3.0.CO;2-T

Weeks DE, Conley YP, Ferrell RE, Mah TS, Gorin MB: A tale of two genotypes: consistency between two high-throughput genotyping centers. Genome Res 2002, 12(3):430–5. [1088–9051 (Print) Comparative Study Journal Article Research Support, Non-U.S. Gov't Research Support, U.S. Gov't, P.H.S.] 10.1101/gr.211502

Idury RM, Cardon LR: A simple method for automated allele binning in microsatellite markers. Genome Res 1997, 7(11):1104–9. [Idury, R M Cardon, L R United states Genome research Genome Res. 1997 Nov;7(11):1104–9.]

Lange K, Cantor R, Horvath S, Perola M, Sabatti C, Sinsheimer J, Sobel E: Mendel version 4.0: A complete package for the exact genetic analysis of discrete traits in pedigree and population data sets. Am J Hum Genet 2001, 69(supplement):A1886.

Kruglyak L, Daly MJ, Reeve-Daly MP, Lander ES: Parametric and nonparametric linkage analysis: a unified multipoint approach. Am J Hum Genet 1996, 58(6):1347–63. [0002–9297 (Print) Comparative Study Journal Article Research Support, U.S. Gov't, P.H.S.]

Abecasis GR, Cherny SS, Cookson WO, Cardon LR: Merlin-rapid analysis of dense genetic maps using sparse gene flow trees. Nat Genet 2002, 30: 97–101. [1061–4036 (Print) Comparative Study Journal Article Research Support, Non-U.S. Gov't Research Support, U.S. Gov't, P.H.S.] 10.1038/ng786

Lathrop GM, Lalouel JM, Julier C, Ott J: Strategies for multilocus linkage analysis in humans. Proc Natl Acad Sci USA 1984, 81(11):3443–6. [0027–8424 (Print) Journal Article] 10.1073/pnas.81.11.3443

Sheffield VC, Weber JL, Buetow KH, Murray JC, Even DA, Wiles K, Gastier JM, Pulido JC, Yandava C, Sunden SL, et al.: A collection of tri- and tetranucleotide repeat markers used to generate high quality, high resolution human genome-wide linkage maps. Hum Mol Genet 1995, 4(10):1837–44. [Sheffield, V C Weber, J L Buetow, K H Murray, J C Even, D A Wiles, K Gastier, J M Pulido, J C Yandava, C Sunden, S L P50HG00835/HG/United States NHGRI Research Support, U.S. Gov't, P.H.S. England Human molecular genetics Hum Mol Genet. 1995 Oct;4(10):1837–44.] 10.1093/hmg/4.10.1837

Pajukanta P, Allayee H, Krass KL, Kuraishy A, Soro A, Lilja HE, Mar R, Taskinen MR, Nuotio I, Laakso M, Rotter JI, de Bruin TW, Cantor RM, Lusis AJ, Peltonen L: Combined analysis of genome scans of dutch and finnish families reveals a susceptibility locus for high-density lipoprotein cholesterol on chromosome 16q. Am J Hum Genet 2003, 72(4):903–17. [Pajukanta, Paivi Allayee, Hooman Krass, Kelly L Kuraishy, Ali Soro, Aino Lilja, Heidi E Mar, Rebecca Taskinen, Marja-Riitta Nuotio, Ilpo Laakso, Markku Rotter, Jerome I de Bruin, Tjerk W A Cantor, Rita M Lusis, Aldons J Peltonen, Leena 5-t32-gm08243–15/gm/nigms Hl-28481/hl/nhlbi Research Support, Non-U.S. Gov't Research Support, U.S. Gov't, P.H.S. United States American journal of human genetics Am J Hum Genet. 2003 Apr;72(4):903–17. Epub 2003 Mar 12.] 10.1086/374177

Neyman J, Pearson E: On the Problem of the Most Efficient Tests of Statistical Hypotheses. Philosophical Transactions of the Royal Society of London. Series A, Containing Papers of a Mathematical or Physical Character 1933, 231: 289–337. 10.1098/rsta.1933.0009