Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
TADKB: Phân loại gia đình và cơ sở tri thức về các miền liên kết hình học
Tóm tắt
Các miền liên kết hình học (TADs) được coi là các đơn vị cấu trúc và chức năng của bộ gen. Tuy nhiên, trong tài liệu hiện có vẫn thiếu một nguồn tài nguyên tích hợp cho TADs, nơi mà các nhà nghiên cứu có thể lấy thông tin phân loại gia đình và thông tin chi tiết về TADs. Chúng tôi đã xây dựng một cơ sở tri thức trực tuyến TADKB tích hợp thông tin về TADs trong mười một loại tế bào của con người và chuột. Đối với mỗi TAD, TADKB cung cấp các cấu trúc ba chiều (3D) dự đoán của cromosom và TADs, cũng như các chú thích chi tiết về các gen mã hóa protein và các RNA không mã hóa dài (lncRNAs) tồn tại trong mỗi TAD. Ngoài các cấu trúc cromosom 3D được suy diễn từ Hi-C quần thể, các cấu trúc cromosom 3D được giải quyết bằng tế bào đơn của 17 tế bào GM12878 cũng được tích hợp trong TADKB. Người dùng có thể gửi ID/gen lncRNA hoặc chuỗi để tìm kiếm các TAD chứa gen hoặc lncRNA truy vấn. Chúng tôi cũng đã phân loại các TAD thành các gia đình. Để thực hiện điều này, chúng tôi đã sử dụng các điểm TM giữa các cấu trúc 3D khôi phục của TADs như các sự tương đồng cấu trúc và các hệ số tương quan Pearson giữa độ phong phú thanh chromatin như các sự tương đồng chức năng. Tất cả các TAD trong một loại tế bào được phân nhóm dựa trên các sự tương đồng cấu trúc và chức năng tương ứng bằng thuật toán phân cụm phổ với nhiều số lượng cụm đã được định nghĩa trước. Chúng tôi đã so sánh các TAD chồng chéo từ các cụm cấu trúc và chức năng và nhận thấy rằng hầu hết các TAD trong các cụm chức năng có trạng thái chromatin bị suy giảm được phân cụm thành một hoặc hai cụm cấu trúc. Phát hiện mới lạ này chỉ ra một mối liên hệ giữa các cấu trúc 3D của TADs và chức năng DNA của chúng về mặt trạng thái chromatin. TADKB có sẵn tại http://dna.cs.miami.edu/TADKB/
Từ khóa
#miền liên kết hình học #TAD #cơ sở tri thức #phân loại gia đình #gen mã hóa #RNA không mã hóa dài #cấu trúc 3D #trạng thái chromatinTài liệu tham khảo
Dixon JR, Selvaraj S, Yue F, Kim A, Li Y, Shen Y, Hu M, Liu JS, Ren B. Topological domains in mammalian genomes identified by analysis of chromatin interactions. Nature. 2012;485(7398):376–80.
Rao SS, Huntley MH, Durand NC, Stamenova EK, Bochkov ID, Robinson JT, Sanborn AL, Machol I, Omer AD, Lander ES. A 3D map of the human genome at kilobase resolution reveals principles of chromatin looping. Cell. 2014;159(7):1665–80.
Dixon JR, Gorkin DU, Ren B. Chromatin domains: the unit of chromosome organization. Mol Cell. 2016;62(5):668–80.
Zuin J, Dixon JR, van der Reijden MI, Ye Z, Kolovos P, Brouwer RW, van de Corput MP, van de Werken HJ, Knoch TA, van IJcken WF. Cohesin and CTCF differentially affect chromatin architecture and gene expression in human cells. Proc Natl Acad Sci. 2014;111(3):996–1001.
Rudan MV, Barrington C, Henderson S, Ernst C, Odom DT, Tanay A, Hadjur S. Comparative hi-C reveals that CTCF underlies evolution of chromosomal domain architecture. Cell Rep. 2015;10(8):1297–309.
Sexton T, Yaffe E, Kenigsberg E, Bantignies F, Leblanc B, Hoichman M, Parrinello H, Tanay A, Cavalli G. Three-dimensional folding and functional organization principles of the Drosophila genome. Cell. 2012;148(3):458–72.
Chen Y, Wang Y, Xuan Z, Chen M, Zhang MQ. De novo deciphering three-dimensional chromatin interaction and topological domains by wavelet transformation of epigenetic profiles. Nucleic Acids Res. 2016;44(11):e106.
Filippova D, Patro R, Duggal G, Kingsford C. Identification of alternative topological domains in chromatin. Algorithms Mol Biol. 2014;9(1):14.
Lévy-Leduc C, Delattre M, Mary-Huard T, Robin S. Two-dimensional segmentation for analyzing hi-C data. Bioinformatics. 2014;30(17):i386–92.
Libbrecht MW, Ay F, Hoffman MM, Gilbert DM, Bilmes JA, Noble WS. Joint annotation of chromatin state and chromatin conformation reveals relationships among domain types and identifies domains of cell-type-specific expression. Genome Res. 2015;25(4):544–57.
Phillips-Cremins JE, Sauria ME, Sanyal A, Gerasimova TI, Lajoie BR, Bell JS, Ong C-T, Hookway TA, Guo C, Sun Y. Architectural protein subclasses shape 3D organization of genomes during lineage commitment. Cell. 2013;153(6):1281–95.
Shin H, Shi Y, Dai C, Tjong H, Gong K, Alber F, Zhou XJ. TopDom: an efficient and deterministic method for identifying topological domains in genomes. Nucleic Acids Res. 2015;44(7):e70.
Weinreb C, Raphael BJ. Identification of hierarchical chromatin domains. Bioinformatics. 2015;32(11):1601–9.
Lieberman-Aiden E, Van Berkum NL, Williams L, Imakaev M, Ragoczy T, Telling A, Amit I, Lajoie BR, Sabo PJ, Dorschner MO. Comprehensive mapping of long-range interactions reveals folding principles of the human genome. Science. 2009;326(5950):289–93.
Javierre BM, Burren OS, Wilder SP, Kreuzhuber R, Hill SM, Sewitz S, Cairns J, Wingett SW, Várnai C, Thiecke MJ. Lineage-specific genome architecture links enhancers and non-coding disease variants to target gene promoters. Cell. 2016;167(5):1369–84 e1319.
Duan Z, Andronescu M, Schutz K, McIlwain S, Kim YJ, Lee C, Shendure J, Fields S, Blau CA, Noble WS. A three-dimensional model of the yeast genome. Nature. 2010;465(7296):363–7.
Zhang Z, Li G, Toh K-C, Sung W-K. 3D chromosome modeling with semi-definite programming and hi-C data. J Comput Biol. 2013;20(11):831–46.
Trieu T, Cheng J. Large-scale reconstruction of 3D structures of human chromosomes from chromosomal contact data. Nucleic Acids Res. 2014;42(7):e52.
Varoquaux N, Ay F, Noble WS, Vert J-P. A statistical approach for inferring the 3D structure of the genome. Bioinformatics. 2014;30(12):i26–33.
Liu T, Wang Z. Reconstructing high-resolution chromosome three-dimensional structures by hi-C complex networks. BMC Bioinformatics. 2018;19(Suppl 17):496.
Kruskal JB. Multidimensional scaling by optimizing goodness of fit to a nonmetric hypothesis. Psychometrika. 1964;29(1):1–27.
Lvd M, Hinton G. Visualizing data using t-SNE. J Mach Learn Res. 2008;9(Nov):2579–605.
Ramani V, Deng X, Qiu R, Gunderson KL, Steemers FJ, Disteche CM, Noble WS, Duan Z, Shendure J. Massively multiplex single-cell hi-C. Nat Methods. 2017;14(3):263–6.
Liu T, Wang Z. scHiCNorm: a software package to eliminate systematic biases in single-cell hi-C data. Bioinformatics. 2018;34(6):1046–7.
Djebali S, Davis CA, Merkel A, Dobin A, Lassmann T, Mortazavi A, Tanzer A, Lagarde J, Lin W, Schlesinger F. Landscape of transcription in human cells. Nature. 2012;489(7414):101–8.
Monnier P, Martinet C, Pontis J, Stancheva I, Ait-Si-Ali S, Dandolo L. H19 lncRNA controls gene expression of the imprinted gene network by recruiting MBD1. Proc Natl Acad Sci. 2013;110(51):20693–8.
Schuldt A. Gene expression: an ncRNA relocation package. Nat Rev Mol Cell Biol. 2011;13(1):1–1.
Lee JT. Epigenetic regulation by long noncoding RNAs. Science. 2012;338(6113):1435–9.
Morlando M, Ballarino M, Fatica A, Bozzoni I. The role of long noncoding RNAs in the epigenetic control of gene expression. ChemMedChem. 2014;9(3):505–10.
Maia BM, Rocha RM, Calin GA. Clinical significance of the interaction between non-coding RNAs and the epigenetics machinery. Epigenetics. 2014;9(1):75–80.
Magistri M, Faghihi MA, St Laurent G III, Wahlestedt C. Regulation of chromatin structure by long noncoding RNAs: focus on natural antisense transcripts. Trends Genet. 2012;28(8):389–96.
Engreitz JM, Pandya-Jones A, McDonel P, Shishkin A, Sirokman K, Surka C, Kadri S, Xing J, Goren A, Lander ES. The Xist lncRNA exploits three-dimensional genome architecture to spread across the X chromosome. Science. 2013;341(6147):1237973.
Zhao Y, Li H, Fang S, Kang Y, Hao Y, Li Z, Bu D, Sun N, Zhang MQ, Chen R. NONCODE 2016: an informative and valuable data source of long non-coding RNAs. Nucleic Acids Res. 2015. https://doi.org/10.1093/nar/gkv1252.
Volders P-J, Verheggen K, Menschaert G, Vandepoele K, Martens L, Vandesompele J, Mestdagh P. An update on LNCipedia: a database for annotated human lncRNA sequences. Nucleic Acids Res. 2015;43(D1):D174–80.
Quek XC, Thomson DW, Maag JL, Bartonicek N, Signal B, Clark MB, Gloss BS, Dinger ME. lncRNAdb v2.0: expanding the reference database for functional long noncoding RNAs. Nucleic Acids Res. 2015;43(Database issue):D168–73.
Bonev B, Cohen NM, Szabo Q, Fritsch L, Papadopoulos GL, Lubling Y, Xu X, Lv X, Hugnot J-P, Tanay A. Multiscale 3D genome rewiring during mouse neural development. Cell. 2017;171(3):557–72 e524.
Yu W, He B, Tan K. Identifying topologically associating domains and subdomains by Gaussian mixture model and proportion test. Nat Commun. 2017;8(1):535.
Crane E, Bian Q, McCord RP, Lajoie BR, Wheeler BS, Ralston EJ, Uzawa S, Dekker J, Meyer BJ. Condensin-driven remodelling of X chromosome topology during dosage compensation. Nature. 2015;523(7559):240.
Mumbach MR, Rubin AJ, Flynn RA, Dai C, Khavari PA, Greenleaf WJ, Chang HY. HiChIP: efficient and sensitive analysis of protein-directed genome architecture. Nat Methods. 2016;13(11):919.
Quinodoz SA, Ollikainen N, Tabak B, Palla A, Schmidt JM, Detmar E, Lai MM, Shishkin AA, Bhat P, Takei Y et al. Higher-Order Inter-chromosomal Hubs Shape 3D Genome Organization in the Nucleus. Cell. 2018;174(3):744–57 e724.
Knight PA, Ruiz D. A fast algorithm for matrix balancing. IMA J Numer Anal. 2013;33(3):1029–47.
Li W, Gong K, Li Q, Alber F, Zhou XJ. Hi-corrector: a fast, scalable and memory-efficient package for normalizing large-scale hi-C data. Bioinformatics. 2015;31(6):960–2.
Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thirion B, Grisel O, Blondel M, Prettenhofer P, Weiss R, Dubourg V. Scikit-learn: machine learning in python. J Mach Learn Res. 2011;12(Oct):2825–30.
Kabsch W. A discussion of the solution for the best rotation to relate two sets of vectors. Acta Crystallogr Sect A: Cryst Phys, Diffr, Theor Gen Crystallogr. 1978;34(5):827–8.
Liu T, Wang Z: Measuring the three-dimensional structural properties of topologically associating domains. In: 2018 IEEE International Conference on Bioinformatics and Biomedicine (BIBM): 2018: IEEE; 2018: 21–28.
Tan L, Xing D, Chang C-H, Li H, Xie XS. Three-dimensional genome structures of single diploid human cells. Science. 2018;361(6405):924–8.
Zhang Y, Skolnick J. TM-align: a protein structure alignment algorithm based on the TM-score. Nucleic Acids Res. 2005;33(7):2302–9.
Ernst J, Kellis M. ChromHMM: automating chromatin-state discovery and characterization. Nat Methods. 2012;9(3):215.
Kundaje A, Meuleman W, Ernst J, Bilenky M, Yen A, Heravi-Moussavi A, Kheradpour P, Zhang Z, Wang J, Ziller MJ. Integrative analysis of 111 reference human epigenomes. Nature. 2015;518(7539):317.
Shi J, Malik J. Normalized cuts and image segmentation. IEEE T Pattern Anal. 2000;22(8):888–905.
Frey BJ, Dueck D. Clustering by passing messages between data points. Science. 2007;315(5814):972–6.
Yates A, Akanni W, Amode MR, Barrell D, Billis K, Carvalho-Silva D, Cummins C, Clapham P, Fitzgerald S, Gil L. Ensembl 2016. Nucleic Acids Res. 2015;44(D1):D710–6.
Hinrichs AS, Karolchik D, Baertsch R, Barber GP, Bejerano G, Clawson H, Diekhans M, Furey TS, Harte RA, Hsu F. The UCSC genome browser database: update 2006. Nucleic Acids Res. 2006;34(suppl 1):D590–8.
Altschul S, Madden T, Schaffer A, Zhang J, Zhang Z, Miller W, Lipman D. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 1997;25(17):3389–402.
Robinson JT, Turner D, Durand NC, Thorvaldsdóttir H, Mesirov JP, Aiden EL. Juicebox. js provides a cloud-based visualization system for Hi-C data. Cell Syst. 2018;6(2):256–8 e251.
Park C, Yu N, Choi I, Kim W, Lee S. lncRNAtor: a comprehensive resource for functional investigation of long noncoding RNAs. Bioinformatics. 2014. https://doi.org/10.1093/bioinformatics/btu325.