Dự đoán vị trí liên kết ion gốc axit bằng bộ phân loại K-lân cận gần nhất

Liu Liu, Xiuzhen Hu1, Zhenxing Feng1, Xiaojin Zhang1, Shan Wang1, Shuang Xu1, Kai Sun1
1College of Sciences, Inner Mongolia University of Technology, Hohhot, 010051, China

Tóm tắt

Tóm tắtĐặt vấn đềCác protein thực hiện chức năng của chúng bằng cách tương tác với các ion gốc axit. Gần đây, việc dự đoán chính xác các vị trí liên kết của các ligand ion gốc axit đã trở thành một thách thức trong lĩnh vực thiết kế thuốc phân tử.Kết quảTrong nghiên cứu này, chúng tôi đã đề xuất một phương pháp cải tiến để dự đoán các vị trí liên kết ion gốc axit bằng cách sử dụng bộ phân loại K-lân cận gần nhất. Trong khi đó, chúng tôi đã xây dựng các tập dữ liệu của bốn ligand ion gốc axit (NO2, CO32−, SO42−, PO43−) từ cơ sở dữ liệu BioLip. Sau đó, dựa trên độ dài cửa sổ tối ưu cho từng ligand ion gốc axit, chúng tôi đã tinh chỉnh thông tin thành phần và thông tin bảo tồn vị trí và trích xuất chúng làm các tham số đặc trưng cho bộ phân loại K-lân cận gần nhất. Trong kết quả của quá trình kiểm tra chéo 5 lần, hệ số tương quan Matthew cao hơn 0.45, các giá trị độ chính xác, độ nhạy và độ đặc hiệu đều cao hơn 69.2%, và tỷ lệ dương tính giả thấp hơn 30.8%. Hơn nữa, chúng tôi cũng đã thực hiện một bài kiểm tra độc lập để kiểm tra tính khả thi của phương pháp được đề xuất. Trong các kết quả thu được, độ nhạy cao hơn 40.9%, các giá trị độ chính xác và độ đặc hiệu đều cao hơn 84.2%, hệ số tương quan Matthew cao hơn 0.116, và tỷ lệ dương tính giả thấp hơn 15.4%. Cuối cùng, chúng tôi đã xác định các vị trí liên kết của sáu ligand ion kim loại. Trong các kết quả được dự đoán, các giá trị độ chính xác, độ nhạy và độ đặc hiệu đều cao hơn 77.6%, hệ số tương quan Matthew cao hơn 0.6, và tỷ lệ dương tính giả thấp hơn 19.6%.Kết luậnTóm lại, các kết quả tốt từ phương pháp dự đoán của chúng tôi đã bổ sung những hiểu biết mới trong việc dự đoán các vị trí liên kết của các ligand ion gốc axit.

Từ khóa


Tài liệu tham khảo

Zhu L, Deng SP, et al. Identifying spurious interactions in the protein-protein interaction networks using local similarity preserving embedding [J]. IEEE/ACM Trans Comput Biol Bioinform. 2017;14(2):345–52.

Deng SP, Huang DS. SFAPS: an R package for structure/function analysis of protein sequences based on informational spectrum method [J]. Methods. 2014;69(3):207–12.

Huang DS, Zhang L, et al. Prediction of protein-protein interactions based on protein-protein correlation using least squares regression. Curr Protein Pept Sci. 2014;15(6):553–60.

Huang DS, Yu HJ. Normalized feature vectors: a novel alignment-free sequence comparison method based on the numbers of adjacent amino acids [J]. IEEE/ACM Trans Comput Biol Bioinform. 2013;10(2):457–67.

You ZH, Lei YK, Gui J, et al. Using manifold embedding for assessing and predicting protein interactions from high-throughput experimental data [J]. Bioinformatics. 2010;26(21):2744–51.

Xia JF, Zhao XM, Song J, et al. APIS: accurate prediction of hot spots in protein interfaces by combining protrusion index with solvent accessibility [J]. Bmc Bioinformatics. 2010;11(1):174.

Xia JF, Zhao XM, et al. Predicting protein-protein interactions from protein sequences using meta predictor [J]. Amino Acids. 2010;39(5):1595–9.

Xia JF. Kyungsook Han, et al. sequence-based prediction of protein-protein interactions by means of rotation forest and autocorrelation descriptor [J]. Protein Pept Lett. 2010;17(1):137–45.

Shi MG, Xia JF, et al. Predicting protein-protein interactions from sequence using correlation coefficient and high-quality interaction dataset [J]. Amino Acids. 2010;38(3):891–9.

Wang B. Hau san Wong, et al. inferring protein-protein interacting sites using residue conservation and evolutionary information [J]. Protein Pept Lett. 2006;13(10):999–1005.

Burnett G. Kennedy E P, the enzymatic phosphorylation of proteins [J]. Biol Chem. 1954;211:969–80.

Thomas L, Michael M. Cloning of a cDNA encoding ATP sulfurylase form Arabidopsis thaliana by functional expression in Saccharomyces cerevisiae [J]. Plant Physiol. 1994;105:897–902.

Monigatti F, Gasteiger E, Bairoch A, et al. The sulfinator: predicting tyrosine sulfation sites in protein sequences [J]. Bioinformatics. 2002;18:769–70.

Pardee B. Purification and properties of a sulfate-bindind protein form Salmonella typhimurium [J]. Received for publication. J Biol Chem. 1966;24:5886–92.

Richard G. Christoph Hundt, Stefan Weiss, et al. Turnbull. Identification of the Heparan sulfate binding sites in the cellular prion protein [J]. J Biol Chem. 2002;277:18421–30.

Tamada Y. Sulfation of silk fibroin by sulfuric acid and anticoagulant activity [J]. Appl Polym Sci. 2003;87:2377–82.

Hu X, Dong Q, Yang J, et al. Recognizing metal and acid radical ion-binding sites by integrating ab initio modeling with template-based transferals [J]. Bioinformatics. 2016;32(23):btw396.

Hu X, Wang K, Dong Q. Protein ligand-specific binding residue predictions by an ensemble classifier [J]. BMC Bioinformatics. 2016;17(1):470.

Li S, Hu X, et al. Identifying the sulfate ion binding residues in proteins [J]. International Conference on Biomedical and Biological Engineering, 2017.

Zhang C, Freddolino P L, Zhang Y. COFACTOR: improved protein function prediction by combining structure, sequence and protein-protein interaction information[J]. Nucleic Acids Res. 2017;45:W295.

Greenside P, Hillenmeyer M, Kundaje A. Prediction of protein-ligand interactions from paired protein sequence motifs and ligand substructures [C]. Pacific Symposium, 2018.

Li W, Godzik A. Cd-hit: a fast program for clustering and comparing large sets of protein or nucleotide sequences [M]. Bioinformatics. 2006;22:1658–9.

Taylor WR. The classification of amino acid conservation [J]. J Theor Biol. 1986;119(2):205–18.

Pánek J, Eidhammer I, Aasland R. A new method for identification of protein (sub) families in a set of proteins based on hydropathy distribution in proteins [J]. Proteins Struct Funct Bioinformatics. 2005;58(4):923–34.

Feng Z, Hu X. Recognition of 27-class protein folds by adding the interaction of segments and motif information. Biomed Res Int. 2014;2014(4):871–82.

Chen YL, Li QZ. Prediction of the subcellular location of apoptosis proteins. J Theor Biol. 2007;245(4):775–83.

Gao S, Hu X. Prediction of four kinds of super secondary structure in enzymes by using ensemble classifier based on scoring SVM [J]. Hans J Comput Biol. 2014;04(1):1–11.

Kel AE, GoBling E, Reuter I, el al. MATCHTM: a tool for searching transcription factor binding sites in DNA sequences[J]. Nucleic Acids Res. 2003;13:3576–9.

Thomas Cover PH. Nearest nei^Bor pattern classification [J]. IEEE T Inform Theory. 1967;13:21.

Qian S, Yan B, Li J. Ensemble learning for protein multiplex subcellular localization prediction based on weighted KNN with different features [J]. Applined Intell. 2017;1:1–12.

Zhang T, Ding Y, Chou K. Prediction protein structural classes with pseudo-amino acid composition: approximate entropy and hydrophobicity pattern [J]. J Theor Biol. 2008;250(1):186–93.

Feng ZX, Li QZ. Recognition of long-range enhancer-promoter interactions by adding genomic signatures of segmented regulatory regions [J]. Genomics. 2017;109(5–6):341.

Hall M, Frank E, Holmers G, Pfahringer B, Reotemann P, Witten IH. The WEKA software an update. ACM SIGKDD Explor Newsl. 2019;11:10–8.

AHa D, Kibler D. Instance-based learning algorithms. Mach Learn. 1991;6:37–66.

Cao X, Hu X, Zhang X, et al. Identification of metal ion binding sites based on amino acid sequences [J]. PLoS One. 2017;12(8):13.