Bảng chữ cái cấu trúc cho các cấu trúc protein cục bộ: Các phương pháp dự đoán cải tiến

Proteins: Structure, Function and Bioinformatics - Tập 59 Số 4 - Trang 810-827 - 2005
Catherine Etchebest1,2, Cristina Benros1,2, S. Hazout1, Alexandre G. de Brevern1
1Equipe de Bioinformatique Génomique et Moléculaire (EBGM), INSERM U726, Université Denis DIDEROT—Paris, France
2The first two authors contributed equally to this article.

Tóm tắt

Tóm tắt

Các cấu trúc protein ba chiều có thể được mô tả bằng một thư viện các mảnh 3D xác định một bảng chữ cái cấu trúc. Chúng tôi đã từng đề xuất một bảng chữ cái như vậy, bao gồm 16 mẫu của năm axit amin liên tiếp, được gọi là Protein Blocks (PBs). Các PB này đã được sử dụng để mô tả các xương sống protein và để dự đoán các cấu trúc cục bộ từ các trình tự protein. Tỉ lệ dự đoán Q16 đạt 40,7% với một quy trình tối ưu hóa. Bài viết này xem xét hai khía cạnh của các PB. Đầu tiên, chúng tôi xác định ảnh hưởng của việc mở rộng cơ sở dữ liệu đến định nghĩa của chúng. Kết quả cho thấy rằng các đặc điểm hình học của các PB khác nhau được bảo tồn (giá trị RMSD cục bộ bằng 0,41 Å trung bình) và các đặc tính cụ thể về trình tự - cấu trúc được củng cố khi các cơ sở dữ liệu được mở rộng. Thứ hai, chúng tôi cải thiện các phương pháp tối ưu hóa dự đoán PB từ các trình tự, xem lại quy trình tối ưu hóa và khám phá các chiến lược dự đoán cục bộ khác nhau. Việc sử dụng một quy trình tối ưu hóa thống kê cho mối quan hệ giữa trình tự - cấu trúc cục bộ cải thiện độ chính xác của dự đoán lên 8% (Q16 = 48,7%). Nhận dạng tốt hơn các cấu trúc lặp lại diễn ra mà không làm giảm hiệu quả dự đoán của các nếp gấp cục bộ khác. Việc thêm dự đoán cấu trúc thứ cấp đã cải thiện độ chính xác của Q16 chỉ 1%. Một chỉ số entropy (Neq), có liên quan chặt chẽ đến giá trị RMSD của sự khác biệt giữa các PB dự đoán và các cấu trúc cục bộ thật sự, được đề xuất để đánh giá chất lượng dự đoán. Giá trị Neq có tương quan tuyến tính với các phân phối tỉ lệ dự đoán Q16, được tính toán cho một tập hợp lớn các protein. Một tỉ lệ dự đoán "mong đợi" QE16 được suy ra với lỗi trung bình là 5%. Protein 2005. © 2005 Wiley‐Liss, Inc.

Từ khóa


Tài liệu tham khảo

10.1002/pro.5560071109

10.1080/07391102.2000.10506570

10.1073/pnas.37.5.235

10.1073/pnas.37.5.251

10.1093/protein/6.4.377

de Brevern AG, 2001, Recent Advances in Protein Engineering, 319

KarchinR.Evaluating local structure alphabets for protein structure prediction. PhD Comput Sci2003.

10.1006/jmbi.1995.0311

10.1016/S0022-2836(02)00942-7

10.1002/1097-0134(20000901)40:4<662::AID-PROT90>3.0.CO;2-F

10.1002/prot.10310

10.1016/j.jmb.2004.02.047

10.1002/prot.340050410

10.1002/prot.340140404

10.1007/BF02337561

10.1093/protein/9.10.833

10.1016/S0022-2836(05)80194-9

10.1002/(SICI)1097-0134(199702)27:2<249::AID-PROT11>3.0.CO;2-M

10.1006/jmbi.1998.1943

10.1093/protein/12.12.1063

10.1002/1097-0134(20001115)41:3<271::AID-PROT10>3.0.CO;2-Z

10.1016/j.jmb.2004.04.005

10.1002/prot.10309

10.1007/s002140050402

10.1007/s002140100261

10.1186/1471-2105-5-58

10.1007/s002140000227

10.1093/bioinformatics/btf859

Benros C, 2003, Hybrid Protein Model (HPM): a method for building a library of overlapping local structural prototypes. Sensitivity study and improvements of the training, IEEE Int Work NNSP, 1, 53

Bonneau R, 2001, Rossetta in CASP4: Progress in ab initio protein structure prediction, Proteins, 37, 199

10.1016/S0022-2836(02)00698-8

10.1093/bioinformatics/18.suppl_1.S54

10.1073/pnas.97.22.12038

10.1093/protein/14.10.723

10.1110/ps.04774004

10.1110/ps.0220502

de Brevern AG, 2004, Local backbone strucgure prediction of proteins, In Silico Biol, 4, 381

10.1002/prot.10369

10.1002/prot.10082

10.1002/bip.360221211

10.1093/nar/28.1.235

10.1093/nar/29.1.219

10.1002/pro.5560010313

10.1093/bioinformatics/btg224

10.1016/S0022-2836(05)80134-2

10.1093/nar/28.1.254

10.1007/BF00337288

10.1007/978-3-642-56927-2

10.1109/5.18626

10.1016/0097-8485(91)80026-I

10.1002/prot.340230412

Labesse G, 1997, PSEA: a new efficient assignment of secondary structure from Cα trace of proteins, Comput Appl Biosci, 13, 291

10.1016/S0065-3233(08)60063-7

10.1002/pro.5560021004

10.1002/(SICI)1097-0282(199606)38:6<705::AID-BIP3>3.0.CO;2-V

10.1006/jmbi.1996.0506

10.1002/j.1538-7305.1948.tb01338.x

10.1006/jmbi.2000.3837

10.1006/jmbi.1999.3091

10.1016/0263-7855(96)00018-5

10.1006/abio.2000.4757

10.1002/pro.5560070103

10.1073/pnas.93.20.10584

10.1110/ps.0241703

10.1002/pro.5560060917

10.1002/prot.10181

10.1002/prot.20158

10.1002/prot.20002

10.1093/bioinformatics/bth136