Đánh giá toàn diện về căn chỉnh cấu trúc tự động so với tiêu chuẩn thủ công, phân loại protein scop
Tóm tắt
Chúng tôi áp dụng một phương pháp đơn giản để căn chỉnh các trình tự protein dựa trên cấu trúc 3D, quy mô lớn, cho các protein trong phân loại scop của các gia đình gập. Điều này cho phép chúng tôi đánh giá, hiểu và cải thiện phương pháp tự động của mình so với một tiêu chuẩn thủ công được xây dựng một cách khách quan, một loại đánh giá toàn diện mà chưa có thể thực hiện cho các thuật toán căn chỉnh cấu trúc khác. Cách tiếp cận cơ bản của chúng tôi trực tiếp ghép nối khung xương của hai cấu trúc, sử dụng các chu trình lặp đi lặp lại của lập trình động và điều chỉnh bình phương nhỏ nhất để xác định một sự căn chỉnh giảm thiểu sự khác biệt tọa độ. Nhờ vào sự đơn giản, phương pháp của chúng tôi có thể dễ dàng điều chỉnh để xem xét các đặc điểm bổ sung của cấu trúc protein như định hướng của chuỗi bên hoặc chi phí mở một khoảng trống phụ thuộc vào vị trí. Phương pháp cơ bản của chúng tôi, được mở rộng bởi những điều chỉnh như vậy, có thể tìm thấy các sự căn chỉnh hợp lý cho tất cả ngoài 1,5% các tương đồng cấu trúc đã biết trong scop, tức là tất cả ngoài 32 trong số 2,107 cặp siêu gia đình. Chúng tôi thảo luận về các đặc điểm cấu trúc protein cụ thể làm cho 32 cặp này rất khó căn chỉnh và cho thấy cách quy trình của chúng tôi phân chia hiệu quả các mối quan hệ trong scop thành những loại khác nhau, tùy thuộc vào các khía cạnh của cấu trúc protein có liên quan (ví dụ, phụ thuộc vào việc liệu có cần cân nhắc đến định hướng chuỗi bên hay không để căn chỉnh chính xác). Chúng tôi cũng cho thấy cách quy trình căn chỉnh cặp của chúng tôi có thể được mở rộng để tạo ra một căn chỉnh đa chiều cho một nhóm các cấu trúc liên quan. Chúng tôi đã so sánh các căn chỉnh này một cách chi tiết với các căn chỉnh thủ công tương ứng lấy từ tài liệu. Chúng tôi thấy sự đồng thuận tốt (trong vòng 95% cho các vùng lõi), và so sánh chi tiết nổi bật cách những đặc điểm cấu trúc protein cụ thể (như một số sợi nhất định) gây khó khăn cho việc căn chỉnh, dẫn đến kết quả có phần không rõ ràng. Với những cải tiến và kiểm tra có hệ thống này, quy trình của chúng tôi sẽ hữu ích cho sự phát triển của scop và phân loại tương lai của các kiểu gập protein. Tài liệu bổ sung có sẵn tại http://bioinfo.mbb.yale.edu/align.
Từ khóa
Tài liệu tham khảo
BrennerS ChothiaC HubbardT.1997. Assessing sequence comparison methods.Proc Natl Acad Sci USA. Forthcoming.
CohenGH.1997. ALIGN: A program to superimpose protein coordinates accounting for insertions and deletions.J Appl Crystallogr. Forthcoming.
Doolittle RF, 1987, Of Urfs and Orfs
Gerstein M, 1995, A structurally invariant core for the globins, CABIOS, 11, 633
Gerstein M, 1996, Proc Fourth Int Conf on Intell Sys Mol Biol, 59
GersteinM LevittM.1997. A structural census of the current population of protein sequences.Proc Natl Acad Sci USA. Forthcoming.
Godzik A, 1994, Flexible algorithm for direct multiple alignment of protein structures and sequences, CABIOS, 10, 587
Gribskov M, 1992, Sequence analysis primer
Holm L, 1994, The FSSP database of structurally aligned protein fold families, Nucleic Acid Res, 22, 3600
LevittM GersteinM.1998. A unified statistical framework for sequence comparison and structure comparison.Proc Natl Acad Sci USA. In press.
Overington JP, 1993, Molecular recognition in protein families: A database of aligned three‐dimensional structures of related proteins, Biochem Soc Transact, 3, 597, 10.1042/bst0210597
Rossmann MG, 1975, A comparison of the heme binding pocket in globins and cytochrome b5, J Biol Chem, 250, 7525, 10.1016/S0021-9258(19)40974-5