Máy Chủ RAST: Phân Tích Nhanh Sử Dụng Công Nghệ Subsystems Dịch bởi AI Tập 9 - Trang 1-15 - 2008
Ramy K Aziz, Daniela Bartels, Aaron A Best, Matthew DeJongh, Terrence Disz, Robert A Edwards, Kevin Formsma, Svetlana Gerdes, Elizabeth M Glass, Michael Kubal, Folker Meyer, Gary J Olsen, Robert Olson, Andrei L Osterman, Ross A Overbeek, Leslie K McNeil, Daniel Paarmann, Tobias Paczian, Bruce Parrello, Gordon D Pusch, Claudia Reich, Rick Stevens, Olga Vassieva, Veronika Vonstein, Andreas Wilke, Olga Zagnitko
Số lượng chuỗi gen prokaryote có sẵn đang tăng lên một cách đều đặn và nhanh hơn khả năng của chúng tôi để chú thích chính xác chúng. Chúng tôi mô tả một dịch vụ hoàn toàn tự động để chú thích gen của vi khuẩn và sinh vật cổ. Dịch vụ xác định các gen mã hóa protein, gen rRNA và tRNA, phân công chức năng cho các gen, dự đoán các hệ con nào được đại diện trong bộ gen, sử dụng thông tin này để tái tạo mạng lưới chuyển hóa và làm cho đầu ra dễ dàng tải về cho người dùng. Ngoài ra, bộ gen đã được chú thích có thể được duyệt trong một môi trường hỗ trợ phân tích so sánh với các bộ gen đã được chú thích được duy trì trong môi trường SEED. Dịch vụ này thường sẽ cung cấp bộ gen đã được chú thích trong vòng 12–24 giờ sau khi nộp, nhưng cuối cùng chất lượng của dịch vụ như vậy sẽ được đánh giá dựa trên độ chính xác, tính nhất quán và tính đầy đủ của các chú thích được sản xuất. Chúng tôi tóm tắt những nỗ lực của mình để giải quyết những vấn đề này và thảo luận về kế hoạch nâng cấp dịch vụ theo từng giai đoạn. Bằng cách cung cấp chú thích chính xác, nhanh chóng miễn phí cho cộng đồng, chúng tôi đã tạo ra một tài nguyên cộng đồng quan trọng. Dịch vụ này hiện đã được hơn 120 người dùng bên ngoài sử dụng để chú thích hơn 350 bộ gen khác nhau.
#gen prokaryote #chuỗi gen #chú thích tự động #vi khuẩn #sinh vật cổ #protein #rRNA #tRNA #mạng lưới chuyển hóa.
Lợi ích của hệ số tương quan Matthews (MCC) so với điểm F1 và độ chính xác trong đánh giá phân loại nhị phân Dịch bởi AI Tập 21 Số 1 - 2020
Davide Chicco, Giuseppe Jurman
Tóm tắtĐặt vấn đềĐể đánh giá các phân loại nhị phân và ma trận nhầm lẫn của chúng, các nhà nghiên cứu khoa học có thể sử dụng một số tỷ lệ thống kê, tùy theo mục tiêu của cuộc thí nghiệm mà họ đang điều tra. Mặc dù đây là một vấn đề quan trọng trong học máy, nhưng chưa có sự đồng thuận rộng rãi về một chỉ số lựa chọn thống nhất nào. Độ chính xác và điểm F1 được tính toán trên các ma trận nhầm lẫn đã (và vẫn đang) là một trong những chỉ số phổ biến nhất được áp dụng trong các nhiệm vụ phân loại nhị phân. Tuy nhiên, những đo lường thống kê này có thể một cách nguy hiểm cho thấy kết quả phồng lên quá lạc quan, đặc biệt là trên các tập dữ liệu không cân bằng.
Kết quảThay vào đó, hệ số tương quan Matthews (MCC) là một tỷ lệ thống kê đáng tin cậy hơn, chỉ sản xuất điểm số cao nếu dự đoán đạt kết quả tốt trong tất cả bốn loại trong ma trận nhầm lẫn (các dương đúng, các âm sai, các âm đúng và các dương sai), theo tỷ lệ cả về kích thước của các yếu tố dương và kích thước của các yếu tố âm trong tập dữ liệu.
Kết luậnTrong bài viết này, chúng tôi chỉ ra cách mà MCC sản xuất một điểm số thông tin và trung thực hơn trong việc đánh giá phân loại nhị phân so với độ chính xác và điểm F1, bằng cách trước tiên giải thích các tính chất toán học, và sau đó là lợi ích của MCC trong sáu trường hợp sử dụng tổng hợp và trong một kịch bản thực tế về gen. Chúng tôi tin rằng hệ số tương quan Matthews nên được ưu tiên hơn độ chính xác và điểm F1 trong việc đánh giá các nhiệm vụ phân loại nhị phân bởi tất cả các cộng đồng khoa học.
Một cách tiếp cận dựa trên dữ liệu để tiền xử lý dữ liệu trên mảng methylation Illumina 450K Dịch bởi AI Tập 14 Số 1 - 2013
Ruth Pidsley, Chloe Wong, Manuela Volta, Katie Lunnon, Jonathan Mill, Leonard C. Schalkwyk
Tóm tắt
Đặt vấn đề
Như là dấu ấn epigenetic ổn định và có thể truy cập nhất trong thực nghiệm, DNA methylation thu hút sự quan tâm lớn từ cộng đồng nghiên cứu. Cảnh quan của DNA methylation qua các mô, trong quá trình phát triển và trong sinh bệnh học bệnh tật vẫn chưa được đặc trưng rõ ràng. Do đó, có nhu cầu về các phương pháp nhanh chóng và tiết kiệm chi phí để đánh giá mức độ DNA methylation trên toàn bộ bộ gen. Mảng BeadChip Illumina Infinium HumanMethylation450 (450K) là một bổ sung rất hữu ích cho các phương pháp hiện có để phân tích DNA methylation nhưng thiết kế phức tạp của nó, bao gồm hai phương pháp kiểm tra khác nhau, yêu cầu phải xem xét cẩn thận. Do đó, một số chế độ điều chỉnh đã được công bố. Chúng tôi đã tận dụng các mẫu DNA methylation đã biết liên quan đến đánh dấu gen và sự bất hoạt của nhiễm sắc thể X (XCI), bên cạnh hiệu suất của các thử nghiệm genotyping SNP hiện có trên mảng, để phát triển ba chỉ số độc lập mà chúng tôi sử dụng để thử nghiệm các phương án điều chỉnh và chuẩn hóa thay thế. Những chỉ số này cũng có khả năng ứng dụng như các điểm chất lượng cho các tập dữ liệu.
Kết quả
Chỉ số tiêu chuẩn của DNA methylation tại bất kỳ vị trí CpG cụ thể nào là β = M/(M + U + 100) trong đó M và U lần lượt là cường độ tín hiệu methylated và unmethylated. Các giá trị Beta (β) được tính toán từ cường độ tín hiệu thô (hành vi mặc định của GenomeStudio) hoạt động tốt, nhưng sử dụng 11 tập dữ liệu methylomic, chúng tôi chứng minh rằng các phương pháp chuẩn hóa phân vị tạo ra sự cải thiện đáng kể, ngay cả trong dữ liệu rất đồng nhất, thông qua cả ba chỉ số. Quy trình thường sử dụng để chuẩn hóa betas thì kém hơn so với việc chuẩn hóa riêng lẻ M và U, và cũng có lợi khi tương ứng chuẩn hóa các loại kiểm tra Type I và Type II. Việc thao tác phức tạp hơn với các phân vị chứng minh là không hiệu quả.
Kết luận
Việc lựa chọn cẩn thận các bước tiền xử lý có thể giảm thiểu độ biến thiên và do đó cải thiện sức mạnh thống kê, đặc biệt đối với việc phát hiện các thay đổi DNA methylation tuyệt đối nhỏ có thể liên quan đến các kiểu hình bệnh phức tạp. Vì sự thuận tiện của cộng đồng nghiên cứu, chúng tôi đã tạo ra một gói phần mềm R thân thiện với người dùng có tên là wateRmelon, có thể tải xuống từ bioConductor, tương thích với các gói methylumi, minfi và IMA hiện có, cho phép những người khác sử dụng cùng các phương pháp chuẩn hóa và kiểm tra chất lượng dữ liệu trên dữ liệu 450K.
CpGAVAS, an integrated web server for the annotation, visualization, analysis, and GenBank submission of completely sequenced chloroplast genome sequences Tập 13 Số 1 - Trang 715 - 2012
Chang Liu, Linchun Shi, Yingjie Zhu, Haimei Chen, Jianhui Zhang, Xiaohan Lin, Xiaojun Guan
Development and implementation of high-throughput SNP genotyping in barley Tập 10 Số 1 - Trang 582 - 2009
Timothy J. Close, Prasanna R. Bhat, Stefano Lonardi, Yan-Ling Wu, Nils Rostoks, Luke Ramsay, Arnis Druka, Nils Stein, Jan T. Svensson, Steve Wanamaker, Serdar Bozdag, Mikeal L. Roose, Matthew J. Moscou, Shiaoman Chao, Rajeev K. Varshney, Péter Szűcs, Kazuhiro Sato, Patrick Hayes, David E. Matthews, A. Kleinhofs, Gary J. Muehlbauer, Joseph DeYoung, David Marshall, Kavitha Madishetty, Raymond D. Fenton, Pascal Condamine, Andreas Graner, Robbie Waugh