
Springer Science and Business Media LLC
SCIE-ISI SCOPUS (2000-2023)
1471-2164
Cơ quản chủ quản: BioMed Central Ltd. , BMC
Các bài báo tiêu biểu
Để đánh giá các phân loại nhị phân và ma trận nhầm lẫn của chúng, các nhà nghiên cứu khoa học có thể sử dụng một số tỷ lệ thống kê, tùy theo mục tiêu của cuộc thí nghiệm mà họ đang điều tra. Mặc dù đây là một vấn đề quan trọng trong học máy, nhưng chưa có sự đồng thuận rộng rãi về một chỉ số lựa chọn thống nhất nào. Độ chính xác và điểm F1 được tính toán trên các ma trận nhầm lẫn đã (và vẫn đang) là một trong những chỉ số phổ biến nhất được áp dụng trong các nhiệm vụ phân loại nhị phân. Tuy nhiên, những đo lường thống kê này có thể một cách nguy hiểm cho thấy kết quả phồng lên quá lạc quan, đặc biệt là trên các tập dữ liệu không cân bằng.
Thay vào đó, hệ số tương quan Matthews (MCC) là một tỷ lệ thống kê đáng tin cậy hơn, chỉ sản xuất điểm số cao nếu dự đoán đạt kết quả tốt trong tất cả bốn loại trong ma trận nhầm lẫn (các dương đúng, các âm sai, các âm đúng và các dương sai), theo tỷ lệ cả về kích thước của các yếu tố dương và kích thước của các yếu tố âm trong tập dữ liệu.
Trong bài viết này, chúng tôi chỉ ra cách mà MCC sản xuất một điểm số thông tin và trung thực hơn trong việc đánh giá phân loại nhị phân so với độ chính xác và điểm F1, bằng cách trước tiên giải thích các tính chất toán học, và sau đó là lợi ích của MCC trong sáu trường hợp sử dụng tổng hợp và trong một kịch bản thực tế về gen. Chúng tôi tin rằng hệ số tương quan Matthews nên được ưu tiên hơn độ chính xác và điểm F1 trong việc đánh giá các nhiệm vụ phân loại nhị phân bởi tất cả các cộng đồng khoa học.
Validation of a novel gene expression signature in independent data sets is a critical step in the development of a clinically useful test for cancer patient risk-stratification. However, validation is often unconvincing because the size of the test set is typically small. To overcome this problem we used publicly available breast cancer gene expression data sets and a novel approach to data fusion, in order to validate a new breast tumor intrinsic list.
A 105-tumor training set containing 26 sample pairs was used to derive a new breast tumor intrinsic gene list. This intrinsic list contained 1300 genes and a proliferation signature that was not present in previous breast intrinsic gene sets. We tested this list as a survival predictor on a data set of 311 tumors compiled from three independent microarray studies that were fused into a single data set using Distance Weighted Discrimination. When the new intrinsic gene set was used to hierarchically cluster this combined test set, tumors were grouped into LumA, LumB, Basal-like, HER2+/ER-, and Normal Breast-like tumor subtypes that we demonstrated in previous datasets. These subtypes were associated with significant differences in Relapse-Free and Overall Survival. Multivariate Cox analysis of the combined test set showed that the intrinsic subtype classifications added significant prognostic information that was independent of standard clinical predictors. From the combined test set, we developed an objective and unchanging classifier based upon five intrinsic subtype mean expression profiles (i.e. centroids), which is designed for single sample predictions (SSP). The SSP approach was applied to two additional independent data sets and consistently predicted survival in both systemically treated and untreated patient groups.
This study validates the "breast tumor intrinsic" subtype classification as an objective means of tumor classification that should be translated into a clinical assay for further retrospective and prospective validation. In addition, our method of combining existing data sets can be used to robustly validate the potential clinical value of any new gene expression profile.
Như là dấu ấn epigenetic ổn định và có thể truy cập nhất trong thực nghiệm, DNA methylation thu hút sự quan tâm lớn từ cộng đồng nghiên cứu. Cảnh quan của DNA methylation qua các mô, trong quá trình phát triển và trong sinh bệnh học bệnh tật vẫn chưa được đặc trưng rõ ràng. Do đó, có nhu cầu về các phương pháp nhanh chóng và tiết kiệm chi phí để đánh giá mức độ DNA methylation trên toàn bộ bộ gen. Mảng BeadChip Illumina Infinium HumanMethylation450 (450K) là một bổ sung rất hữu ích cho các phương pháp hiện có để phân tích DNA methylation nhưng thiết kế phức tạp của nó, bao gồm hai phương pháp kiểm tra khác nhau, yêu cầu phải xem xét cẩn thận. Do đó, một số chế độ điều chỉnh đã được công bố. Chúng tôi đã tận dụng các mẫu DNA methylation đã biết liên quan đến đánh dấu gen và sự bất hoạt của nhiễm sắc thể X (XCI), bên cạnh hiệu suất của các thử nghiệm genotyping SNP hiện có trên mảng, để phát triển ba chỉ số độc lập mà chúng tôi sử dụng để thử nghiệm các phương án điều chỉnh và chuẩn hóa thay thế. Những chỉ số này cũng có khả năng ứng dụng như các điểm chất lượng cho các tập dữ liệu.
Chỉ số tiêu chuẩn của DNA methylation tại bất kỳ vị trí CpG cụ thể nào là
Việc lựa chọn cẩn thận các bước tiền xử lý có thể giảm thiểu độ biến thiên và do đó cải thiện sức mạnh thống kê, đặc biệt đối với việc phát hiện các thay đổi DNA methylation tuyệt đối nhỏ có thể liên quan đến các kiểu hình bệnh phức tạp. Vì sự thuận tiện của cộng đồng nghiên cứu, chúng tôi đã tạo ra một gói phần mềm R thân thiện với người dùng có tên là wateRmelon, có thể tải xuống từ bioConductor, tương thích với các gói methylumi, minfi và IMA hiện có, cho phép những người khác sử dụng cùng các phương pháp chuẩn hóa và kiểm tra chất lượng dữ liệu trên dữ liệu 450K.