Statistical Applications in Genetics and Molecular Biology

  1544-6115

  2194-6302

  Đức

Cơ quản chủ quản:  Walter de Gruyter GmbH

Lĩnh vực:
Computational MathematicsMolecular BiologyGeneticsStatistics and Probability

Các bài báo tiêu biểu

Mô hình tuyến tính và phương pháp Bayes thực nghiệm để đánh giá sự biểu hiện khác biệt trong các thí nghiệm vi mạch Dịch bởi AI
Tập 3 Số 1 - Trang 1-25 - 2004
Gordon K. Smyth

Vấn đề xác định các gen được biểu hiện khác biệt trong các thí nghiệm vi mạch được thiết kế đã được xem xét. Lonnstedt và Speed (2002) đã đưa ra một biểu thức cho tỷ lệ hậu nghiệm của sự biểu hiện khác biệt trong một thí nghiệm hai màu được lặp lại bằng cách sử dụng một mô hình tham số phân cấp đơn giản. Mục đích của bài báo này là phát triển mô hình phân cấp của Lonnstedt và Speed (2002) thành một phương pháp thực tiễn cho các thí nghiệm vi mạch tổng quát với số lượng điều trị và mẫu RNA tùy ý. Mô hình được thiết lập lại trong bối cảnh của các mô hình tuyến tính tổng quát với các hệ số và độ tương phản của mối quan tâm tùy ý. Phương pháp này áp dụng tốt cho cả các thí nghiệm vi mạch kênh đơn và hai màu. Các ước lượng nhất quán, có hình thức kín được đưa ra cho các siêu tham số trong mô hình. Các ước lượng được đề xuất có hành vi vững bền ngay cả với số lượng vi mạch nhỏ và cho phép dữ liệu không đầy đủ phát sinh từ việc lọc điểm hoặc trọng số chất lượng điểm. Thống kê tỷ lệ hậu nghiệm được cấu trúc lại theo dạng một thống kê t đã điều chỉnh, trong đó các độ lệch chuẩn dư hậu nghiệm được sử dụng thay cho các độ lệch chuẩn thông thường. Phương pháp Bayes thực nghiệm tương đương với giảm độ biến của các phương sai mẫu ước lượng hướng tới một ước lượng tập hợp, dẫn đến suy diễn ổn định hơn khi số lượng vi mạch nhỏ. Việc sử dụng các thống kê t đã điều chỉnh có lợi thế so với tỷ lệ hậu nghiệm trong việc làm giảm số lượng siêu tham số cần ước lượng; đặc biệt, không yêu cầu biết trước thông tin về các thay đổi gấp đôi khác không. Thống kê t đã điều chỉnh được chỉ ra là tuân theo phân phối t với bậc tự do mở rộng. Phương pháp suy diễn t đã điều chỉnh có thể mở rộng để tiếp nhận các kiểm định các giả thuyết null tổng hợp thông qua việc sử dụng các thống kê F đã điều chỉnh. Hiệu suất của các phương pháp được chứng minh qua một nghiên cứu mô phỏng. Kết quả được trình bày cho hai tập dữ liệu có sẵn công khai.

A General Framework for Weighted Gene Co-Expression Network Analysis
Tập 4 Số 1 - 2005
Bin Zhang, Steve Horvath

Gene co-expression networks are increasingly used to explore the system-level functionality of genes. The network construction is conceptually straightforward: nodes represent genes and nodes are connected if the corresponding genes are significantly co-expressed across appropriately chosen tissue samples. In reality, it is tricky to define the connections between the nodes in such networks. An important question is whether it is biologically meaningful to encode gene co-expression using binary information (connected=1, unconnected=0). We describe a general framework for `soft' thresholding that assigns a connection weight to each gene pair. This leads us to define the notion of a weighted gene co-expression network. For soft thresholding we propose several adjacency functions that convert the co-expression measure to a connection weight. For determining the parameters of the adjacency function, we propose a biologically motivated criterion (referred to as the scale-free topology criterion).We generalize the following important network concepts to the case of weighted networks. First, we introduce several node connectivity measures and provide empirical evidence that they can be important for predicting the biological significance of a gene. Second, we provide theoretical and empirical evidence that the `weighted' topological overlap measure (used to define gene modules) leads to more cohesive modules than its `unweighted' counterpart. Third, we generalize the clustering coefficient to weighted networks. Unlike the unweighted clustering coefficient, the weighted clustering coefficient is not inversely related to the connectivity. We provide a model that shows how an inverse relationship between clustering coefficient and connectivity arises from hard thresholding.We apply our methods to simulated data, a cancer microarray data set, and a yeast microarray data set.

A Shrinkage Approach to Large-Scale Covariance Matrix Estimation and Implications for Functional Genomics
Tập 4 Số 1 - 2005
Juliane Schäfer, Korbinian Strimmer

Inferring large-scale covariance matrices from sparse genomic data is an ubiquitous problem in bioinformatics. Clearly, the widely used standard covariance and correlation estimators are ill-suited for this purpose. As statistically efficient and computationally fast alternative we propose a novel shrinkage covariance estimator that exploits the Ledoit-Wolf (2003) lemma for analytic calculation of the optimal shrinkage intensity.Subsequently, we apply this improved covariance estimator (which has guaranteed minimum mean squared error, is well-conditioned, and is always positive definite even for small sample sizes) to the problem of inferring large-scale gene association networks. We show that it performs very favorably compared to competing approaches both in simulations as well as in application to real expression data.

Extensions of Sparse Canonical Correlation Analysis with Applications to Genomic Data
Tập 8 Số 1 - Trang 1-27 - 2009
Daniela Witten, Robert Tibshirani
A Sparse PLS for Variable Selection when Integrating Omics Data
Tập 7 Số 1 - 2008
Kim‐Anh Lê Cao, Debra Rossouw, Christian P. Robert, Philippe Besse
Sparse Canonical Correlation Analysis with Application to Genomic Data Integration
Tập 8 Số 1 - Trang 1-34 - 2009
Elena Parkhomenko, David Tritchler, Joseph Beyene
Random Forests for Genetic Association Studies
Tập 10 Số 1 - 2011
Benjamin A. Goldstein, Eric C. Polley, Farren Briggs

The Random Forests (RF) algorithm has become a commonly used machine learning algorithm for genetic association studies. It is well suited for genetic applications since it is both computationally efficient and models genetic causal mechanisms well. With its growing ubiquity, there has been inconsistent and less than optimal use of RF in the literature. The purpose of this review is to breakdown the theoretical and statistical basis of RF so that practitioners are able to apply it in their work. An emphasis is placed on showing how the various components contribute to bias and variance, as well as discussing variable importance measures. Applications specific to genetic studies are highlighted. To provide context, RF is compared to other commonly used machine learning algorithms.

Sparse Partial Least Squares Classification for High Dimensional Data
Tập 9 Số 1 - 2010
Dongjun Chung, Sündüz Keleş
Quantifying the Association between Gene Expressions and DNA-Markers by Penalized Canonical Correlation Analysis
Tập 7 Số 1 - 2008
Sandra Waaijenborg, Philip C. De Witt Hamer, Aeilko H. Zwinderman
Error Distribution for Gene Expression Data
Tập 4 Số 1 - 2005
Elizabeth Purdom, Susan Holmes

We present a new instance of Laplace's second Law of Errors and show how it can be used in the analysis of data from microarray experiments. This error distribution is shown to fit microarray expression data much better than a normal distribution. The use of this distribution in a parametric bootstrap leads to more powerful tests as we show that the t-test is conservative in this setting. We propose a biological explanations for this distribution based on the Pareto distribution of the variables used to compute the log ratios.