Statistical Applications in Genetics and Molecular Biology

Công bố khoa học tiêu biểu

* Dữ liệu chỉ mang tính chất tham khảo

Sắp xếp:  
TopKLists: a comprehensive R package for statistical inference, stochastic aggregation, and visualization of multiple omics ranked lists
Statistical Applications in Genetics and Molecular Biology - Tập 14 Số 3 - 2015
Michael G. Schimek, Eva Budínská, Karl Kugler, Vendula Švendová, Jie Ding, Shili Lin
Abstract

High-throughput sequencing techniques are increasingly affordable and produce massive amounts of data. Together with other high-throughput technologies, such as microarrays, there are an enormous amount of resources in databases. The collection of these valuable data has been routine for more than a decade. Despite different technologies, many experiments share the same goal. For instance, the aims of RNA-seq studies often coincide with those of differential gene expression experiments based on microarrays. As such, it would be logical to utilize all available data. However, there is a lack of biostatistical tools for the integration of results obtained from different technologies. Although diverse technological platforms produce different raw data, one commonality for experiments with the same goal is that all the outcomes can be transformed into a platform-independent data format – rankings – for the same set of items. Here we present the

Mô hình tuyến tính và phương pháp Bayes thực nghiệm để đánh giá sự biểu hiện khác biệt trong các thí nghiệm vi mạch Dịch bởi AI
Statistical Applications in Genetics and Molecular Biology - Tập 3 Số 1 - Trang 1-25 - 2004
Gordon K. Smyth

Vấn đề xác định các gen được biểu hiện khác biệt trong các thí nghiệm vi mạch được thiết kế đã được xem xét. Lonnstedt và Speed (2002) đã đưa ra một biểu thức cho tỷ lệ hậu nghiệm của sự biểu hiện khác biệt trong một thí nghiệm hai màu được lặp lại bằng cách sử dụng một mô hình tham số phân cấp đơn giản. Mục đích của bài báo này là phát triển mô hình phân cấp của Lonnstedt và Speed (2002) thành một phương pháp thực tiễn cho các thí nghiệm vi mạch tổng quát với số lượng điều trị và mẫu RNA tùy ý. Mô hình được thiết lập lại trong bối cảnh của các mô hình tuyến tính tổng quát với các hệ số và độ tương phản của mối quan tâm tùy ý. Phương pháp này áp dụng tốt cho cả các thí nghiệm vi mạch kênh đơn và hai màu. Các ước lượng nhất quán, có hình thức kín được đưa ra cho các siêu tham số trong mô hình. Các ước lượng được đề xuất có hành vi vững bền ngay cả với số lượng vi mạch nhỏ và cho phép dữ liệu không đầy đủ phát sinh từ việc lọc điểm hoặc trọng số chất lượng điểm. Thống kê tỷ lệ hậu nghiệm được cấu trúc lại theo dạng một thống kê t đã điều chỉnh, trong đó các độ lệch chuẩn dư hậu nghiệm được sử dụng thay cho các độ lệch chuẩn thông thường. Phương pháp Bayes thực nghiệm tương đương với giảm độ biến của các phương sai mẫu ước lượng hướng tới một ước lượng tập hợp, dẫn đến suy diễn ổn định hơn khi số lượng vi mạch nhỏ. Việc sử dụng các thống kê t đã điều chỉnh có lợi thế so với tỷ lệ hậu nghiệm trong việc làm giảm số lượng siêu tham số cần ước lượng; đặc biệt, không yêu cầu biết trước thông tin về các thay đổi gấp đôi khác không. Thống kê t đã điều chỉnh được chỉ ra là tuân theo phân phối t với bậc tự do mở rộng. Phương pháp suy diễn t đã điều chỉnh có thể mở rộng để tiếp nhận các kiểm định các giả thuyết null tổng hợp thông qua việc sử dụng các thống kê F đã điều chỉnh. Hiệu suất của các phương pháp được chứng minh qua một nghiên cứu mô phỏng. Kết quả được trình bày cho hai tập dữ liệu có sẵn công khai.

A Shrinkage Approach to Large-Scale Covariance Matrix Estimation and Implications for Functional Genomics
Statistical Applications in Genetics and Molecular Biology - Tập 4 Số 1 - 2005
Juliane Schäfer, Korbinian Strimmer

Inferring large-scale covariance matrices from sparse genomic data is an ubiquitous problem in bioinformatics. Clearly, the widely used standard covariance and correlation estimators are ill-suited for this purpose. As statistically efficient and computationally fast alternative we propose a novel shrinkage covariance estimator that exploits the Ledoit-Wolf (2003) lemma for analytic calculation of the optimal shrinkage intensity.Subsequently, we apply this improved covariance estimator (which has guaranteed minimum mean squared error, is well-conditioned, and is always positive definite even for small sample sizes) to the problem of inferring large-scale gene association networks. We show that it performs very favorably compared to competing approaches both in simulations as well as in application to real expression data.

A General Framework for Weighted Gene Co-Expression Network Analysis
Statistical Applications in Genetics and Molecular Biology - Tập 4 Số 1 - 2005
Bin Zhang, Steve Horvath

Gene co-expression networks are increasingly used to explore the system-level functionality of genes. The network construction is conceptually straightforward: nodes represent genes and nodes are connected if the corresponding genes are significantly co-expressed across appropriately chosen tissue samples. In reality, it is tricky to define the connections between the nodes in such networks. An important question is whether it is biologically meaningful to encode gene co-expression using binary information (connected=1, unconnected=0). We describe a general framework for `soft' thresholding that assigns a connection weight to each gene pair. This leads us to define the notion of a weighted gene co-expression network. For soft thresholding we propose several adjacency functions that convert the co-expression measure to a connection weight. For determining the parameters of the adjacency function, we propose a biologically motivated criterion (referred to as the scale-free topology criterion).We generalize the following important network concepts to the case of weighted networks. First, we introduce several node connectivity measures and provide empirical evidence that they can be important for predicting the biological significance of a gene. Second, we provide theoretical and empirical evidence that the `weighted' topological overlap measure (used to define gene modules) leads to more cohesive modules than its `unweighted' counterpart. Third, we generalize the clustering coefficient to weighted networks. Unlike the unweighted clustering coefficient, the weighted clustering coefficient is not inversely related to the connectivity. We provide a model that shows how an inverse relationship between clustering coefficient and connectivity arises from hard thresholding.We apply our methods to simulated data, a cancer microarray data set, and a yeast microarray data set.

Sparse Canonical Correlation Analysis with Application to Genomic Data Integration
Statistical Applications in Genetics and Molecular Biology - Tập 8 Số 1 - Trang 1-34 - 2009
Elena Parkhomenko, David Tritchler, Joseph Beyene
Error Distribution for Gene Expression Data
Statistical Applications in Genetics and Molecular Biology - Tập 4 Số 1 - 2005
Elizabeth Purdom, Susan Holmes

We present a new instance of Laplace's second Law of Errors and show how it can be used in the analysis of data from microarray experiments. This error distribution is shown to fit microarray expression data much better than a normal distribution. The use of this distribution in a parametric bootstrap leads to more powerful tests as we show that the t-test is conservative in this setting. We propose a biological explanations for this distribution based on the Pareto distribution of the variables used to compute the log ratios.

A Bayesian framework for identifying consistent patterns of microbial abundance between body sites
Statistical Applications in Genetics and Molecular Biology - Tập 18 Số 6 - 2019
Richard Meier, Jeffrey Thompson, Mei Chung, Naisi Zhao, Karl T. Kelsey, Dominique S. Michaud, Devin C. Koestler
Abstract

Recent studies have found that the microbiome in both gut and mouth are associated with diseases of the gut, including cancer. If resident microbes could be found to exhibit consistent patterns between the mouth and gut, disease status could potentially be assessed non-invasively through profiling of oral samples. Currently, there exists no generally applicable method to test for such associations. Here we present a Bayesian framework to identify microbes that exhibit consistent patterns between body sites, with respect to a phenotypic variable. For a given operational taxonomic unit (OTU), a Bayesian regression model is used to obtain Markov-Chain Monte Carlo estimates of abundance among strata, calculate a correlation statistic, and conduct a formal test based on its posterior distribution. Extensive simulation studies demonstrate overall viability of the approach, and provide information on what factors affect its performance. Applying our method to a dataset containing oral and gut microbiome samples from 77 pancreatic cancer patients revealed several OTUs exhibiting consistent patterns between gut and mouth with respect to disease subtype. Our method is well powered for modest sample sizes and moderate strength of association and can be flexibly extended to other research settings using any currently established Bayesian analysis programs.

Sparse Partial Least Squares Classification for High Dimensional Data
Statistical Applications in Genetics and Molecular Biology - Tập 9 Số 1 - 2010
Dongjun Chung, Sündüz Keleş
Extensions of Sparse Canonical Correlation Analysis with Applications to Genomic Data
Statistical Applications in Genetics and Molecular Biology - Tập 8 Số 1 - Trang 1-27 - 2009
Daniela Witten, Robert Tibshirani
Quantifying the Association between Gene Expressions and DNA-Markers by Penalized Canonical Correlation Analysis
Statistical Applications in Genetics and Molecular Biology - Tập 7 Số 1 - 2008
Sandra Waaijenborg, Philip C. De Witt Hamer, Aeilko H. Zwinderman
Tổng số: 14   
  • 1
  • 2