Statistical Applications in Genetics and Molecular Biology
Công bố khoa học tiêu biểu
* Dữ liệu chỉ mang tính chất tham khảo
High-throughput sequencing techniques are increasingly affordable and produce massive amounts of data. Together with other high-throughput technologies, such as microarrays, there are an enormous amount of resources in databases. The collection of these valuable data has been routine for more than a decade. Despite different technologies, many experiments share the same goal. For instance, the aims of RNA-seq studies often coincide with those of differential gene expression experiments based on microarrays. As such, it would be logical to utilize all available data. However, there is a lack of biostatistical tools for the integration of results obtained from different technologies. Although diverse technological platforms produce different raw data, one commonality for experiments with the same goal is that all the outcomes can be transformed into a platform-independent data format – rankings – for the same set of items. Here we present the
Vấn đề xác định các gen được biểu hiện khác biệt trong các thí nghiệm vi mạch được thiết kế đã được xem xét. Lonnstedt và Speed (2002) đã đưa ra một biểu thức cho tỷ lệ hậu nghiệm của sự biểu hiện khác biệt trong một thí nghiệm hai màu được lặp lại bằng cách sử dụng một mô hình tham số phân cấp đơn giản. Mục đích của bài báo này là phát triển mô hình phân cấp của Lonnstedt và Speed (2002) thành một phương pháp thực tiễn cho các thí nghiệm vi mạch tổng quát với số lượng điều trị và mẫu RNA tùy ý. Mô hình được thiết lập lại trong bối cảnh của các mô hình tuyến tính tổng quát với các hệ số và độ tương phản của mối quan tâm tùy ý. Phương pháp này áp dụng tốt cho cả các thí nghiệm vi mạch kênh đơn và hai màu. Các ước lượng nhất quán, có hình thức kín được đưa ra cho các siêu tham số trong mô hình. Các ước lượng được đề xuất có hành vi vững bền ngay cả với số lượng vi mạch nhỏ và cho phép dữ liệu không đầy đủ phát sinh từ việc lọc điểm hoặc trọng số chất lượng điểm. Thống kê tỷ lệ hậu nghiệm được cấu trúc lại theo dạng một thống kê t đã điều chỉnh, trong đó các độ lệch chuẩn dư hậu nghiệm được sử dụng thay cho các độ lệch chuẩn thông thường. Phương pháp Bayes thực nghiệm tương đương với giảm độ biến của các phương sai mẫu ước lượng hướng tới một ước lượng tập hợp, dẫn đến suy diễn ổn định hơn khi số lượng vi mạch nhỏ. Việc sử dụng các thống kê t đã điều chỉnh có lợi thế so với tỷ lệ hậu nghiệm trong việc làm giảm số lượng siêu tham số cần ước lượng; đặc biệt, không yêu cầu biết trước thông tin về các thay đổi gấp đôi khác không. Thống kê t đã điều chỉnh được chỉ ra là tuân theo phân phối t với bậc tự do mở rộng. Phương pháp suy diễn t đã điều chỉnh có thể mở rộng để tiếp nhận các kiểm định các giả thuyết null tổng hợp thông qua việc sử dụng các thống kê F đã điều chỉnh. Hiệu suất của các phương pháp được chứng minh qua một nghiên cứu mô phỏng. Kết quả được trình bày cho hai tập dữ liệu có sẵn công khai.
Inferring large-scale covariance matrices from sparse genomic data is an ubiquitous problem in bioinformatics. Clearly, the widely used standard covariance and correlation estimators are ill-suited for this purpose. As statistically efficient and computationally fast alternative we propose a novel shrinkage covariance estimator that exploits the Ledoit-Wolf (2003) lemma for analytic calculation of the optimal shrinkage intensity.Subsequently, we apply this improved covariance estimator (which has guaranteed minimum mean squared error, is well-conditioned, and is always positive definite even for small sample sizes) to the problem of inferring large-scale gene association networks. We show that it performs very favorably compared to competing approaches both in simulations as well as in application to real expression data.
Gene co-expression networks are increasingly used to explore the system-level functionality of genes. The network construction is conceptually straightforward: nodes represent genes and nodes are connected if the corresponding genes are significantly co-expressed across appropriately chosen tissue samples. In reality, it is tricky to define the connections between the nodes in such networks. An important question is whether it is biologically meaningful to encode gene co-expression using binary information (connected=1, unconnected=0). We describe a general framework for `soft' thresholding that assigns a connection weight to each gene pair. This leads us to define the notion of a weighted gene co-expression network. For soft thresholding we propose several adjacency functions that convert the co-expression measure to a connection weight. For determining the parameters of the adjacency function, we propose a biologically motivated criterion (referred to as the scale-free topology criterion).We generalize the following important network concepts to the case of weighted networks. First, we introduce several node connectivity measures and provide empirical evidence that they can be important for predicting the biological significance of a gene. Second, we provide theoretical and empirical evidence that the `weighted' topological overlap measure (used to define gene modules) leads to more cohesive modules than its `unweighted' counterpart. Third, we generalize the clustering coefficient to weighted networks. Unlike the unweighted clustering coefficient, the weighted clustering coefficient is not inversely related to the connectivity. We provide a model that shows how an inverse relationship between clustering coefficient and connectivity arises from hard thresholding.We apply our methods to simulated data, a cancer microarray data set, and a yeast microarray data set.
We present a new instance of Laplace's second Law of Errors and show how it can be used in the analysis of data from microarray experiments. This error distribution is shown to fit microarray expression data much better than a normal distribution. The use of this distribution in a parametric bootstrap leads to more powerful tests as we show that the t-test is conservative in this setting. We propose a biological explanations for this distribution based on the Pareto distribution of the variables used to compute the log ratios.
Recent studies have found that the microbiome in both gut and mouth are associated with diseases of the gut, including cancer. If resident microbes could be found to exhibit consistent patterns between the mouth and gut, disease status could potentially be assessed non-invasively through profiling of oral samples. Currently, there exists no generally applicable method to test for such associations. Here we present a Bayesian framework to identify microbes that exhibit consistent patterns between body sites, with respect to a phenotypic variable. For a given operational taxonomic unit (OTU), a Bayesian regression model is used to obtain Markov-Chain Monte Carlo estimates of abundance among strata, calculate a correlation statistic, and conduct a formal test based on its posterior distribution. Extensive simulation studies demonstrate overall viability of the approach, and provide information on what factors affect its performance. Applying our method to a dataset containing oral and gut microbiome samples from 77 pancreatic cancer patients revealed several OTUs exhibiting consistent patterns between gut and mouth with respect to disease subtype. Our method is well powered for modest sample sizes and moderate strength of association and can be flexibly extended to other research settings using any currently established Bayesian analysis programs.
- 1
- 2