Journal of the Royal Statistical Society. Series B: Statistical Methodology

  1467-9868

  1369-7412

  Anh Quốc

Cơ quản chủ quản:  OXFORD UNIV PRESS , Wiley-Blackwell Publishing Ltd

Lĩnh vực:
Statistics and ProbabilityStatistics, Probability and Uncertainty

Các bài báo tiêu biểu

Kiểm Soát Tỷ Lệ Phát Hiện Sai: Một Cách Tiếp Cận Thực Tiễn và Mạnh Mẽ cho Kiểm Tra Đa Giả Thuyết
Tập 57 Số 1 - Trang 289-300 - 1995
Yoav Benjamini, Yosef Hochberg
TÓM TẮT Cách tiếp cận phổ biến với vấn đề đa chiều yêu cầu kiểm soát tỷ lệ lỗi gia đình (FWER). Tuy nhiên, phương pháp này có những thiếu sót và chúng tôi chỉ ra một số điểm. Một cách tiếp cận khác cho các vấn đề kiểm định ý nghĩa đa tiêu chuẩn được trình bày. Phương pháp này yêu cầu kiểm soát tỷ lệ phần trăm dự kiến ​​của các giả thuyết bị bác bỏ sai — tỷ lệ phát hiện sai. Tỷ lệ lỗi này tương đương với FWER khi tất cả các giả thuyết đều đúng nhưng nhỏ hơn trong các trường hợp khác. Do đó, trong các vấn đề mà việc kiểm soát tỷ lệ phát hiện sai chứ không phải FWER là mong muốn, có khả năng cải thiện sức mạnh kiểm định. Một quy trình Bonferroni kiểu tuần tự đơn giản được chứng minh là kiểm soát tỷ lệ phát hiện sai cho các thống kê kiểm tra độc lập, và một nghiên cứu mô phỏng cho thấy sự cải thiện sức mạnh là đáng kể. Sử dụng quy trình mới và tính thích hợp của tiêu chí này được minh họa qua các ví dụ.
#Tỷ lệ lỗi gia đình #Tỷ lệ phát hiện sai #Kiểm tra đa giả thuyết #Quy trình Bonferroni #Sức mạnh kiểm định
Maximum Likelihood from Incomplete Data Via the <i>EM</i> Algorithm
Tập 39 Số 1 - Trang 1-22 - 1977
A. P. Dempster, Nan M. Laird, Donald B. Rubin
Summary A broadly applicable algorithm for computing maximum likelihood estimates from incomplete data is presented at various levels of generality. Theory showing the monotone behaviour of the likelihood and convergence of the algorithm is derived. Many examples are sketched, including missing value situations, applications to grouped, censored or truncated data, finite mixture models, variance component estimation, hyperparameter estimation, iteratively reweighted least squares and factor analysis.
Regression Shrinkage and Selection Via the Lasso
Tập 58 Số 1 - Trang 267-288 - 1996
Robert Tibshirani
SUMMARY We propose a new method for estimation in linear models. The ‘lasso’ minimizes the residual sum of squares subject to the sum of the absolute value of the coefficients being less than a constant. Because of the nature of this constraint it tends to produce some coefficients that are exactly 0 and hence gives interpretable models. Our simulation studies suggest that the lasso enjoys some of the favourable properties of both subset selection and ridge regression. It produces interpretable models like subset selection and exhibits the stability of ridge regression. There is also an interesting relationship with recent work in adaptive function estimation by Donoho and Johnstone. The lasso idea is quite general and can be applied in a variety of statistical models: extensions to generalized regression models and tree-based models are briefly described.
Regularization and Variable Selection Via the Elastic Net
Tập 67 Số 2 - Trang 301-320 - 2005
Hui Zou, Trevor Hastie
SummaryWe propose the elastic net, a new regularization and variable selection method. Real world data and a simulation study show that the elastic net often outperforms the lasso, while enjoying a similar sparsity of representation. In addition, the elastic net encourages a grouping effect, where strongly correlated predictors tend to be in or out of the model together. The elastic net is particularly useful when the number of predictors (p) is much bigger than the number of observations (n). By contrast, the lasso is not a very satisfactory variable selection method in the p≫n case. An algorithm called LARS-EN is proposed for computing elastic net regularization paths efficiently, much like algorithm LARS does for the lasso.
Các Biện Pháp Bayesian Cho Độ Phức Tạp và Độ Khớp Của Mô Hình
Tập 64 Số 4 - Trang 583-639 - 2002
David J. Spiegelhalter, Nicola Best, Bradley P. Carlin, Angelika van der Linde
Tóm tắtChúng tôi xem xét vấn đề so sánh các mô hình phân cấp phức tạp trong đó số lượng tham số không được xác định rõ. Sử dụng lập luận thông tin lý thuyết, chúng tôi đưa ra một thước đo pD cho số lượng tham số hiệu quả trong một mô hình như sự khác biệt giữa trung bình hậu nghiệm của độ lệch và độ lệch tại giá trị trung bình hậu nghiệm của các tham số quan trọng. Nói chung pD tương quan xấp xỉ với vết của tích giữa thông tin Fisher và hiệp phương sai hậu nghiệm, trong các mô hình chuẩn là vết của ma trận ‘hat’ chiếu các quan sát lên giá trị được khớp. Các tính chất của nó trong các họ số mũ được khảo sát. Trung bình hậu nghiệm của độ lệch được đề xuất như một biện pháp đo lường Bayesian về sự phù hợp hoặc đủ, và sự đóng góp của các quan sát riêng lẻ đến sự phù hợp và độ phức tạp có thể dẫn đến một biểu đồ chuẩn đoán của phần dư độ lệch so với đòn bẩy. Việc thêm pD vào trung bình hậu nghiệm độ lệch tạo ra tiêu chuẩn thông tin độ lệch để so sánh các mô hình, liên quan đến các tiêu chuẩn thông tin khác và có một sự biện hộ xấp xỉ quyết định lý thuyết. Quy trình được minh họa trong một số ví dụ, và các so sánh được thực hiện với các đề xuất Bayesian và cổ điển khác. Suốt cả quá trình, nhấn mạnh rằng lượng cần thiết để tính toán trong phân tích Markov chain Monte Carlo là không đáng kể.
#Mô hình phân cấp phức tạp #thông tin lý thuyết #số lượng tham số hiệu quả #độ lệch hậu nghiệm #phương sai hậu nghiệm #ma trận 'hat' #các họ số mũ #biện pháp đo lường Bayesian #biểu đồ chuẩn đoán #Markov chain Monte Carlo #tiêu chuẩn thông tin độ lệch.
Model Selection and Estimation in Regression with Grouped Variables
Tập 68 Số 1 - Trang 49-67 - 2006
Ming Yuan, Yi Lin
SummaryWe consider the problem of selecting grouped variables (factors) for accurate prediction in regression. Such a problem arises naturally in many practical situations with the multifactor analysis-of-variance problem as the most important and well-known example. Instead of selecting factors by stepwise backward elimination, we focus on the accuracy of estimation and consider extensions of the lasso, the LARS algorithm and the non-negative garrotte for factor selection. The lasso, the LARS algorithm and the non-negative garrotte are recently proposed regression methods that can be used to select individual variables. We study and propose efficient algorithms for the extensions of these methods for factor selection and show that these extensions give superior performance to the traditional stepwise backward elimination method in factor selection problems. We study the similarities and the differences between these methods. Simulations and real examples are used to illustrate the methods.
Fast Stable Restricted Maximum Likelihood and Marginal Likelihood Estimation of Semiparametric Generalized Linear Models
Tập 73 Số 1 - Trang 3-36 - 2011
Simon N. Wood
Summary Recent work by Reiss and Ogden provides a theoretical basis for sometimes preferring restricted maximum likelihood (REML) to generalized cross-validation (GCV) for smoothing parameter selection in semiparametric regression. However, existing REML or marginal likelihood (ML) based methods for semiparametric generalized linear models (GLMs) use iterative REML or ML estimation of the smoothing parameters of working linear approximations to the GLM. Such indirect schemes need not converge and fail to do so in a non-negligible proportion of practical analyses. By contrast, very reliable prediction error criteria smoothing parameter selection methods are available, based on direct optimization of GCV, or related criteria, for the GLM itself. Since such methods directly optimize properly defined functions of the smoothing parameters, they have much more reliable convergence properties. The paper develops the first such method for REML or ML estimation of smoothing parameters. A Laplace approximation is used to obtain an approximate REML or ML for any GLM, which is suitable for efficient direct optimization. This REML or ML criterion requires that Newton–Raphson iteration, rather than Fisher scoring, be used for GLM fitting, and a computationally stable approach to this is proposed. The REML or ML criterion itself is optimized by a Newton method, with the derivatives required obtained by a mixture of implicit differentiation and direct methods. The method will cope with numerical rank deficiency in the fitted model and in fact provides a slight improvement in numerical robustness on the earlier method of Wood for prediction error criteria based smoothness selection. Simulation results suggest that the new REML and ML methods offer some improvement in mean-square error performance relative to GCV or Akaike’s information criterion in most cases, without the small number of severe undersmoothing failures to which Akaike’s information criterion and GCV are prone. This is achieved at the same computational cost as GCV or Akaike’s information criterion. The new approach also eliminates the convergence failures of previous REML- or ML-based approaches for penalized GLMs and usually has lower computational cost than these alternatives. Example applications are presented in adaptive smoothing, scalar on function regression and generalized additive model selection.
A Direct Approach to False Discovery Rates
Tập 64 Số 3 - Trang 479-498 - 2002
John D. Storey
SummaryMultiple-hypothesis testing involves guarding against much more complicated errors than single-hypothesis testing. Whereas we typically control the type I error rate for a single-hypothesis test, a compound error rate is controlled for multiple-hypothesis tests. For example, controlling the false discovery rate FDR traditionally involves intricate sequential p-value rejection methods based on the observed data. Whereas a sequential p-value method fixes the error rate and estimates its corresponding rejection region, we propose the opposite approach—we fix the rejection region and then estimate its corresponding error rate. This new approach offers increased applicability, accuracy and power. We apply the methodology to both the positive false discovery rate pFDR and FDR, and provide evidence for its benefits. It is shown that pFDR is probably the quantity of interest over FDR. Also discussed is the calculation of the q-value, the pFDR analogue of the p-value, which eliminates the need to set the error rate beforehand as is traditionally done. Some simple numerical examples are presented that show that this new approach can yield an increase of over eight times in power compared with the Benjamini–Hochberg FDR method.
Estimating the Number of Clusters in a Data Set Via the Gap Statistic
Tập 63 Số 2 - Trang 411-423 - 2001
Robert Tibshirani, Guenther Walther, Trevor Hastie
Summary We propose a method (the ‘gap statistic’) for estimating the number of clusters (groups) in a set of data. The technique uses the output of any clustering algorithm (e.g. K-means or hierarchical), comparing the change in within-cluster dispersion with that expected under an appropriate reference null distribution. Some theory is developed for the proposal and a simulation study shows that the gap statistic usually outperforms other methods that have been proposed in the literature.