Tốc độ hội tụ của ước lượng rủi ro về phân bố chuẩn trong bài toán kiểm định giả thuyết nhiều thông số sử dụng ngưỡng FDR

S. I. Palionnaya1,2
1Faculty of Computational Mathematics and Cybernetics, Moscow State University, Moscow, Russia
2Moscow Center for Fundamental and Applied Mathematics, Moscow, Russia

Tóm tắt

Các vấn đề về kiểm định nhiều giả thuyết đối với độ quan trọng của các quan sát đóng một vai trò quan trọng trong thống kê ứng dụng và được sử dụng trong nhiều lĩnh vực như di truyền học, sinh học, thiên văn học và đồ họa máy tính. Những vấn đề này xuất hiện đặc biệt khi xử lý dữ liệu đa chiều nhằm xác định các đặc điểm quan trọng và loại bỏ các đặc điểm không quan trọng (nhiễu). Các nghiên cứu hiện đại liên quan đến chủ đề này phân loại các phương thức lọc khác nhau dựa trên biểu diễn thưa thớt của dữ liệu thực nghiệm. Một phương pháp phổ biến để xây dựng các ước lượng thống kê về các mô hình trong dữ liệu thực nghiệm bao gồm việc kiểm định nhiều giả thuyết về độ quan trọng của các quan sát. Trong công trình này, chúng tôi xem xét thuật toán Benjamini–Hochberg cho việc kiểm định giả thuyết nhiều khi lựa chọn ngưỡng FDR cho dữ liệu thưa thớt. Một định lý được chứng minh bằng cách ước lượng tốc độ hội tụ của ước lượng rủi ro về phân bố chuẩn.

Từ khóa

#kiểm định giả thuyết #ước lượng rủi ro #phân bố chuẩn #ngưỡng FDR #dữ liệu thưa thớt

Tài liệu tham khảo

Y. Benjamini and Y. Hochberg, ‘‘Controlling the false discovery rate: A practical and powerful approach to multiple testing,’’ J. R. Stat. Soc. Ser. B 57 (1), 289–300 (1995). J. D. Storey, ‘‘A direct approach to false discovery rates,’’ J. R. Stat. Soc. Ser. B 64 (3), 479–498 (2002). F. Abramovich, Y. Benjamini, D. L. Donoho, and I. M. Johnstone, ‘‘Adapting to unknown sparsity by controlling the false discovery rate,’’ Ann. Stat. 34 (2), 584–653 (2006). D. Donoho and J. Jin, ‘‘Asymptotic minimaxity of false discovery rate thresholding for sparse exponential data,’’ Ann. Stat. 34 (6), 2980–3018 (2006). P. Neuvial and E. Roquain, ‘‘On false discovery rate thresholding for classification under sparsity,’’ Ann. Stat. 40 (5), 2572–2600 (2012). S. Mallat, A Wavelet Tour of Signal Processing, 2nd ed. (Academic Press, New York, 1999). A. Yu. Zaspa and O. V. Shestakov, ‘‘Consistency of the risk estimate of the multiple hypothesis testing with the FDR threshold,’’ Vestn. Tver. Gos. Univ. Ser. Prikl. Mat., No. 1, 5–16 (2017). S. I. Palionnaia, ‘‘Strong consistency of the risk estimator in multiple hypothesis testing with the FDR threshold,’’ Moscow Univ. Comput. Math. Cybern. 44 (4), 190–195 (2020). S. I. Palionnaya and O. V. Shestakov, ‘‘Asymptotic properties of MSE estimate for the false discovery rate controlling procedures in multiple hypothesis testing,’’ Mathematics 8 (11), 1913 (2020). J. Sunklodas, ‘‘Approximation of distributions of sums of weakly dependent random variables by the normal distribution,’’ Itogi Nauki Tekh. Ser.: Sovrem. Probl. Mat. Fund. Napr. 81, 140–199 (1991).