Nghiên cứu trường hợp về nén video thông qua phân tích tensor train và Tucker

A. A. Kurilovich1,2, S. A. Matveev3,4
1Center for Energy Science and Technology, Skolkovo Institute of Science and Technology, Moscow, Russian Federation
2Department of Materials Science and Engineering, Technion – Israel Institute of Technology, Haifa, Israel
3Faculty of Computational Mathematics and Cybernetics, Lomonosov MSU, Moscow, Russian Federation
4Marchuk Institute of Numerical Mathematics, RAS, Moscow, Russian Federation

Tóm tắt

Công trình này đại diện cho một nghiên cứu về khả năng của một phương pháp nén video có tổn thất dựa trên định dạng tensor train và tensor Tucker. Các thuật toán TTSVD và st-HOSVD được sử dụng để nén video, được biểu diễn dưới dạng mảng đa chiều. Phương pháp phát triển cho phép kiểm soát phân tích các lỗi nén bằng cách xác định PSNR mục tiêu. Do đó, nó cung cấp một quy trình đơn giản hơn so với các phương pháp truyền thống. Phân tích chi tiết về kết quả nén được thực hiện (i) sử dụng các chỉ số chất lượng đã biết PSNR và SSIM, (ii) bằng cách nghiên cứu các hiện tượng nén điển hình, và (iii) bằng cách xác định các cấu trúc hạng thấp trong video thông qua phân tích các giá trị đơn chuẩn hóa. Đối với thuật toán TTSVD, việc xử lý trước thêm dữ liệu bằng cách tensor hóa theo các chế độ của mảng gốc được kiểm tra, cho thấy sự cải thiện về chất lượng nén. Phương pháp phát triển này không cho phép vượt qua các tiêu chuẩn công nghiệp ở giai đoạn phát triển hiện tại. Tuy nhiên, nó có thể được cải thiện và có tiềm năng được đưa vào các phương pháp mới dựa trên học sâu.

Từ khóa

#nén video #tensor train #tensor Tucker #PSNR #HOSVD #học sâu

Tài liệu tham khảo

Antsiferova, A., Lavrushkin, S., Smirnov, M., Gushchin, A., Vatolin, D., Kulikov, D.: Video compression dataset and benchmark of learning-based video-quality metrics. arXiv preprint arXiv:2211.12109. (2022) Huynh-Thu, Q., Ghanbari, M.: Scope of validity of PSNR in image/video quality assessment. Electron. Lett. 44(13), 800–801 (2008) Wang, Z., Bovik, A.C., Sheikh, H.R., Simoncelli, E.: Image quality assessment: from error visibility to structural similarity. IEEE Trans. Image Process. 13(4), 600–612 (2004) Li, Z., Bampis, C., Novak, J., Aaron, A., Swanson, K., Moorthy, A., Cock, J.D.: VMAF: the journey continues. Netflix Technol. Blog 25(1) (2018) Sullivan, G.J., Topiwala, P.N., Luthra, A., The, H.: 264/AVC advanced video coding standard: Overview and introduction to the fidelity range extensions. Applications of Digital Image Processing XXVII. vol. 5558., pp. 454–474 (2004) Sullivan, G.J., Ohm, J.R., Han, W.J., Wiegand, T.: Overview of the high efficiency video coding (HEVC) standard. IEEE Trans. Circuits Syst. Video Technol. 22(12), 1649–1668 (2012) Bross, B., Wang, Y.K., Ye, Y., Liu, S., Chen, J., Sullivan, G.J., Ohm, J.R.: Overview of the versatile video coding (VVC) standard and its applications. IEEE Trans. Circuits Syst. Video Technol. 31(10), 3726–3764 (2021) Liu, H., Chen, T., Lu, M., Shen, Q., Ma, Z.: Neural video compression using spatio-temporal priors. arXiv:1902.07383. (2019) Matveev, S.A., Oseledets, I.V., Ponomarev, E.S., Chertkov, A.V.: Overview of visualization methods for artificial neural networks. Comput. Math. Math. Phys. 61(5), 887–899 (2022) Pizarroso, J., Portela, J., Muñoz, A.: NeuralSens: sensitivity analysis of neural networks. arXiv preprint arXiv:2002.11423. (2020) Sultonov, A., Matveev, S.A., Budzinskiy, S.: Low-rank nonnegative tensor approximation via alternating projections and sketching. Comput. Appl. Math. 42(2), 68 (2023) Yuan, Q., Zhang, L., Shen, H.: Hyperspectral image denoising employing a spectral–spatial adaptive total variation model. IEEE Trans. Geosci. Remote. Sens. 50(10), 3660–3677 (2012) Jia, H., Guo, S., Li, Z., Chen, X.A., Han, Z., Tang, Y.: Low-Rank Tensor Tucker Decomposition for Hyperspectral Images Super-Resolution. In: Intelligent Robotics and Applications: 15th International Conference, ICIRA 2022, Proceedings, Part II, pp. 502–512. (2022) Sidiropoulos, N.D., De Lathauwer, L., Fu, X., Huang, K., Papalexakis, E.E., Faloutsos, C.: Tensor decomposition for signal processing and machine learning. IEEE Trans. Signal Process. 65(13), 3551–3582 (2017) Usvyatsov, M., Ballester-Rippoll, R., Bashaeva, L., Gushchin, A., Schindler, K., Ferrer, G., Oseledets, I.: T4DT: Tensorizing Time for Learning Temporal 3D Visual Data. arXiv preprint arXiv:2208.01421. (2022) Kolda, T.G., Bader, B.W.: Tensor decompositions and applications. Siam Rev. Siam J. Sci. Comput. 51(3), 455–500 (2009) Tucker, L.R.: The extension of factor analysis to three-dimensional matrices. Contributions To Math. Psychol. 110119 (1964) Tucker, L.R.: Some mathematical notes on three-mode factor analysis. Psychometrika 31(3), 279–311 (1966) Oseledets, I.V.: Tensor-train decomposition. SIAM J. Sci. Comput. 33(5), 2295–2317 (2011) Oseledets, I.: Approximation of matrices with logarithmic number of parameters. Doklady Math. 80(2), 653–654 (2009) Badeau, R., Boyer, R.: Fast multilinear singular value decomposition for structured tensors. SIAM J. Matrix Anal. Appl. 30(3), 1008–1021 (2008) Oseledets, I.V., Tyrtyshnikov, E.E.: Breaking the curse of dimensionality, or how to use SVD in many dimensions. SIAM J. Sci. Comput. 31(5), 3744–3759 (2009) Ahmadi-Asl, S., Abukhovich, S., Asante-Mensah, M.G., Cichocki, A., Phan, A.H., Tanaka, T., Oseledets, I.: Randomized algorithms for computation of Tucker decomposition and higher order SVD (HOSVD). IEEE Access 9, 28684–28706 (2021) Dolgov, S.V., Savostyanov, D.: Parallel cross interpolation for high-precision calculation of high-dimensional integrals. Comput. Phys. Commun. 246, 106869 (2020) Zvezdakova, A.V., Kulikov, D.L., Zvezdakov, S.V., Vatolin, D.S.: BSQ-rate: a new approach for video-codec performance comparison and drawbacks of current solutions. Program. Comput. Softw. 46, 183–194 (2020) Zhang, C., Jeckelmann, E., White, S.R.: Density matrix approach to local Hilbert space reduction. Phys. Rev. Lett. 80(12), 2661 (1998) Ahmadi-Asl, S., Asante-Mensah, M.G., Cichocki, A., Phan, A.H., Oseledets, I., Wang, J.: Fast cross tensor approximation for image and video completion. Signal Process. 109121 (2023)