Phát hiện giọng nói tổng hợp qua dấu vết dự đoán ngắn hạn và dài hạn

Clara Borrelli1, Paolo Bestagini1, Fabio Antonacci1, Augusto Sarti1, Stefano Tubaro1
1Dipartimento di Elettronica, Informazione e Biongegneria - Politecnico di Milano, Milano, Italy

Tóm tắt

Nhiều phương pháp tạo ra giọng nói tổng hợp đã được phát triển trong tài liệu qua nhiều năm. Với những tiến bộ công nghệ lớn do học sâu mang lại, nhiều kỹ thuật giọng nói tổng hợp mới đạt được kết quả thực tế đáng kinh ngạc gần đây đã được đề xuất. Khi những phương pháp này tạo ra giọng nói giả mạo con người thuyết phục, chúng có thể được sử dụng theo cách độc hại để ảnh hưởng tiêu cực đến xã hội hiện nay (ví dụ: giả mạo người khác, phát tán tin giả, hình thành ý kiến). Vì lý do này, khả năng phát hiện xem một bản ghi âm giọng nói là tổng hợp hay nguyên bản đang trở thành một nhu cầu cấp thiết. Trong công trình này, chúng tôi phát triển một bộ phát hiện giọng nói tổng hợp. Bộ phát hiện này nhận đầu vào là một bản ghi âm, trích xuất một loạt các đặc trưng được thiết kế thủ công dựa trên tài liệu xử lý giọng nói, và phân loại chúng vào một trong hai tập kín hoặc tạp mở. Bộ phát hiện được đề xuất được xác thực trên một tập dữ liệu công khai bao gồm 17 thuật toán tạo ra giọng nói tổng hợp, từ các bộ mã hóa cổ điển đến các giải pháp học sâu hiện đại. Kết quả cho thấy phương pháp được đề xuất vượt trội hơn các bộ phát hiện gần đây được đề xuất trong tài liệu pháp y.

Từ khóa

#giọng nói tổng hợp #phát hiện giọng nói #học sâu #xử lý giọng nói #giả mạo #tin giả

Tài liệu tham khảo

B. Dolhansky, J. Bitton, B. Pflaum, R. Lu, R. Howes, M. Wang, C. C. Ferrer, The deepfake detection challenge dataset. CoRR http://arxiv.org/abs/2006.07397(2020). L. Verdoliva, Media forensics and deepfakes: an overview. CoRR http://arxiv.org/abs/2001.06564(2020). Deepfakes github. https://github.com/deepfakes/faceswap. Y. Li, M. Chang, S. Lyu, in IEEE International Workshop on Information Forensics and Security (WIFS). In ictu oculi: exposing AI created fake videos by detecting eye blinking (IEEEHong Kong, 2018). D. Güera, E. J. Delp, in IEEE International Conference on Advanced Video and Signal-Based Surveillance (AVSS). Deepfake video detection using recurrent neural networks (IEEEAuckland, 2018). F. Matern, C. Riess, M. Stamminger, in IEEE Winter Applications of Computer Vision Workshops (WACVW). Exploiting visual artifacts to expose deepfakes and face manipulations (IEEEWaikoloa, 2019). N. Bonettini, E. D. Cannas, S. Mandelli, L. Bondi, P. Bestagini, S. Tubaro, in International Conference on Pattern Recognition (ICPR). Video face manipulation detection through ensemble of CNNs (SpringerMilan, 2020). A. Lieto, D. Moro, F. Devoti, C. Parera, V. Lipari, P. Bestagini, S. Tubaro, in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Hello? Who am i talking to? A shallow CNN approach for human vs. bot speech classification (IEEEBrighton, 2019), pp. 2577–2581. E. A. AlBadawy, S. Lyu, H. Farid, in IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Detecting AI-synthesized speech using bispectral analysis (Computer Vision Foundation/IEEELong Beach, 2019), pp. 104–109. M. Schröder, M. Charfuelan, S. Pammi, I. Steiner, in Conference of the International Speech Communication Association (INTERSPEECH). Open source voice creation toolkit for the MARY TTS platform (ISCAFlorence, 2011). M. Morise, F. Yokomori, K. Ozawa, WORLD: a vocoder-based high-quality speech synthesis system for real-time applications. IEICE Trans. Inf. Syst.99:, 1877–1884 (2016). A. V. Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, K. Kavukcuoglu, Wavenet: a generative model for raw audio. CoRR http://arxiv.org/abs/1609.03499(2016). M. Sahidullah, T. Kinnunen, C. Hanilçi, in Conference of the International Speech Communication Association (INTERSPEECH). A comparison of features for synthetic speech detection (ISCADresden, 2015). C. Zhang, C. Yu, J. H. Hansen, An investigation of deep-learning frameworks for speaker verification antispoofing. IEEE J. Sel. Top. Sig. Process. 11:, 684–694 (2017). A. Janicki, in Sixteenth Annual Conference of the International Speech Communication Association. Spoofing countermeasure based on analysis of linear prediction error (ISCADresden, 2015). M. Todisco, X. Wang, M. Sahidullah, H. Delgado, A. Nautsch, J. Yamagishi, N. Evans, T. Kinnunen, K. A. Lee, in Conference of the International Speech Communication Association (INTERSPEECH). ASVspoof 2019: future horizons in spoofed and fake audio detection (ISCAGraz, 2019). X. Wang, J. Yamagishi, M. Todisco, H. Delgado, A. Nautsch, N. Evans, M. Sahidullah, V. Vestman, T. Kinnunen, K. A. Lee, L. Juvela, P. Alku, Y. -H. Peng, H. -T. Hwang, Y. Tsao, H. -M. Wang, S. L. Maguer, M. Becker, F. Henderson, R. Clark, Y. Zhang, Q. Wang, Y. Jia, K. Onuma, K. Mushika, T. Kaneda, Y. Jiang, L. -J. Liu, Y. -C. Wu, W. -C. Huang, T. Toda, K. Tanaka, H. Kameoka, I. Steiner, D. Matrouf, J. -F. Bonastre, A. Govender, S. Ronanki, J. -X. Zhang, Z. -H. Ling, ASVspoof 2019: a large-scale public database of synthesized, converted and replayed speech. Comput. Speech Lang.64:, 101–114 (2020). E. Moulines, F. Charpentier, Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones. Speech Comm.9:, 453–467 (1990). A. J. Hunt, A. W. Black, in 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings. Unit selection in a concatenative speech synthesis system using a large speech database (IEEEAtlanta, 1996). A. Black, N. Campbell, in EUROSPEECH. Optimising selection of units from speech databases for concatenative synthesis (ISCAMadrid, 1995). S. P. Panda, A. K. Nayak, A waveform concatenation technique for text-to-speech synthesis. Int. J. Speech Technol.20:, 959–976 (2017). T. Masuko, K. Tokuda, T. Kobayashi, S. Imai, in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Speech synthesis using HMMs with dynamic features (IEEEAtlanta, 1996). K. Tokuda, H. Zen, A. W. Black, in IEEE Speech Synthesis Workshop. An HMM-based speech synthesis system applied to English (IEEESanta Monica, 2002). M. K. Reddy, K. S. Rao, Robust pitch extraction method for the HMM-based speech synthesis system. IEEE Sig. Process. Lett.24:, 1133–1137 (2017). H. Dudley, Remaking speech. J. Acoust. Soc. Am.11:, 169–177 (1939). H. Kawahara, I. Masuda-Katsuse, A. De Cheveigne, Restructuring speech representations using a pitch-adaptive time–frequency smoothing and an instantaneous-frequency-based f0 extraction: possible role of a repetitive structure in sounds. Speech Comm.27:, 187–207 (1999). Y. Agiomyrgiannakis, in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Vocaine the vocoder and applications in speech synthesis (IEEEBrisbane, 2015). J. Shen, R. Pang, R. J. Weiss, M. Schuster, N. Jaitly, Z. Yang, Z. Chen, Y. Zhang, Y. Wang, R. Skerrv-Ryan, R. A. Saurous, Y. Agiomvrgiannakis, Y. Wu, in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Natural TTS synthesis by conditioning wavenet on mel spectrogram predictions (IEEECalgary, 2018). N. Kalchbrenner, E. Elsen, K. Simonyan, S. Noury, N. Casagrande, E. Lockhart, F. Stimberg, A. van den Oord, S. Dieleman, K. Kavukcuoglu, Efficient neural audio synthesis. CoRR http://arxiv.org/abs/1802.08435(2018). M. R. Kamble, H. B. Sailor, H. A. Patil, H. Li, Advances in anti-spoofing: from the perspective of ASVspoof challenges. APSIPA Trans. Sig. Inf. Process.9:, 18 (2020). https://www.cambridge.org/core/journals/apsipa-transactions-on-signal-and-information-processing/article/advances-in-antispoofing-from-the-perspective-of-asvspoof-challenges/6B5BB5B75A49022EB869C7117D5E4A9C. M. Todisco, H. Delgado, N. Evans, Constant Q cepstral coefficients: a spoofing countermeasure for automatic speaker verification. Comput. Speech Lang.45:, 516–535 (2017). X. Xiao, X. Tian, S. Du, H. Xu, E. S. Chng, H. Li, in Sixteenth Annual Conference of the International Speech Communication Association. Spoofing speech detection using high dimensional magnitude and phase features: the NTU approach for ASVspoof 2015 challenge (ISCADresden, 2015). H. Dinkel, N. Chen, Y. Qian, K. Yu, in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). End-to-end spoofing detection with raw waveform CLDNNS (IEEENew Orleans, 2017). G. Fant, The source filter concept in voice production. Speech Transm. Lab. Q. Prog. Status Rep.1:, 21–37 (1981). Linear prediction in narrowband and wideband coding (John Wiley & Sons, LtdHoboken, 2005), pp. 91–112. Chap. 4. J. Franke, A Levinson-Durbin recursion for autoregressive-moving average processes. Biometrika. 72:, 573–581 (1985). VCTK corpus. doi:10.7488/ds/1994. Accessed 23 Mar 2021. X. Wang, J. Lorenzo-Trueba, S. Takaki, L. Juvela, J. Yamagishi, in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). A comparison of recent waveform generation and acoustic modeling methods for neural-network-based speech synthesis (IEEECalgary, 2018). Z. Wu, O. Watts, S. King, in Speech Synthesis Workshop (SSW). Merlin: an open source neural network speech synthesis system (SunnyvaleISCA, 2016). C. Hsu, H. Hwang, Y. Wu, Y. Tsao, H. Wang, in Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA). Voice conversion from non-parallel corpora using variational auto-encoder (IEEEJeju, 2016). D. Matrouf, J. Bonastre, C. Fredouille, in IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP). Effect of speech transformation on impostor acceptance (IEEEToulouse, 2006). K. Tanaka, H. Kameoka, T. Kaneko, N. Hojo, WaveCycleGAN2: time-domain neural post-filter for speech waveform generation. CoRR http://arxiv.org/abs/1904.02892(2019). X. Wang, S. Takaki, J. Yamagishi, in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Neural source-filter-based waveform model for statistical parametric speech synthesis (IEEEBrighton, 2019). H. Zen, Y. Agiomyrgiannakis, N. Egberts, F. Henderson, P. Szczepaniak, in Conference of the International Speech Communication Association (INTERSPEECH). Fast, compact, and high quality LSTM-RNN based statistical parametric speech synthesizers for mobile devices (ISCASan Francisco, 2016). Y. Jia, Y. Zhang, R. Weiss, Q. Wang, J. Shen, F. Ren, z. Chen, P. Nguyen, R. Pang, I. Lopez Moreno, Y. Wu, in Advances in Neural Information Processing Systems (NIPS). Transfer learning from speaker verification to multispeaker text-to-speech synthesis (Curran Associates, Inc.Montreal, 2018). D. Griffin, J. Lim, Signal estimation from modified short-time Fourier transform. IEEE Trans. Acoust. Speech Sig. Process. (TASLP). 32:, 236–243 (1984). K. Kobayashi, T. Toda, S. Nakamura, Intra-gender statistical singing voice conversion with direct waveform modification using log-spectral differential. Speech Commun.99:, 211–220 (2018). T. Kinnunen, J. Lorenzo-Trueba, J. Yamagishi, T. Toda, D. Saito, F. Villavicencio, Z. Ling, in The Speaker and Language Recognition Workshop. A spoofing benchmark for the 2018 voice conversion challenge: leveraging from spoofing countermeasures for speech artifact assessment (ISCALes Sables d’Olonne, 2018). F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, M. Blondel, P. Prettenhofer, R. Weiss, V. Dubourg, J. Vanderplas, A. Passos, D. Cournapeau, M. Brucher, M. Perrot, E. Duchesnay, Scikit-learn: machine learning in Python. J. Mach. Learn. Res. (JMLR). 12:, 2825–2830 (2011).