Tạo Bản Đồ Độ Sâu Từ Thông Tin Chuyển Động Của Chuỗi Video 2D Được Mã Hóa H.264

Springer Science and Business Media LLC - Tập 2010 - Trang 1-13 - 2010
Mahsa T Pourazad1, Panos Nasiopoulos (EURASIP Member)1, Rabab K Ward1
1Electrical and Computer Engineering Department, University of British Columbia, Vancouver, Canada

Tóm tắt

Một phương pháp hiệu quả ước lượng bản đồ độ sâu của một cảnh 3D bằng cách sử dụng thông tin chuyển động của video 2D được mã hóa H.264 được trình bày. Thông tin chuyển động của các khung video được chụp qua một camera đơn có thể được sử dụng trực tiếp hoặc được điều chỉnh để xấp xỉ sự dịch chuyển (khác biệt) giữa hình ảnh bên phải và bên trái khi cảnh được chụp bằng các camera lập thể. Sau đó, độ sâu được ước lượng dựa trên mối quan hệ nghịch đảo của nó với sự khác biệt. Đặc điểm đơn giản của phương pháp này và khả năng tương thích với các mạng phát sóng trong tương lai cho phép triển khai theo thời gian thực tại đầu thu; do đó, tín hiệu 3D được xây dựng mà không làm tăng thêm gánh nặng cho mạng. Các đánh giá hiệu suất cho thấy phương pháp này vượt trội hơn các kỹ thuật H.264 hiện có lên đến 1.98 dB PSNR, cung cấp thông tin độ sâu thực tế hơn về cảnh. Hơn nữa, những so sánh chủ quan của kết quả, được thực hiện bởi người xem khi xem các chuỗi video lập thể sinh ra trên hệ thống hiển thị 3D, xác nhận sự vượt trội của phương pháp của chúng tôi.

Từ khóa

#video 2D #độ sâu 3D #mã hóa H.264 #thông tin chuyển động #hệ thống hiển thị 3D

Tài liệu tham khảo

Schreer O, Kauff P, Sikora T: 3D videocommunication: algorithms, concepts and real-time systems. In Human Centered Communication. 1st edition. John Wiley & Sons, New York, NY, USA; 2005. Zhang L, Tam WJ: Stereoscopic image generation based on depth images for 3D TV. IEEE Transactions on Broadcasting 2005,51(2):191-199. 10.1109/TBC.2005.846190 Harman P, Flack J, Fox S, Dowley M: Rapid 2D to 3D conversion. Stereoscopic Displays and Virtual Reality Systems IX, January 2002, San Jose, Calif, USA, Proceedings of SPIE 4660: 78-86. Lai S-H, Fu C-W, Chang S: A generalized depth estimation algorithm with a single image. IEEE Transactions on Pattern Analysis and Machine Intelligence 1992,14(4):405-411. 10.1109/34.126803 Tam WJ, Yee AS, Ferreira J, Tariq S, Speranza F: Stereoscopic image rendering based on depth maps created from blur and edge information. Stereoscopic Displays and Virtual Reality Systems XII, January 2005, San Jose, Calif, USA, Proceedings of SPIE 5664: 104-115. Tam WJ, Speranza F, Zhang L, Renaud R, Chan J, Vazquez C: Depth image based rendering for multiview stereoscopic displays : role of information at object boundaries. Three-Dimensional TV, Video, and Display IV, October 2005, Boston, Mass, USA, Proceedings of SPIE 6016: 75-85. Chang YL, Fang CY, Ding LF, Chen SY, Chen LG: Depth map generation for 2D-to-3D conversion by short-term motion assisted color segmentation. Proceedings of the IEEE International Conference on Multimedia and Expo, July 2007 Lin CT, Chin CL, Fan KW, Lin CY: A novel architecture for converting single 2D image into 3D effect image. Proceedings of the 9th International Workshop on Cellular Neural Networks and Their Applications, May 2005, Hsinchu, Taiwan 52-55. Cheung G, Ortega A, Sakamoto T: Fast H.264 mode selection using depth information for distributed game viewing. Proceedings of the IS&T/SPIE Visual Communications and Image Processing (VCIP '08), January 2008, San Jose, Calif, USA Okino T, Murata H, Taima K, Iinuma T, Oketani K: New television with 2D/3D image conversion technologies. Stereoscopic Displays and Virtual Reality Systems III, January 1996, San Jose, Calif, USA, Proceedings of SPIE 2653: 96-103. Kim D, Min D, Sohn K: Stereoscopic video generation method using motion analysis. Proceedings of the 3DTV Conference, May 2007 1-4. Ideses I, Yaroslavsky LP, Fishbain B: Real-time 2D to 3D video conversion. Journal of Real-Time Image Processing 2007,2(1):3-9. 10.1007/s11554-007-0038-9 Pulfrich C: Die stereoskopie im dienste der isochromen und heterochromen photometrie. Die Naturwissenschaften 1922,10(34):735-743. 10.1007/BF01566229 Burr DC, Ross J: How does binocular delay give information about depth? Vision Research 1979,19(5):523-532. 10.1016/0042-6989(79)90137-8 Pourazad MT, Nasiopoulos P, Ward RK: Converting H.264-derived motion information into depth map. Proceedings of the 15th International MultiMedia Modeling Conference (MMM '09), January 2009, Sophia-Antipolis, France 108-118. Deng Y, Manjunath BS: Unsupervised segmentation of color-texture regions in images and video. IEEE Transactions on Pattern Analysis and Machine Intelligence 2001,23(8):800-810. 10.1109/34.946985 Scharstein D: View Synthesis Using Stereo Vision, Lecture Notes in Computer Science. Springer, New York, NY, USA; 1999. Richardson IEG: H.264 and MPEG-4 Video Compression: Video Coding for Next Generation Multimedia. John Wiley & Sons, New York, NY, USA; 2003. Vetro A, Pandit P, Kimata H, Smolic A: Joint Multiview Video Model (JMVM) 5.0. ISO/IEC JTC1/SC29/WG11/N9214, Lausanne, Switzerland, July 2007 Kim J, Kim Y, Park J, Kang J, Lee B: Stereoscopic conversion of two-dimensional movie encoded in MPEG-2. Optical Information Systems IV, August 2006, San Diego, Calif, USA, Proceedings of SPIE 6311: 631105.1-631105.8. Moiron S, Faria S, Assuncao P, Silva V, Navarro A: H.264/AVC to MPEG-2 video transcoding architecture. Proceeding of the Conference on Telecommunications (ConfTele '07), May 2007 449-452. Fehn C: A 3D-TV system based on video plus depth information. Proceedings of the 37th Asilomar Conference on Signals, Systems, and Computers, November 2003, Pacific Grove, Calif, USA 2: 1529-1533. Fehn C, Schüür K, Feldmann I, Kauff P, Smolic A: Proposed experimental conditions for EE4 in MPEG 3DAV. ISO/IEC JTC1/SC29/WG11, MPEG02/M9016, Shanghai, China, October 2002 Kim D, Hur N, Lee SI: Anchor bitstreams for Call for Proposals on multi-view video coding (Microsoft sequences). ISO/IEC JTC1/SC29/WG11, MPEG2004/M12280, Pozan, July 2005 http://www.ece.ubc.ca/~pourazad/eurasip09 Methodology for the subjective assessment of the quality of television pictures ITU-R Recommendation BT.500-11 Scharstein D, Szeliski R: A taxonomy and evaluation of dense two-frame stereo correspondence algorithms. International Journal of Computer Vision 2002,47(1–3):7-42. 1. Part of this work was presented in the 15th International MultiMedia Modeling Conference.2. Image segmentation is required in such cases (see Section 3.3).