Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Ứng dụng bộ lọc Kalman mở rộng để cải thiện độ chính xác và độ mượt của các ước lượng khớp xương Kinect
Tóm tắt
Cảm biến Kinect là một công cụ mạnh mẽ cho các ứng dụng yêu cầu thị giác máy móc và nhận diện giọng nói. Cảm biến có khả năng phát hiện và theo dõi tối đa hai cá nhân trong vùng nhìn của nó và xuất ra 20 điểm khớp xương 3D chính trên những cá nhân này với tốc độ 30 khung hình mỗi giây. Hơn nữa, cảm biến còn sở hữu một mảng micro định vị âm thanh được sử dụng để tính toán góc phương vị của bất kỳ nguồn âm thanh chính nào trong tầm hoạt động của nó. Mặc dù dữ liệu khớp xương thường có độ chính xác cao, 20 điểm theo dõi thể hiện một mức độ dao động lớn do tiếng ồn và lỗi ước tính, và khi một đối tượng di chuyển ra ngoài tầm nhìn của cảm biến trong một thời gian ngắn, không có khả năng tích hợp sẵn để tiếp tục theo dõi bằng cách suy diễn các vị trí của những điểm này. Thêm vào đó, cảm biến không tận dụng góc nguồn âm thanh khi đối tượng đang được theo dõi nói chuyện. Trong nghiên cứu này, việc theo dõi bằng cảm biến được cải thiện thông qua việc áp dụng bộ lọc Kalman mở rộng. Bộ lọc này làm mượt đi sự dao động, thêm khả năng tiếp tục theo dõi trong một khoảng thời gian ngắn khi đối tượng di chuyển ra ngoài tầm quét của cảm biến, và cải thiện độ chính xác của việc theo dõi bằng cách tích hợp thông tin chứa trong góc nguồn âm thanh từ cảm biến. Hiệu quả của bộ lọc được chứng minh bằng cách áp dụng nó vào khớp đầu của khung xương, một điểm theo dõi gần trung tâm đầu của đối tượng.
Từ khóa
#Kinect #bộ lọc Kalman mở rộng #theo dõi khớp xương #thị giác máy móc #nhận diện giọng nóiTài liệu tham khảo
http://en.wikipedia.org/wiki/Primesense. Oct 11 2012
http://users.dickinson.edu/jmac/selected-talks/kinect.pdf. Dec 27 2012
http://en.wikipedia.org/wiki/Epipolar_geometry. Dec 25 2012
Zhang C, Florencio D, Ba D, Zhang Z (2008) Maximum likelihood sound source localization and beamforming for directional microphone arrays in distributed meetings. IEEE Trans Multimed 10(3):538–548
Shotton J, Fitzgibbon A, Cook M, Sharp T, Finocchio M, Moore R, Kipman A, and Blake A (2011) Real-time human pose recognition in parts from single depth images. Proceedings of 2011 IEEE conference on computer vision and pattern recognition (CVPR), pp 1294–1304
Shotton J, Girshick R, Fitzgibbon A, Sharp T, Cook M, Finocchio M, Moore R, Pushmeet K, Criminisi A, Kipman A, Blake A (2013) Efficient human pose estimation from single depth images. IEEE Trans Pattern Anal Mach Intell 35(12):2821–2840
Breiman L (2001) Random forests. Mach Learn 45:5–32
http://www.chaoticmoon.com/case-studies/board-of-awesomeness/
Shu J (2013) Autonomous voice and motion controlled video camera system for instructional technology. Ph.D. dissertation in engineering and industrial applied mathematics, Claremont Graduate University and California State University Long Beach
Martin C, Burkert D, Choi K, Wieczorek N, McGregor P, Herrmann R, Beling P (2012) A real time ergonomic monitoring system using the Microsoft Kinect. Proceedings of the 2012 IEEE systems and information engineering design symposium, pp 50–55
Khoshellam K, Elberink SO (2012) Accuracy and resolution of kinect depth data for indoor mapping applications. Sensors 12:1437–1457
Grewal MS, Andrews AP (2008) Kalman filtering: theory and practice using Matlab, 3rd edn. Wiley-IEEE Press, New York
Shumway RH, Stoffer DS (2006) Time series analysis and its applications, with R examples. Springer, Berlin
Humphries J, Redd P, West J (2012) A fresh look at the Kalman filter. SIAM Rev 54(4):801–823
Shumway RH, Stoffer DS (1982) An approach to time series smoothing and forecasting using the EM algorithm. J Time Ser Anal 3:253–264
Stoffer DS (1982) Estimation of parameters in a linear dynamic system with missing observations. Ph.D. Dissertation. University of California, Davis