Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Mô hình nổi bật hình ảnh dựa trên dữ liệu theo dõi ánh mắt từ crowdsourcing và ứng dụng của nó trong thiết kế hình ảnh
Tóm tắt
Các mô hình nổi bật hình ảnh dựa trên các đặc trưng cấp thấp của hình ảnh gặp phải vấn đề về độ chính xác và khả năng mở rộng thấp, trong khi các mô hình nổi bật hình ảnh dựa trên mạng nơ-ron sâu có thể cải thiện hiệu suất dự đoán một cách hiệu quả, nhưng yêu cầu một lượng lớn dữ liệu huấn luyện, chẳng hạn như dữ liệu theo dõi ánh mắt, để đạt được kết quả tốt. Tuy nhiên, phương pháp theo dõi ánh mắt truyền thống bị giới hạn bởi chi phí thiết bị và thời gian cao, quy trình vận hành phức tạp, trải nghiệm người dùng kém, v.v. Do đó, bài báo này đã đề xuất một mô hình nổi bật hình ảnh dựa trên dữ liệu theo dõi ánh mắt từ crowdsourcing, được thu thập thông qua cách thức hồi tưởng ánh mắt với sự tự báo cáo từ những người làm việc trong đám đông. Tối ưu hóa tham số trên phương pháp crowdsourcing của chúng tôi đã được khám phá, và kết quả cho thấy độ chính xác của dữ liệu ánh mắt đạt 1° góc nhìn, cao hơn 3.6% so với các phương pháp crowdsourcing hiện có khác. Dựa trên điều này, chúng tôi đã thu thập một tập dữ liệu trang web của dữ liệu ánh mắt từ crowdsourcing và xây dựng một mô hình nổi bật hình ảnh dựa trên mạng nơ-ron tích chập hoàn toàn (FCN). Kết quả đánh giá cho thấy rằng sau khi được huấn luyện bằng dữ liệu ánh mắt từ crowdsourcing, mô hình đã hoạt động tốt hơn, chẳng hạn như độ chính xác dự đoán tăng 44.8%. Ngoài ra, mô hình của chúng tôi đã vượt trội hơn các mô hình nổi bật hình ảnh hiện có. Chúng tôi cũng đã áp dụng mô hình của mình để giúp các nhà thiết kế trang web đánh giá và điều chỉnh thiết kế hình ảnh của họ, và kết quả thử nghiệm cho thấy thiết kế đã chỉnh sửa nhận được đánh giá tốt hơn 8.2% so với thiết kế ban đầu.
Từ khóa
Tài liệu tham khảo
Kumar R, Talton JO, Ahmad S, Klemmer SR (2011) Bricolage: example-based retargeting for web design. In Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (CHI’11), ACM, pp 2197-2206
Itti L, Koch C (2000) A saliency-based search mechanism for overt and covert shifts of visual attention. Vis Res 40(10-12):1489–1506
Itti L, Koch C (2001) Computational modelling of visual attention. Nat Rev Neurosci 2(3):194–203
Judd T, Ehinger K, Durand F, and Torralba A (2009) Learning to predict where humans look. In: Proceedings of the 2009 IEEE 12th international conference on computer vision, ACM, pp 2106-2113
Shen C, Zhao Q (2014) Webpage saliency. In: Proceedings of the European conference on computer vision (ECCV’14), Springer, pp 33-46
Zheng Q, Jiao J, Cao Y, Lau RW (2018). Task-driven webpage saliency. In: Proceedings of the European Conference on Computer Vision (ECCV’18), Springer, pp 287-302
Huang X, Shen C, Boix X, Zhao Q (2015) SALICON: reducing the semantic gap in saliency prediction by adapting deep neural networks. In: Proceedings of the IEEE International Conference on Computer Vision (ICCV’15), IEEE, pp 262-270
Kümmerer M, Theis L, Bethge M (2014) Deep gaze i: boosting saliency prediction with feature maps trained on imagenet. In: Proceedings of the International Conference on Learning Representations (ICLR’14)
Krizhevsky A, Sutskever I, Hinton GE (2012) Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems (NIPS’12), ACM, pp 1097-1105
Simonyan K, Zisserman A (2015) Very deep convolutional networks for large-scale image recognition. In: Proceedings of the International Conference on Learning Representations (ICLR’15), pp 1150-1210
Szegedy C, Liu W, Jia Y, Sermanet P, Reed S, Anguelov D, Rabinovich A (2015) Going deeper with convolutions. In: Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR’15), IEEE, pp 1-9
Xu J, Jiang M, Wang S, Kankanhalli MS (2014) Zhao Q (2014) Predicting human gaze beyond pixels. J Vis 14(1):28–28
Judd T, Ehinger K, Durand F, Torralba A (2009) Learning to predict where humans look. In: Proceedings of the Computer Vision, 2009 IEEE 12th international conference, IEEE, pp 2106-2113
Cerf M, Harel J, Einhäuser W, Koch C(2008) Predicting human gaze using low-level saliency combined with face detection. In Advances in neural information processing systems (NIPS’08), ACM, pp 241-248
Bylinskii Z, Kim NW, O'Donovan P, Alsheikh S, Madan S, Pfister H, Hertzmann A (2017) Learning visual importance for graphic designs and data visualizations. In: Proceedings of the 30th Annual ACM Symposium on User Interface Software and Technology (UIST’17), ACM, pp 57-69
O’Donovan P, Agarwala A, Hertzmann A (2014) Learning layouts for single-pagegraphic designs. IEEE Trans Vis Comput Graph 20(8):1200–1213
Kim NW, Bylinskii Z, Borkin MA, Gajos KZ, Oliva A, Durand F, Pfister H (2017) BubbleView: an interface for crowdsourcing image importance maps and tracking visual attention. ACM Trans Comput Hum Interact ACM 24(5):1–40
Krafka K, Khosla A, Kellnhofer P, Kannan H, Bhandarkar S, Matusik W, Torralba A (2016) Eye tracking for everyone. In: Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR’16), IEEE, pp 2176-2184
Jiang M, Huang S, Duan J, Zhao Q (2015) SALICON: Saliency in context. In: Proceedings of the IEEE conference on computer vision and pattern recognition. (CVPR’15), IEEE, pp 1072-1080
Kim NW, Bylinskii Z, Borkin MA, Oliva A, Gajos KZ, Pfister H (2015) A crowdsourced alternative to eye-tracking for visualization understanding. In: Proceedings of the 33rd Annual ACM Conference Extended Abstracts on Human Factors in Computing Systems (CHI’15). ACM, pp 1349-1354
Cheng S, Sun Z, Ma X, Forlizzi JL, Hudson SE, Dey A (2015) Social eye tracking: gaze recall with online crowds. In: Proceedings of the 18th ACM Conference on Computer Supported Cooperative Work & Social Computing (CSCW’15), ACM, pp 454-463
Chen MC, Anderson JR, Sohn MH (2001) What can a mouse cursor tell us more?: correlation of eye/mouse movements on web browsing. In: Proceedings of the extended abstracts on Human factors in computing systems (CHI'01), ACM, pp 281-282
Rudoy D, Goldman DB, Shechtman E, Zelnik-Manor L (2012) Crowdsourcing gaze data collection. In: Proceedings of the Collective Intelligence conference (CI’12), pp 1-8
Zhao Y, Zhu Q (2014) Evaluation on crowdsourcing research: current status and future direction. Inf Syst Front 16(3):417–434
Li W, Wu WJ, Wang HM, Cheng XQ, Chen HJ, Zhou ZH, Ding R (2017) Crowd intelligence in AI 2.0 era. Front Inform Technol Electron Eng 18(1):15–43
Moreno A, de la Rosa JL, Szymanski BK, Barcenas JM (2009) Reward system for completing FAQs. In: Proceedings of the 12th International Conference of the Catalan Association for Artificial Intelligence (CCIA’09), ACM, pp 361-370
Horton JJ, Chilton LB (2010) The labor economics of paid crowdsourcing. In: Proceedings of the 11th ACM conference on Electronic commerce (EC’10), ACM, pp 209-218
Harris C (2011) You’re hired! an examination of crowdsourcing incentive models in human resource tasks. In: Proceedings of the Workshop on Crowdsourcing for Search and Data Mining (CSDM’11) at the Fourth ACM International Conference on Web Search and Data Mining (WSDM’11), ACM, pp15-18
Yuen MC, King I, Leung KS (2011) A survey of crowdsourcing systems. In: Proceedings of the IEEE third international conference on privacy, security, risk and trust and IEEE third international conference on social computing (PASSAT’11), IEEE, pp 766-773
Cheng SW, Cai HG, Cao B (2017) crowd sensing based eye movement data computing with crowdsourcing. Comput Integr Manuf Syst 2017(5):1103–1112
Borji A, Itti L (2015) Cat2000: A large scale fixation dataset for boosting saliency research. In: Proceedings computer vision and pattern recognition (CVPR’15)
Borkin MA, Bylinskii Z, Kim NW, Bainbridge CM, Yeh CS, Borkin D, Oliva A (2015) Beyond memorability: visualization recognition and recall. IEEE Trans Vis Comput Graph 22(1):519–528
Feit AM, Williams S, Toledo A, Paradiso A, Kulkarni H, Kane S, Morris MR (2017) Toward everyday gaze input: accuracy and precision of eye tracking and implications for design. In: Proceedings of the conference on human factors in computing systems (CHI’17), ACM, pp 1118-1130
Špakov O, Miniotas D (2007) Visualization of eye gaze data using heat maps. Elektronika Elektrotechnika 74(2):55–58
Johansen SA, Hansen JP (2006) Do we need eye trackers to tell where people look?. In: Proceedings of the Extended Abstracts on Human Factors in Computing Systems (CHI'06), ACM, pp 923-928
Borji A, Itti L (2012) State-of-the-art in visual attention modeling. IEEE Trans Pattern Anal Mach Intell 35(1):185–207
Cheng SW, Wei QJ, Zhang ZW, Qi WJ, Cai HG (2019) Gaze point perception calculation method in mobile device interactive environment. J Comput Aided Des Graph (in Chinese 31(1):3–11
Drucker H, Burges CJ, Kaufman L, Smola AJ, Vapnik V (1997) Support vector regression machines. Adv Neural Inf Proces Syst 28(7):155–161
Bylinskii Z, Judd T, Oliva A, Torralba A, Durand F (2018) What do different evaluation metrics tell us about saliency models? IEEE Trans Pattern Anal Mach Intell 41(3):740–757
Buscher G, Cutrell E, Morris MR (2009) What do you see when you’re surfing? Using eye tracking to predict salient regions of web pages. In: Proceedings of the SIGCHI conference on human factors in computing systems (CHI’09), ACM, pp 21-30
Woodruff A, Faulring A, Rosenholtz R, Morrsion J, Pirolli P (2001) Using thumbnails to search the Web. In: Proceedings of the SIGCHI conference on Human factors in computing systems (CHI’01), ACM, pp 198-205
Long J, Shelhamer E, Darrell T (2015) Fully convolutional networks for semantic segmentation. In: Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR’15), IEEE, pp 3431-3440
Pang X, Cao Y, Lau RW, Chan AB (2016) Directing user attention via visual flow on web designs. ACM Trans Graph (TOG) 35(6):1–11
Pan SJ, Yang Q (2009) A survey on transfer learning. IEEE Trans Knowl Data Eng 22(10):1345–1359
Taddy M (2019) Business data science: combining machine learning and economics to optimize, automate, and accelerate business decisions. McGraw Hill Professional
Selvaraju RR, Cogswell M, Das A, Vedantam R, Parikh D, Batra D (2017) Grad-cam: Visual explanations from deep networks via gradient-based localization. In: Proceedings of the IEEE international conference on computer vision (ICCV’17), IEEE, pp 618-626
Amirkhani D, Bastanfard A (2019) Inpainted image quality evaluation based on saliency map features. In: Proceedings of 5th Iranian Conference on Signal Processing and Intelligent Systems (ICSPIS), IEEE
Yu Z, Zhang D, Wang Z, Guo B, Roussaki I, Doolin K, Claffey E (2017) Toward context-aware mobile social networks. IEEE Commun Mag 55(10):168–175