Ghi chú và truy xuất hình ảnh trong cơ thể sử dụng bản đồ tự tổ chức lai

The Visual Computer - Trang 1-20 - 2023
Parminder Kaur1,2, Avleen Malhi2,3, Husanbir Pannu1,2
1CSED, Thapar Institute of Engineering and Technology, Patiala, India
2Department of Computer Science, Durham University, Durham, UK
3Department of Computing and Informatics, Bournemouth University, Poole, UK

Tóm tắt

Truy xuất đa phương thức đã thu hút nhiều sự chú ý gần đây do hiệu quả của nó so với truy xuất đơn phương thức. Chẳng hạn, các đặc trưng hình ảnh thường không đủ để mô tả một hình ảnh trong truy xuất dựa trên nội dung; tuy nhiên, một phương thức khác, chẳng hạn như văn bản đi kèm, có thể được đưa vào để thu hẹp khoảng cách ngữ nghĩa và làm cho quá trình truy xuất trở nên hiệu quả hơn. Bài viết này đề xuất việc áp dụng hợp nhất và truy xuất đa phương thức trên các hình ảnh tiêu hóa trong cơ thể thực tế và các dấu hiệu ngôn ngữ, vì các đặc trưng hình ảnh một mình không đủ để mô tả hình ảnh và hỗ trợ các bác sĩ tiêu hóa. Do đó, một phương pháp truy xuất thông tin đa phương thức đã được đề xuất để truy xuất hình ảnh liên quan dựa trên văn bản và ngược lại, đồng thời giải quyết vấn đề khoảng cách giữa các phương thức. Kỹ thuật gồm hai giai đoạn: (1) học các đặc trưng của từng phương thức riêng biệt; và (2) hợp nhất hai mạng đã được đào tạo. Trong giai đoạn đầu tiên, hai bản đồ tự tổ chức (SOM) được đào tạo riêng biệt bằng cách sử dụng hình ảnh và văn bản, được phân cụm trong các SOM tương ứng dựa trên sự tương đồng của chúng. Trong giai đoạn thứ hai (hợp nhất), các SOM đã được đào tạo được tích hợp bằng cách sử dụng một mạng liên kết để cho phép truy xuất đa phương thức. Các kỹ thuật học nền tảng của mạng liên kết bao gồm học Hebbian và học Oja (học Hebbian cải tiến). Khung này có thể chú thích hình ảnh bằng các từ khóa và minh họa các từ khóa bằng hình ảnh, và nó cũng có thể được mở rộng để bao gồm nhiều phương thức đa dạng hơn. Các thí nghiệm phong phú đã được thực hiện trên các hình ảnh tiêu hóa thực tế thu được từ một bác sĩ tiêu hóa nổi tiếng, với các từ khóa đi kèm cho mỗi hình ảnh. Các kết quả thu được đã chứng minh hiệu quả của thuật toán và ý nghĩa của nó trong việc hỗ trợ các bác sĩ tiêu hóa trong việc ra quyết định nhanh chóng và chính xác.

Từ khóa

#truy xuất đa phương thức #hình ảnh tiêu hóa #bản đồ tự tổ chức #hợp nhất mạng #học Hebbian

Tài liệu tham khảo

Zhang, D., Islam, M.M., Lu, G.: A review on automatic image annotation techniques. Pattern Recogn. 45(1), 346–362 (2012) Dutta, A., Verma, Y., Jawahar, C.: Automatic image annotation: the quirks and what works. Multimed. Tools Appl. 77(24), 31991–32011 (2018) Kaur, P., Pannu, H.S., Malhi, A.K.: Comparative analysis on cross-modal information retrieval: a review. Comput. Sci. Rev. 39, 100336 (2021) Palazzo, S., Spampinato, C., Kavasidis, I., Giordano, D., Schmidt, J., Shah, M.: Decoding brain representations by multimodal learning of neural activity and visual features. IEEE Trans. Pattern Anal. Mach. Intell. 43(11), 3833–3849 (2020) Nicholson, A.A., Densmore, M., McKinnon, M.C., Neufeld, R.W., Frewen, P.A., Théberge, J., Jetly, R., Richardson, J.D., Lanius, R.A.: Machine learning multivariate pattern analysis predicts classification of posttraumatic stress disorder and its dissociative subtype: a multimodal neuroimaging approach. Psychol. Med. 49(12), 2049–2059 (2019) Curtindale, L.M., Bahrick, L.E., Lickliter, R., Colombo, J.: Effects of multimodal synchrony on infant attention and heart rate during events with social and nonsocial stimuli. J. Exp. Child Psychol. 178, 283–294 (2019) Bayoudh, K., Knani, R., Hamdaoui, F., Mtibaa, A.: A survey on deep multimodal learning for computer vision: advances, trends, applications, and datasets. Vis. Comput., pp. 1–32 (2021) Kaur, P., Malhi, A.K., Pannu, H.S.: Hybrid som based cross-modal retrieval exploiting hebbian learning. Knowl. Based Syst. 239, 108014 (2022) Zhuang, H., Zhang, J., Liao, F.: A systematic review on application of deep learning in digestive system image processing. Vis. Comput., pp. 1–16 (2021) Karthik, K., Kamath, S.S.: A deep neural network model for content-based medical image retrieval with multi-view classification. Vis. Comput. 37(7), 1837–1850 (2021) John, L.J.: A review of computer assisted learning in medical undergraduates. J. Pharmacol. Pharmacother. 4(2), 86–90 (2013) Gabor, A., Popescu, M., Popa-Iovanut, F., Naaji, A.: Telemedicine Technologies, pp. 1–13. Elsevier (2019) Tulsulkar, G., Mishra, N., Thalmann, N.M., Lim, H.E., Lee, M.P., Cheng, S.K.: Can a humanoid social robot stimulate the interactivity of cognitively impaired elderly? a thorough study based on computer vision methods. Vis. Comput. 37, 3019–3038 (2021) Chowdhuri, S., Pankaj, T., Zipser, K.: In: 2019 IEEE winter conference on applications of computer vision (WACV) (IEEE), pp. 1496–1504 (2019) Ahmad, K., Vrusias, B., Zhu, M.: In: Ninth international conference on information visualisation (IV’05) (IEEE), pp. 268–274 (2005) Guo, Y., Moradi, M.: Cross-modality neural network transform for semi-automatic medical image annotation. US Patent 11,195,313 (2021) Moradi, M., Guo, Y., Gur, Y., Negahdar, M., Syeda-Mahmood, T.: In: International conference on medical image computing and computer-assisted intervention, Springer, pp. 300–307 (2016) Soltani, M.M., Zhu, Z., Hammad, A.: Automated annotation for visual recognition of construction resources using synthetic images. Autom. Constr. 62, 14–23 (2016) Dutta, A., Gupta, A., Zissermann, A.: Vgg image annotator (via). http://www.robots.ox.ac.uk/vgg/software/via2 (2016) Zhou, T.H., Wang, L., Ryu, K.H.: Supporting keyword search for image retrieval with integration of probabilistic annotation. Sustainability 7(5), 6303–6320 (2015) Laaksonen, J., Koskela, M., Oja, E.: Picsom-self-organizing image retrieval with mpeg-7 content descriptors. IEEE Trans. Neural Netw. 13(4), 841–853 (2002) Viitaniemi, V., Laaksonen, J.: Keyword-detection approach to automatic image annotation (2005) Kaski, S., Honkela, T., Lagus, K., Kohonen, T.: Websom-self-organizing maps of document collections. Neurocomputing 21(1–3), 101–117 (1998) Mehmood, Z., Mahmood, T., Javid, M.A.: Content-based image retrieval and semantic automatic image annotation based on the weighted average of triangular histograms using support vector machine. Appl. Intell. 48(1), 166–181 (2018) Krishnaswamy Rangarajan, A., Purushothaman, R.: Disease classification in eggplant using pre-trained vgg16 and msvm. Sci. Rep. 10(1), 1–11 (2020) Rezende, E., Ruppert, G., Carvalho, T., Theophilo, A., Ramos, F., Geus, P.d.: Information technology-new generations, Springer, pp. 51–59 (2018) Ametefe, D.S., Sarnin, S.S., Ali, D.M., Muhammad, Z.Z.: Fingerprint pattern classification using deep transfer learning and data augmentation. Vis. Comput. 39(4), 1703–1716 (2023) Shah, B., Bhavsar, H.: Depth-restricted convolutional neural network–a model for gujarati food image classification. Vis. Comput., pp. 1–16 (2023) Sharma, V., Tripathi, A.K., Mittal, H., Parmar, A., Soni, A., Amarwal, R.: Weedgan: a novel generative adversarial network for cotton weed identification. Vis. Comput. 9, 1–7 (2022) Zang, Y., Cao, R., Li, H., Hu, W., Liu, Q.: Mapd: multi-receptive field and attention mechanism for multispectral pedestrian detection. Vis. Comput. 10, 1–3 (2023) Arulmozhi, P., Abirami, S.: Dshpoolf: deep supervised hashing based on selective pool feature map for image retrieval. Vis. Comput. 37, 2391–2405 (2021) Ma, J., Wang, T., Li, G., Zhan, Q., Wu, D., Chang, Y., Xue, Y., Zhang, Y., Zuo, J.: Concrete surface roughness measurement method based on edge detection. Vis. Comput. 29, 1–2 (2023) Paek, S., Sable, C.L., Hatzivassiloglou, V., Jaimes, A., Schiffman, B.H., Chang, S.F., McKeown, K.R.: Integration of visual and text-based approaches for the content labeling and classification of photographs, Acm Sigir, vol. 99, pp. 15–19. Citeseer (1999) Ibrahim, R.K., Zeebaree, S.R., Jacksi, K., Sadeeq, M.A., Shukur, H.M., Alkhayyat, A.: In: 2021 international conference on advanced computer applications (ACA) (IEEE), pp. 28–33 (2021) Xie, Z., Liu, L., Wu, Y., Li, L., Zhong, L.: Learning tfidf enhanced joint embedding for recipe-image cross-modal retrieval service. IEEE Trans. Serv. Comput. (2021). https://doi.org/10.1109/TSC.2021.3098834 Gupta, A., Katarya, R.: Pan-lda: a latent dirichlet allocation based novel feature extraction model for covid-19 data using machine learning. Comput. Biol. Med. 138, 104920 (2021) Yu, L., Yang, Y., Huang, Z., Wang, P., Song, J., Shen, H.T.: Web video event recognition by semantic analysis from ubiquitous documents. IEEE Trans. Image Process. 25(12), 5689–5701 (2016) Xu, X.: Artificial intelligence and computer vision, Springer, pp. 165–188 (2017) Li, W., Ma, Z., Deng, L.J., Fan, X., Tian, Y.: Neuron-based spiking transmission and reasoning network for robust image-text retrieval. IEEE Trans. Circuits Syst. Video Technol. (2022). https://doi.org/10.1109/TCSVT.2022.3233042 Wen, K., Tan, Z., Cheng, Q., Chen, C., Gu, X.: Contrastive cross-modal knowledge sharing pre-training for vision-language representation learning and retrieval. arXiv preprint arXiv:2207.00733 (2022) Cheng, Q., Tan, Z., Wen, K., Chen, C., Gu, X.: Semantic pre-alignment and ranking learning with unified framework for cross-modal retrieval. IEEE Trans. Circuits Syst. Video Technol. (2022). https://doi.org/10.1109/TCSVT.2022.3182549 Kohonen, T.: Self-organized formation of topologically correct feature maps. Biol. Cybern. 43(1), 59–69 (1982) Kohonen, T.: Essentials of the self-organizing map. Neural Netw. 37, 52–65 (2013) Pacella, M., Grieco, A., Blaco, M.: On the use of self-organizing map for text clustering in engineering change process analysis: a case study. Comput. Intell. Neurosci. (2016). https://doi.org/10.1155/2016/5139574 Li, Z., Qian, Y., Wang, H., Zhou, X., Sheng, G., Jiang, X.: Partial discharge fault diagnosis based on zernike moment and improved bacterial foraging optimization algorithm. Electric Power Syst. Res. 207, 107854 (2022) Jehangir, S., Khan, S., Khan, S., Nazir, S., Hussain, A.: Zernike moments based handwritten pashto character recognition using linear discriminant analysis. Mehran Univ. Res. J. Eng. Technol. 40(1), 152–159 (2021) Fredo, A.J., Abilash, R., Femi, R., Mythili, A., Kumar, C.S.: Classification of damages in composite images using zernike moments and support vector machines. Compos. B Eng. 168, 77–86 (2019) Yang, H., Ni, J., Gao, J., Han, Z., Luan, T.: A novel method for peanut variety identification and classification by improved vgg16. Sci. Rep. 11(1), 1–17 (2021) Kaur, P., Pannu, H.S., Malhi, A.K.: Comprehensive study of continuous orthogonal moments-a systematic review. ACM Comput. Surv. (CSUR) 52(4), 1–30 (2019) von F, Z.: Beugungstheorie des schneidenver-fahrens und seiner verbesserten form, der phasenkontrastmethode. Physica 1(712), 689–704 (1934) Aggarwal, A., Singh, C.: Zernike moments-based gurumukhi character recognition. Appl. Artif. Intell. 30(5), 429–444 (2016) Teague, M.R.: Image analysis via the general theory of moments\(\ast \). J. Opt. Soc. Am. 70(8), 920–930 (1980). https://doi.org/10.1364/JOSA.70.000920 Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556 (2014) Blei, D.M., Ng, A.Y., Jordan, M.I.: Latent dirichlet allocation. J. Mach. Learn. Res. 3, 993–1022 (2003) Zhang, W., Yoshida, T., Tang, X.: A comparative study of tf* idf, lsi and multi-words for text classification. Expert Syst. Appl. 38(3), 2758–2765 (2011) Hebb, D.O.: The organization of behavior: a neuropsychological theory. Psychology Press (2005) Oja, E.: Simplified neuron model as a principal component analyzer. J. Math. Biol. 15(3), 267–273 (1982) Wang, Y., Wu, F., Song, J., Li, X., Zhuang, Y.: In: Proceedings of the 22nd ACM international conference on multimedia, pp. 307–316 (2014) Xie, L., Zhu, L., Chen, G.: Unsupervised multi-graph cross-modal hashing for large-scale multimedia retrieval. Multimed. Tools Appl. 75(15), 9185–9204 (2016) Aggarwal, H., Vishwakarma, D.K.: Covariate conscious approach for gait recognition based upon zernike moment invariants. IEEE Trans. Cogn. Dev. Syst. 10(2), 397–407 (2017) Vlaović, ŽD., Stepanov, B.L., Anđelković, A.S., Rajs, V.M., Čepić, Z.M., Tomić, M.A.: Mapping energy sustainability using the kohonen self-organizing maps-case study. J. Clean. Prod. 412, 137351 (2023) Rankovic, N., Rankovic, D., Lukic, I., Savic, N., Jovanovic, V.: Unveiling the comorbidities of chronic diseases in serbia using ml algorithms and kohonen self-organizing maps for personalized healthcare frameworks. J. Personal. Med. 13(7), 1032 (2023) Liu, Z., Feng, S., Zhangsong, A., Han, Y., Cao, R.: Long-term evolution of groundwater hydrochemistry and its influencing factors based on self-organizing map (som). Ecol. Indic. 154, 110697 (2023) Zhou, G., Miao, F., Tang, Z., Zhou, Y., Luo, Q.: Kohonen neural network and symbiotic-organism search algorithm for intrusion detection of network viruses. Front. Comput. Neurosci. 17, 1079483 (2023) Slave, A.R., Iojă, I.C., Hossu, C.A., Grădinaru, S.R., Petrior, A.I., Hersperger, A.M.: Assessing public opinion using self-organizing maps. Lessons from urban planning in Romania. Landsc. Urban Plan. 231, 104641 (2023) Ghorbanzadeh, O., Blaschke, T., Gholamnia, K., Meena, S.R., Tiede, D., Aryal, J.: Evaluation of different machine learning methods and deep-learning convolutional neural networks for landslide detection. Remote Sens. 11(2), 196 (2019) Pannu, H.S., Ahuja, S., Dang, N., Soni, S., Malhi, A.K.: Deep learning based image classification for intestinal hemorrhage. Multimed. Tools Appl. 79, 21941–21966 (2020) Bekhouche, S., Dornaika, F., Benlamoudi, A., Ouafi, A., Taleb-Ahmed, A.: A comparative study of human facial age estimation: handcrafted features vs. deep features. Multimed. Tools Appl. 79(35), 26605–26622 (2020) Amato, G., Carrara, F., Falchi, F., Gennaro, C., Lagani, G.: In: International conference on image analysis and processing, Springer, pp. 324–334 (2019)