Tìm kiếm nội dung bất hợp pháp trên Web: cấu trúc của một công cụ tìm kiếm ngữ nghĩa

Soft Computing - Tập 21 - Trang 1245-1252 - 2015
Luigi Laura1,2, Gianluigi Me3
1Department of Computer, Control, and Management Engineering “Antonio Ruberti”, Sapienza University of Rome, Rome, Italy
2Research Centre for Transport and Logistics (CTL), “Sapienza” Università di Roma, Rome, Italy
3CeRSI-Research Center in Information Systems, LUISS Guido Carli University, Rome, Italy

Tóm tắt

Trong bài báo này, chúng tôi mô tả những thách thức trong việc xây dựng một công cụ tìm kiếm ngữ nghĩa, nhằm hỗ trợ các cơ quan thực thi pháp luật trong cuộc chiến chống lại các thị trường ma túy trực tuyến, nơi mà các chất kích thích mới được bán. Công cụ tìm kiếm này đã được phát triển trong khuôn khổ Dự án Semantic Illegal Content Hunter (SICH), với sự hỗ trợ tài chính từ Chương trình Phòng ngừa và Đấu tranh chống Tội phạm ISEC 2012 của Ủy ban Châu Âu. Mục tiêu cụ thể của Dự án SICH là phát triển các công cụ chiến lược và kỹ thuật đánh giá mới, dựa trên phân tích ngữ nghĩa đối với các văn bản, nhằm hỗ trợ việc lập bản đồ động và nhận dạng tự động nội dung bất hợp pháp trên Internet. Cụ thể, một công cụ tìm kiếm Web có thể được chia thành ba thành phần chính: (a) chương trình thu thập dữ liệu (crawler) có nhiệm vụ thu thập các trang Web để được lập chỉ mục, (b) trình lập chỉ mục (indexer) phân tích và lưu trữ dữ liệu đã thu thập và (c) bộ xử lý truy vấn (query processor) tương tác với người dùng bằng cách phân tích một truy vấn và trả về tài liệu liên quan; trong bài báo này, chúng tôi chi tiết từng thành phần của công cụ tìm kiếm SICH, nêu bật những khác biệt so với một công cụ tìm kiếm Web truyền thống.

Từ khóa

#công cụ tìm kiếm ngữ nghĩa #nội dung bất hợp pháp #thị trường ma túy trực tuyến #phân tích ngữ nghĩa #tư vấn chiến lược

Tài liệu tham khảo

Arapakis I (2015) System and user aspects of web search latency. http://www.slideshare.net/iarapakis/upf15 Baeza-Yates R, Ribeiro-Neto B (1999) Modern information retrieval, vol 463. ACM Press, New York Bitcoin (2011) Bitcoin P2P digital currency Brandes U, Gaertler M, Wagner D (2003) Experiments on graph clustering algorithms. Springer, New York Brin S, Page L (1998) The anatomy of a large-scale hypertextual web search engine. Comput Netw ISDN Syst 30(1):107–117 Camastra F, Ciaramella A, Staiano A (2013) Machine learning and soft computing for ICT security: an overview of current trends. J Ambient Intell Humaniz Comput 4(2):235–247 Cho J, Garcia-Molina H (2002) Parallel crawlers. In: Proceedings of the 11th international conference on World Wide Web. ACM, pp 124–135 Corazza O, Assi S, Simonato P, Corkery J, Bersani FS, Demetrovics Z, Stair J, Fergus S, Pezzolesi C, Pasinetti M, Deluca P, Drummond C, Davey Z, Blaszko U, Moskalewicz J, Mervo B, Furia LD, Farre M, Flesland L, Pisarska A, Shapiro H, Siemann H, Skutle A, Sferrazza E, Torrens M, Sambola F, van der Kreeft P, Scherbaum N, Schifano F (2013) Promoting innovation and excellence to face the rapid diffusion of novel psychoactive substances in the EU: the outcomes of the rednet project. Hum Psychopharmacol Clin Exp 28(4):317–323 Corazza O, Valeriani G, Bersani FS, Corkery J, Martinotti G, Bersani G, Schifano F (2014) “Spice”, “Kryptonite”, “Black Mamba”: an overview of brand names and marketing strategies of novel psychoactive substances on the Web. J Psychoact Drugs 46(4):287–294 Deluca P, Davey Z, Corazza O, Furia LD, Farre M, Flesland LH, Mannonen M, Majava A, Peltoniemi T, Pasinetti M, Pezzolesi C, Scherbaum N, Siemann H, Skutle A, Torrens M, van der Kreeft P, Iversen E, Schifano F (2012) Identifying emerging trends in recreational drug use; outcomes from the psychonaut web mapping project. Prog Neuro Psychopharmacol Biol Psychiatr 39(2):221–226 (new drugs of abuse) Diestel R (2012) Graph theory, Graduate texts in mathematics, vol 173, 4th edn. Springer, Heidelberg Fruchterman TM, Reingold EM (1991) Graph drawing by force-directed placement. Softw Pract Exp 21(11):1129–1164 Han X, Ma J, Wu Y, Cui C (2014) A novel machine learning approach to rank web forum posts. Soft Comput 18(5):941–959 Hoque E, Hoeber O, Strong G, Gong M (2013) Combining conceptual query expansion and visual search results exploration for web image retrieval. J Ambient Intell Humaniz Comput 4(3):389–400 Hout MCV, Bingham T (2013a) Silk Road, the virtual drug marketplace: a single case study of user experiences. Int J Drug Policy 24(5):385–391 Hout MCV, Bingham T (2013b) Surfing the Silk Road: a study of users experiences. Int J Drug Policy 24(6):524–529 Hout MCV, Bingham T (2014) Responsible vendors, intelligent consumers: Silk road, the online revolution in drug trading. Int J Drug Policy 25(2):183–189 Jansen BJ (2006) Adversarial information retrieval aspects of sponsored search. In: AIRWeb, pp 33–36 Laura L, Me G (2015) Searching the web for illegal content: the anatomy of a semantic search engine. In: Proceedings of the 10th international conference on global security, safety & sustainability. Springer Maleki-Dizaji S, Siddiqi J, Soltan-Zadeh Y, Rahman F (2014) Adaptive information retrieval system via modelling user behaviour. J Ambient Intell Humaniz Comput 5(1):105–110 Nikravesh M, Loia V, Azvine B (2002) Fuzzy logic and the internet (flint): Internet, world wide web, and search engines. Soft Comput 6(5):287–299 Ogiela M, Sukowski P (2014) Protocol for irreversible off-line transactions in anonymous electronic currency exchange. Soft Comput 18(12):2587–2594 Page L, Brin S, Motwani R, Winograd T (1999) The pagerank citation ranking: bringing order to the web. Technical Report, Stanford InfoLab. http://ilpubs.stanford.edu:8090/422/ Pereira RAM, Molinari A, Pasi G (2005) Contextual weighted representations and indexing models for the retrieval of html documents. Soft Comput 9(7):481–492 Tor project (2011) Anonymity online. https://www.torproject.org/. Accessed 20 Sept 2012 United Nations Office on Drugs and Crime (UNODC) (2014) Global synthetic drugs assessment (United Nations publication, Sales No. E.14.XI.6). https://www.unodc.org/documents/scientific/2014_Global_Synthetic_Drugs_Assessment_web.pdf Witten IH, Moffat A, Bell TC (1999) Managing gigabytes: compressing and indexing documents and images. Morgan Kaufmann, San Francisco