Lấy mẫu mạng tối để xác định người có liên quan

Social Network Analysis and Mining - Tập 8 - Trang 1-27 - 2018
Pivithuru Wijegunawardana1, Vatsal Ojha2, Ralucca Gera3, Sucheta Soundarajan1
1Department of Electrical Engineering and Computer Science, Syracuse University, Syracuse, USA
2Science and Humanities Scholars Program, Carnegie Mellon University, Pittsburgh, USA
3Department of Applied Mathematics, Naval Postgraduate School, Monterey, USA

Tóm tắt

Các mạng tối, mô tả các mạng lưới với các thực thể và kết nối bí mật, chẳng hạn như những mạng liên quan đến các hoạt động bất hợp pháp, đang thu hút sự quan tâm lớn từ các nhà phân tích tình báo. Tuy nhiên, trước khi nghiên cứu một mạng lưới như vậy, ta phải thu thập dữ liệu mạng phù hợp. Việc thu thập dữ liệu mạng chính xác trong bối cảnh này là một nhiệm vụ đầy thách thức, vì các nhà thu thập dữ liệu sẽ đưa ra những suy diễn có thể sai lệch dựa trên dữ liệu tình báo có sẵn, mà chính nó có thể cũng gây hiểu lầm. Trong bài báo này, chúng tôi xem xét vấn đề làm thế nào để lấy mẫu mạng tối một cách hiệu quả, trong đó các truy vấn lấy mẫu có thể trả về thông tin sai, với mục tiêu cụ thể là xác định những người có liên quan. Chúng tôi trình bày RedLearn và RedLearnRS, hai thuật toán để truy cập mạng tối với mục tiêu tối đa hóa việc xác định các nút quan tâm, trong điều kiện ngân sách lấy mẫu hạn chế. RedLearn giả định rằng một truy vấn trên một nút có thể chính xác trả về liệu một nút có đại diện cho một người có liên quan hay không, trong khi RedLearnRS không dựa trên giả định đó. Chúng tôi xem xét các kịch bản lỗi thực tế, mô tả cách mà các cá nhân trong một mạng tối có thể cố gắng che giấu các kết nối của họ. Chúng tôi đánh giá và trình bày kết quả trên nhiều mạng lưới thực tế, bao gồm cả mạng tối, cũng như các cấu trúc mạng tối tổng hợp khác nhau được đề xuất trong tài liệu về tội phạm học. Phân tích của chúng tôi cho thấy RedLearn và RedLearnRS đáp ứng hoặc vượt trội hơn các chiến lược lấy mẫu khác.

Từ khóa


Tài liệu tham khảo

Adamic LA, Lukose RM, Puniyani AR, Huberman BA (2001) Search in power-law networks. Phys Rev E 64(4):046–135 Aldous D, Fill J (2002) Reversible markov chains and random walks on graphs. Berkeley Asztalos A, Toroczkai Z (2010) Network discovery by generalized random walks. EPL (Europhys Lett) 92(5):50,008 Avrachenkov K, Basu P, Neglia G, Ribeiro B, Towsley D (2014) Pay few, influence most: Online myopic network covering. In: IEEE NetSciCom workshop Baker WE, Faulkner RR (1993) The social organization of conspiracy: Illegal networks in the heavy electrical equipment industry. Am Sociol Rev 58(6):837–860 Benkherouf L, Bather J (1988) Oil exploration: sequential decisions in the face of uncertainty. J Appl Probab 25(3):529–543 Bhagat S, Cormode G, Muthukrishnan S (2011) Node classification in social networks. In: Social network data analytics, Springer, pp 115–148 Biernacki P, Waldorf D (1981) Snowball sampling: problems and techniques of chain referral sampling. Soc Methods Res 10(2):141–163 Bliss CA, Danforth CM, Dodds PS (2014) Estimation of global network statistics from incomplete data. PloS ONE 9(10):e108,471 Bnaya Z, Puzis R, Stern R, Felner A (2013) Social network search as a volatile multi-armed bandit problem. HUMAN 2(2):84 Burfoot C, Bird S, Baldwin T (2011) Collective classification of congressional floor-debate transcripts. In: Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-vol 1, Association for Computational Linguistics, pp 1506–1515 Carvalho VR, Cohen WW (2005) On the collective classification of email speech acts. In: Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, ACM, pp 345–352 Chen H, Chung W, Xu JJ, Wang G, Qin Y, Chau M (2004) Crime data mining: a general framework and some examples. Computer 37(4):50–56 Davis B, Gera R, Lazzaro G, Lim BY, Rye EC (2016) The marginal benefit of monitor placement on networks. In: Complex networks VII, Springer, pp 93–104 Erdos P, Rényi A (1960) On the evolution of random graphs. Publ Math Inst Hung Acad Sci 5(1):17–60 Friedman N, Koller D (2003) Being bayesian about network structure. a bayesian approach to structure discovery in bayesian networks. Mach Learn 50(1–2):95–125 Fronczak A, Fronczak P (2009) Biased random walks in complex networks: the role of local navigation rules. Phys Rev E 80(1):016–107 Gallagher B, Tong H, Eliassi-Rad T, Faloutsos C (2008) Using ghost edges for classification in sparsely labeled networks. In: Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM, pp 256–264 Gera R, Miller R, MirandaLopez M, Warnke S, Saxena A (2017) Three is the answer: combining relationships to analyze multilayered terrorist networks. In: Advances in social networks analysis and mining (ASONAM), 2017 IEEE/ACM, IEEE Hanneke S, Xing EP (2009) Network completing and survey sampling. In: AISTATS, pp 209–215 Holme P, Kim BJ (2002) Growing scale-free networks with tunable clustering. Phys Rev E 65(2):026–107 Hughes BD (1995) Random walks and random environments. Oxford, vol 2, 1995–1996 Koschade S (2006) A social network analysis of jemaah islamiyah: The applications to counterterrorism and intelligence. Stud Confl Terror 29(6):559–575 Le V (2012) Organised crime typologies: structure, activities and conditions. Int J Criminol Sociol 1:121–131 Leskovec J, Faloutsos C (2006) Sampling from large graphs. In: SIGKDD, ACM, pp 631–636 Lin F, Cohen WW (2010) Semi-supervised classification of network data using very few labels. In: 2010 International Conference on Advances in Social Networks Analysis and Mining (ASONAM), IEEE, pp 192–199 Lu Q, Getoor L (2003) Link-based classification. In: Proceedings of the 20th International Conference on Machine Learning (ICML-03), pp 496–503 Lu Y, Luo X, Polgar M, Cao Y (2010) Social network analysis of a criminal hacker community. J Comput Inf Syst 51(2):31–41 Macskassy SA, Provost F (2005) Suspicion scoring based on guilt-by-association, collective inference, and focused data access. In: International Conference on Intelligence Analysis Maiya AS, Berger-Wolf TY (2010) Online sampling of high centrality individuals in social networks. In: PAKDD, pp 91–98 Michalak TP, Rahwan T, Wooldridge M (2017) Strategic social network analysis. In: AAAI, pp 4841–4845 Neville J, Jensen D (2000) Iterative classification in relational data. In: Proceedings of AAAI-2000 workshop on learning statistical models from relational data, pp 13–20 Noh JD, Rieger H (2004) Random walks on complex networks. Phys Rev Lett 92(11):118–701 Novikov AA, Shiryaev AN (2005) On an effective solution of the optimal stopping problem for random walks. Theory Probab Appl 49(2):344–354 Raab J, Milward HB (2003) Dark networks as problems. J Public Adm Res Theory 13(4):413–439 Roberts N, Everton S (2011) Terrorist data: Noordin top terrorist network. https://sites.google.com/site/sfeverton18/research/appendix-1 Schwartz DM, Rouselle TD (2009) Using social network analysis to target criminal networks. Trends Organ Crime 12(2):188–207 Sparrow MK (1991) The application of network analysis to criminal intelligence: an assessment of the prospects. Soc Netw 13(3):251–274 Stern RT, Samama L, Puzis R, Beja T, Bnaya Z, Felner A (2013) Tonic: Target oriented network intelligence collection for the social web. In: AAAI Tsitsiklis JN, Van Roy B (1999) Optimal stopping of markov processes: Hilbert space theory, approximation algorithms, and an application to pricing high-dimensional financial derivatives. IEEE Trans Autom Control 44(10):1840–1851 Wijegunawardana P, Ojha V, Gera R, Soundarajan S (2017) Seeing red: locating people of interest in networks. In: Workshop on Complex Networks CompleNet, Springer, pp 141–150 Xiang R, Neville J, Rogati M (2010) Modeling relationship strength in online social networks. In: Proceedings of the 19th International Conference on World Wide Web, ACM, pp 981–990 Yan G (2013) Peri-watchdog: hunting for hidden botnets in the periphery of online social networks. Comput Netw 57(2):540–555 Zheleva E, Getoor L (2009) To join or not to join: the illusion of privacy in social networks with mixed public and private user profiles. In: Proceedings of the 18th International Conference on World Wide Web, ACM, pp 531–540 Zhu X, Ghahramani Z, Lafferty J et al (2003) Semi-supervised learning using gaussian fields and harmonic functions. ICML 3:912–919