Định danh truy vấn xấp xỉ: Tính đến độ gần gũi trong dịch thuật

The VLDB Journal - Tập 10 - Trang 155-181 - 2001
Kevin Chen-Chuan Chang1, Héctor García-Molina2
1Computer Science Department, University of Illinois at Urbana-Champaign, Urbana, IL 61801, USA; e-mail: [email protected] , , US
2Computer Science Department, Stanford University, Stanford, CA 94305, USA; E-mail: [email protected] , , US

Tóm tắt

Trong bài báo này, chúng tôi trình bày một cơ chế để dịch xấp xỉ các điều kiện truy vấn Boolean giữa các nguồn thông tin đa dạng. Việc đạt được sự dịch thuật tốt nhất là thách thức do các nguồn thông tin hỗ trợ các điều kiện khác nhau để xây dựng truy vấn, và thường các điều kiện này không thể được dịch chính xác. Ví dụ, một truy vấn [score>8] có thể được dịch "hoàn toàn" thành [rating>0.8] tại một trang web, nhưng chỉ có thể được xấp xỉ bằng [grade=A] tại một trang web khác. Khác với các công trình khác, khung tổng quát của chúng tôi áp dụng một chỉ số “độ gần gũi” có thể tùy chỉnh cho việc dịch thuật, kết hợp cả độ chính xác và độ thu hồi. Kết quả của chúng tôi cho thấy rằng đối với việc dịch thuật truy vấn, chúng tôi cần xử lý các mối quan hệ phụ thuộc giữa cả các phần kết hợp và phân tách của truy vấn. Là cơ sở, chúng tôi xác định các yêu cầu thiết yếu của một hệ thống quy tắc để người dùng mã hóa các ánh xạ cho các đơn vị ngữ nghĩa nguyên tử. Thuật toán của chúng tôi sau đó dịch các truy vấn phức tạp bằng cách viết lại chúng dưới dạng các đơn vị ngữ nghĩa. Chúng tôi chỉ ra rằng, dưới các giả định thực tiễn, thuật toán của chúng tôi tạo ra các bản dịch gần đúng tốt nhất với phương pháp chỉ số độ gần gũi theo lựa chọn. Chúng tôi cũng trình bày một nghiên cứu tình huống để chỉ ra cách kỹ thuật của chúng tôi có thể được áp dụng trong thực tế.

Từ khóa