Xây dựng hệ thống thông tin tra cứu từ điển chuyên ngành có ngữ cảnh
Tóm tắt
Ngữ cảnh của từ điển chuyên ngành là rất quan trọng. Ngữ cảnh là một phần thông tin bằng văn bản giúp cho người tra từ hiểu rõ nội dung ý nghĩa của từ khoá nhằm giúp việc sử dụng từ đúng vào từng trường hợp cụ thể trong văn bản chuyên ngành, đặc biệt là trong học tập, nghiên cứu. Tuy nhiên, các hệ thống tra cứu từ hiện tại thường tập trung hỗ trợ tra cứu từ và giải thích từ mà chưa quan tâm đến ngữ cảnh của từ. Khi có được ngữ cảnh của từ, câu hỏi đặt ra là làm thế nào để có thể tìm kiếm được chính xác ngữ cảnh hoặc hiển thị kết quả tìm kiếm gợi ý có liên quan đến từ khoá trong kho dữ liệu văn bản ngữ cảnh? Trong bài báo này, chúng tôi đề xuất xây dựng phương pháp và mô hình tra từ điển chuyên ngành có ngữ cảnh trên cơ sở phân tích, đánh giá và lựa chọn giải thuật tối ưu trong các phương pháp so khớp văn bản. Sau đó, chúng tôi áp dụng giải thuật vào kỹ thuật tra từ của hệ thống. Tích hợp mô hình đề xuất trên hệ thống website và thực nghiệm trên 1500 từ chuyên ngành cùng với ngữ cảnh thuộc lĩnh vực Hệ thống thông tin quản lý và Thương mại điện tử. Hệ thống có thể hỗ trợ cùng lúc việc tra từ điển bằng tiếng Anh và tiếng Việt.