Tập dữ liệu tiếng Việt cho bài toán tìm câu hỏi tương đồng

Các tác giả

  • Hà Thị Thanh
  • Nguyễn Thị Oanh

Từ khóa:

elastic search, máy tìm kiếm, tập dữ liệu.

Tóm tắt

Bài toán tìm kiếm câu hỏi tương đồng là bài toán phổ biến và quan trọng trong xử lý ngôn ngữ tự nhiên. Tuy nhiên, có rất ít nghiên cứu về bài toán này trên tập dữ liệu tiếng Việt. Nguyên nhân của hiện tượng trên là do chưa có tập dữ liệu tiếng Việt chuẩn cho bài toán tìm kiếm câu hỏi. Trong bài báo này, chúng tôi trình bày một phương pháp xây dựng tập dữ liệu tiếng Việt cho bài toán tìm kiếm câu hỏi tương đồng. Chúng tôi xây dựng được 7911 cặp câu hỏi được gán nhãn.  Đồng thời, tập dữ liệu này cũng được thử nghiệm đánh giá trên một số mô hình học máy cơ bản.

Lượt tải

Chưa có dữ liệu tải xuống.

Tiểu sử tác giả

  • Hà Thị Thanh

    Trường Đại học Công nghệ Thông tin và Truyền thông, Đại học Thái Nguyên

  • Nguyễn Thị Oanh

    Trường Đại học Công nghệ Thông tin và Truyền thông, Đại học Thái Nguyên

Đã Xuất bản

2022-11-14