MỘT KỸ THUẬT PHÂN CỤM CHO TỪ LOẠI TIẾNG VIỆT

Các tác giả

  • Nguyễn Minh Hiệp
  • Nguyễn Thị Minh Huyền
  • Ngô Thế Quyền
  • Trần Thị Phương Linh

Tóm tắt

Trong xử lý ngôn ngữ tự nhiên, gán nhãn từ loại (POS tagging) đóng một vai trò quan trọng, là đầu ra, đầu vào của nhiều nhiệm vụ khác (phân tích cú pháp, phân tích ngữ nghĩa...). Một trong những vấn đề liên quan đến việc gán nhãn từ loại là xác định tập từ loại (POS). Điều này có thể được giải quyết bằng các phương pháp học máy không giám sát. Bài viết này trình bày một ứng dụng của thuật toán phân cụm DBSCAN để phân loại từ tiếng Việt từ kho ngữ liệu lớn. Các đặt trưng được sử dụng để mô tả từng từ được định nghĩa một cách tự nhiên bởi ngữ cảnh của từ đó trong câu. Chúng tôi sử dụng một kho ngữ liệu lớn chứa câu được trích tự động từ báo Nhân Dân.

Lượt tải

Chưa có dữ liệu tải xuống.

Đã Xuất bản

2016-12-25

Số

Chuyên mục

Chuyên san Khoa học Tự nhiên và Công nghệ