Biểu diễn văn bản dạng bảng cho tìm kiếm người dựa trên ngôn ngữ tiếng Việt
Từ khóa:
Tìm kiếm người dựa trên truy vấn văn bản; Dữ liệu dạng bảng; TabTransformer; CNN; Bi-LSTM.Tóm tắt
Tìm kiếm người dựa trên văn bản tiếng Việt vẫn là một bài toán đầy thách thức với bộ dữ liệu mô tả tiếng Việt còn hạn chế. Cách tiếp cận phổ biến hiện nay cho vấn đề này là DNN và gần đây, mạng Transformer đã được ưa chuộng hơn vì hiệu suất vượt trội so với mạng CNN và RNN cho cả nhiệm vụ xử lý ngôn ngữ tự nhiên và thị giác máy tính. Tuy nhiên, DNN hoặc mạng Transformer yêu cầu một lượng lớn dữ liệu huấn luyện và năng lực tính toán để học hiệu quả các đặc trưng ảnh và ngôn ngữ. Điều này đặt ra gánh nặng cho việc triển khai tìm kiếm người dựa trên văn bản tiếng Việt bằng DNN hoặc Transformer. Hướng tới xây dựng hệ thống tìm kiếm người dựa trên văn bản tiếng Việt trên nguồn dữ liệu hạn chế gồm các câu mô tả tiếng Việt với chi phí tính toán thấp, trong bài báo này chúng tôi đề xuất áp dụng kiến trúc dựa trên Transformer có tên TabTransformer để nhúng ngữ cảnh các cụm danh từ được tách ra từ câu mô tả tiếng Việt. Đây là lần đầu tiên mạng TabTransformer được triển khai cùng với kiến trúc CNN và RNN cho việc tìm kiếm hình ảnh dựa trên câu mô tả tiếng Việt. Kết quả thử nghiệm trên tập dữ liệu hạn chế 3000VnPersonSearch cho thấy độ chính xác nhận dạng của phương pháp đề xuất tốt hơn so với phương pháp cơ sở khoảng 7.5% ở Rank 1. Ngoài ra, thời gian tính toán của phương pháp đề xuất hiệu quả hơn phương pháp cơ sở.