Trong
thời đại công nghệ số hiện nay, các nguồn tài liệu là vô cùng phong phú. Việc
tìm kiếm một tài liệu trở nên đơn giản hơn bao giờ hết, rất nhiều tài liệu,
thông tin tri thức mới mẻ đang phát triển từng giờ, giúp chúng ta thu nhận tri
thức mọi lúc và ở bất cứ đâu. Lợi ích là không thể bàn cãi. Nhưng như hai mặt của
một vấn đề, ở quy mô rộng lớn bao la như vậy, các thư viện điện tử ngày càng
nhiều, một tài liệu có thể được phát hành trên internet nhiều lần từ nhiều nguồn,
theo nhiều định dạng khác nhau, trong nhiều thư viện điện tử khác nhau, trên những
trang web khác nhau. Tìm kiếm là dễ dàng nhưng trích trọn ra được thông tin
chính xác và hữu ích lại là vấn đề không hề dễ dàng.
Làm
thế nào để có thể nhận biết được đâu sẽ là tài liệu đúng, đâu sẽ là tài liệu đi
sao chép, góp nhặt từ các tài liệu khác mà tính chính xác không hề được kiểm chứng.
Chủ đề này đã được nghiên cứu từ gần 15 năm qua. Hiện tại, đã có một số giải
pháp khá hữu hiệu cho vấn đề này và một vài công cụ phần mềm cho phép phát hiện,
tìm kiếm một tài liệu hoặc một tập hợp các tài liệu nguồn phù hợp với yêu cầu.
Tập hợp các tài liệu nguồn có thể là đóng- tức là các tài liệu tập hợp trước
trong một thư viện điện tử hoặc là mở, chẳng hạn như các tập tài liệu văn bản
trên internet.
Đã
có một số nghiên cứu đề xuất các phương pháp khác nhau để xác định xem một đoạn
văn bản của một tài liệu có nằm trong có nằm trong một tài liệu khác hay không.
Các phương pháp này chủ yếu dựa trên tìm kiếm và so khớp chuỗi. Tuy nhiên, các
phương pháp so khớp chuỗi chỉ hiệu quả nếu từ hoặc tập từ, đoạn văn là “nguyên
văn”. Do vậy, một yêu cầu được đặt ra là làm thế nào để phát hiện việc được các
tài liệu có liên quan khi các tài liệu đó có sửa đổi như thay thế một số từ bằng
từ đồng nghĩa hoặc đổi thứ tự từ, câu trong văn bản. Từ đó, một ý tưởng được
đưa ra, liệu rằng tìm kiếm so sánh văn bản dựa trên nội dung, ý nghĩa sẽ cho hiệu
quả cao hơn so với các phương pháp tìm kiếm và so khớp chuỗi.
Giải thuật tách từ từ câu
Với
đề tài: “Áp dụng phương pháp phân tích ngữ nghĩa tiềm ẩn trong đối sánh văn bản”
tác giả đã chia đồ án thành các chương sau:
Chương
1: Trình bày các khái niệm và kiến thức cơ bản trong lĩnh vực đối sánh văn bản.
Chương
2: Chương này tập trung trình bày các phương pháp phân tích xử lý và đối sánh
văn bản.
Chương
3: Chương này trình bày phần thực nghiệm chương trình dựa trên phân tích ngữ
nghĩa tiềm ẩn đã trình bày tại chương 2
Mời các bạn quan tâm tìm hiểu đồ án cùng chủ đề
"Áp dụng phương pháp
phân tích ngữ nghĩa tiềm ẩn trong đối sánh văn bản” của tác giả Nguyễn Minh Thành tại đường link:
http://lib.hpu.edu.vn/handle/123456789/25209

Nhận xét
Đăng nhận xét