Trong
tra cứu ảnh dựa trên nội dung, các đặc trưng được trích chọn một cách tự động bằng
cách sử dụng kỹ thuật của thị giác máy chủ yếu là các đặc trưng mức thấp thấp
(màu, kết cấu, hình dạng, vị trí không gian…)[4]. Mặc dù nhiều thuật toán phức
tạp đã được thiết kế để mô tả màu sắc, hình dáng và đặc trưng kết cấu, nhưng
các thuật toán này vẫn không thể phản ánh thỏa đáng ngữ nghĩa ảnh. Do vậy, khoảng
cách ngữ nghĩa giữa các đặc trưng mức thấp và các khái niệm mức cao vẫn còn lớn
nên hiệu suất của CBIR là vẫn còn xa với mong đợi của người dùng [9].
Để
thu hẹp khoảng cách ngữ nghĩa, phản hồi liên quan (Relevance Feedback - RF) được
xem như là một công cụ hiệu quả để cải thiện hiệu năng của hệ thống CBIR [8],
[1]. Gần đây, rất nhiều nhà nghiên cứu bắt đầu xem phản hồi liên quan như là
bài toán phân lớp hoặc bài toán học. Người sử dụng sẽ cung cấp các mẫu dương hoặc
mẫu âm và hệ thống sẽ học từ các mẫu này để phân tách tất cả dữ liệu thành nhóm
liên quan và không liên quan. Do vậy, rất nhiều phương pháp học máy có thể được
áp dụng. Những phương pháp học có thể được phân thành hai lớp: Quy nạp và Truyền
dẫn tùy theo dữ liệu không được gán nhãn có được dùng trong chiến lược huấn luyện
hay không.
Những
phương pháp quy nạp chủ yếu dựa trên Support Vector Machines [10], [7],
boosting [6] và mạng neuron [11]. Chúng được xem như là giải quyết bài toán
phân lớp nhị phân (liên quan và không liên quan) và xếp hạng ảnh theo kết quả
phân lớp.
Trong
các phương pháp truyền dẫn, các ảnh trong cơ sở dữ liệu được biểu diễn như là
các đỉnh của đồ thị có trọng số. Phản hồi liên quan của người dùng được sử dụng
để tạo ra các mẫu được gán nhãn. Những mẫu này sẽ được sử dụng để làm cơ sở
tính toán khả năng truyền dẫn cho mỗi ảnh [5],[12]. Các phương pháp này không
chỉ sử dụng mối quan hệ từng cặp giữa ảnh truy vấn với các ảnh trong cơ sở dữ
liệu mà nó còn khai thác cả mối quan hệ gữa tất cả các ảnh với nhau, nhờ vậy,
hiệu quả tra cứu của chúng được cải thiện đáng kể.
Trong
giai đoạn đầu của quá trình tra cứu ảnh với phản hồi liên quan, số ảnh được gán
nhãn thường rất ít trong khi số lượng ảnh chưa được gán nhãn rất nhiều. Do vậy
lựa chọn phương pháp học hiệu quả để tận dụng được lợi thế của thông tin đầu
vào là vấn đề quan trọng.
Nội
dung luận văn gồm 3 chương:
Chương 1: Khái quát về CBIR và học
trên đồ thị
Chương
này trình bày tổng quan tra cứu ảnh dựa trên nội dung; tra cứu ảnh dựa trên nội
dung với phản hồi liên quan; các phương pháp học máy và học trên đồ thị gồm có
các mô hình Học có giám sát (Supervised learning), Học không giám sát
(Unsupervised learning), Học bán giám sát (SemiSupervised learning).
Chương 2: Tra cứu ảnh dựa trên xếp
hạng đa tạp
Tập
trung tìm hiểu phương pháp học bán giám sát trên đồ thị qua thuật toán lan truyền
nhãn. Đồng thời tập trung nghiên cứu phương pháp tra cứu ảnh dựa trên xếp hạng
đa tạp và cải tiến phương pháp này khi áp dụng vào tra cứu dữ liệu ảnh có số lượng
lớn.
Chương 3: Thực nghiệm
Cài
đặt thử nghiệm chương trình tra cứu ảnh dựa trên nội dung theo mô hình học bán
giám sát trên đồ thị qua thuật toán xếp hạng đa tạp (MR) và thuật toán xếp hạng
đa tạp cải tiến (EMR). So sánh hiệu năng của hai thuật toán này.
Mời
các bạn quan tâm tìm hiểu luận văn cùng chủ đề "Học bán giám sát trên đồ thị với ứng
dụng tra cứu ảnh” của tác giả Trịnh Khắc Dũng tại đường link: http://lib.hpu.edu.vn/handle/123456789/26587
Nhận xét
Đăng nhận xét