Học bán giám sát trên đồ thị với ứng dụng tra cứu ảnh

Trong tra cứu ảnh dựa trên nội dung, các đặc trưng được trích chọn một cách tự động bằng cách sử dụng kỹ thuật của thị giác máy chủ yếu là các đặc trưng mức thấp thấp (màu, kết cấu, hình dạng, vị trí không gian…)[4]. Mặc dù nhiều thuật toán phức tạp đã được thiết kế để mô tả màu sắc, hình dáng và đặc trưng kết cấu, nhưng các thuật toán này vẫn không thể phản ánh thỏa đáng ngữ nghĩa ảnh. Do vậy, khoảng cách ngữ nghĩa giữa các đặc trưng mức thấp và các khái niệm mức cao vẫn còn lớn nên hiệu suất của CBIR là vẫn còn xa với mong đợi của người dùng [9].

Để thu hẹp khoảng cách ngữ nghĩa, phản hồi liên quan (Relevance Feedback - RF) được xem như là một công cụ hiệu quả để cải thiện hiệu năng của hệ thống CBIR [8], [1]. Gần đây, rất nhiều nhà nghiên cứu bắt đầu xem phản hồi liên quan như là bài toán phân lớp hoặc bài toán học. Người sử dụng sẽ cung cấp các mẫu dương hoặc mẫu âm và hệ thống sẽ học từ các mẫu này để phân tách tất cả dữ liệu thành nhóm liên quan và không liên quan. Do vậy, rất nhiều phương pháp học máy có thể được áp dụng. Những phương pháp học có thể được phân thành hai lớp: Quy nạp và Truyền dẫn tùy theo dữ liệu không được gán nhãn có được dùng trong chiến lược huấn luyện hay không.

Những phương pháp quy nạp chủ yếu dựa trên Support Vector Machines [10], [7], boosting [6] và mạng neuron [11]. Chúng được xem như là giải quyết bài toán phân lớp nhị phân (liên quan và không liên quan) và xếp hạng ảnh theo kết quả phân lớp.

Trong các phương pháp truyền dẫn, các ảnh trong cơ sở dữ liệu được biểu diễn như là các đỉnh của đồ thị có trọng số. Phản hồi liên quan của người dùng được sử dụng để tạo ra các mẫu được gán nhãn. Những mẫu này sẽ được sử dụng để làm cơ sở tính toán khả năng truyền dẫn cho mỗi ảnh [5],[12]. Các phương pháp này không chỉ sử dụng mối quan hệ từng cặp giữa ảnh truy vấn với các ảnh trong cơ sở dữ liệu mà nó còn khai thác cả mối quan hệ gữa tất cả các ảnh với nhau, nhờ vậy, hiệu quả tra cứu của chúng được cải thiện đáng kể.

Trong giai đoạn đầu của quá trình tra cứu ảnh với phản hồi liên quan, số ảnh được gán nhãn thường rất ít trong khi số lượng ảnh chưa được gán nhãn rất nhiều. Do vậy lựa chọn phương pháp học hiệu quả để tận dụng được lợi thế của thông tin đầu vào là vấn đề quan trọng.
Sơ đồ quá trình thực hiện Học bán giám sát

Nội dung luận văn gồm 3 chương:

Chương 1: Khái quát về CBIR và học trên đồ thị

Chương này trình bày tổng quan tra cứu ảnh dựa trên nội dung; tra cứu ảnh dựa trên nội dung với phản hồi liên quan; các phương pháp học máy và học trên đồ thị gồm có các mô hình Học có giám sát (Supervised learning), Học không giám sát (Unsupervised learning), Học bán giám sát (SemiSupervised learning).

Chương 2: Tra cứu ảnh dựa trên xếp hạng đa tạp

Tập trung tìm hiểu phương pháp học bán giám sát trên đồ thị qua thuật toán lan truyền nhãn. Đồng thời tập trung nghiên cứu phương pháp tra cứu ảnh dựa trên xếp hạng đa tạp và cải tiến phương pháp này khi áp dụng vào tra cứu dữ liệu ảnh có số lượng lớn.

Chương 3: Thực nghiệm

Cài đặt thử nghiệm chương trình tra cứu ảnh dựa trên nội dung theo mô hình học bán giám sát trên đồ thị qua thuật toán xếp hạng đa tạp (MR) và thuật toán xếp hạng đa tạp cải tiến (EMR). So sánh hiệu năng của hai thuật toán này.

Mời các bạn quan tâm tìm hiểu luận văn cùng chủ đề "Học bán giám sát trên đồ thị với ứng dụng tra cứu ảnh” của tác giả Trịnh Khắc Dũng tại đường link: http://lib.hpu.edu.vn/handle/123456789/26587



Nhận xét