Sự
phát triển của xã hội dẫn đến bùng nổ dữ liệu trong những thập niên gần đây. Những
sản phẩm công nghệ mới đem lại nhiều tiện ích trong cuộc sống, được ứng dụng ở
nhiều lĩnh vực thông tin truyền thông. Hệ thống thông tin điện tử, trực tuyến,
các website của những doanh nghiệp tổ chức được phát triển mạnh mẽ góp phần
tăng cường mối quan hệ, hợp tác ở nhiều lĩnh vực như văn hóa xã hội, khoa học
công nghệ, y tế, giáo dục, giải trí… Con người có trong tay nhiều công cụ để
chia sẻ thông tin qua blog, website, diễn đàn, các mạng xã hội trực tuyến như
Facebook, Twitter, Youtube…Cách đây không lâu, vào năm 2000, chỉ mới có một phần
tư lượng thông tin lưu trữ ở dạng kỹ thuật số trên thế giới. Ba phần tư còn lại
được lưu trữ trên giấy tờ, phim, và các phương tiện analog khác. Nhưng do lượng
dữ liệu kỹ thuật số bùng nổ quá nhanh – cứ 3 năm lại tăng gấp đôi – cục diện
trên nhanh chóng đảo ngược. Ngày nay, chỉ dưới 2% tổng lượng thông tin chưa được
chuyển sang lưu trữ ở dạng kỹ thuật số.
Tuy
nhiên những phương thức lưu trữ dữ liệu đã bộc lộ rất nhiều hạn chế. Ngày nay
khối lượng dữ liệu vô cùng lớn, kích cỡ lên đến hàng trăm terabyte cho đến
petabyte chỉ cho một tập hợp dữ liệu. Cùng với đó khi mà hơn 80% dữ liệu sinh
ra là phi cấu trúc (tài liệu, blog, hình ảnh, video, bài hát, dữ liệu cảm biến,
thiết bị chăm sóc sức khỏe…) thì những phương pháp lưu trữ dữ liệu truyền thống
không thể đảm đương được. Những phương pháp đó không cho phép liên kết và phân
tích nhiều dạng dữ liệu khác nhau. Khối lượng dữ liệu gia tăng nhanh nhưng tốc
độ xử lý dữ liệu (thu nhận, xử lý, đáp trả) mất rất nhiều thời gian trong khi nhu
cầu của con người muốn xử lý được ngay dữ liệu tức thời (tính đến bằng mili
giây). Điều đó thúc đẩy con người tạo ra một phương pháp và quản lý dữ liệu
khác phù hợp hơn.
Quá
trình hoạt động của một tác vụ MapReduce trên Hadoop
Và
Big data ra đời đã đánh dấu một trang mới trong lịch sử phát triển công nghệ.
Big data là một hệ thống dữ liệu liệu vô cùng lớn, đến mức không thể lưu trữ
trong các hệ thống cơ sở dữ liệu truyền thống. Sự phức tạp và không thể định
hình thành một thể thống nhất của dữ liệu Big data cũng là một nhân tố làm nó
trở nên khó đồng bộ để lưu trữ trong một hệ thống cơ sở dữ liệu truyền thống. Dữ
liệu được thu thập từ nhiều nguồn khác nhau bao gồm: dữ liệu không giới hạn từ
internet, web 2.0, từ các thiết bị nghiên cứu (dữ liệu thiên văn, dịch vụ y tế…),
dữ liệu từ các thiết bị thông minh (hay còn gọi là smart device). Do đó nó mang
cấu trúc không cố định.Big data đã thể hiện được sức mạnh và tầm ảnh hưởng đến
mọi lĩnh vực trong xã hội.
Mời các bạn quan tâm tìm hiểu đồ án cùng chủ đề "Áp dụng các kỹ thuật trong Big data vào lưu trữ dữ liệu” của tác giả Nguyễn
Chí Thanh tại đường link: http://lib.hpu.edu.vn/handle/123456789/25208

Nhận xét
Đăng nhận xét