Hadoop – công nghệ khai thác mỏ vàng trên Internet

(JICT) - Mong muốn của các doanh nghiệp là tận dụng lượng dữ liệu khổng lồ để đưa ra quyết định kinh doanh, Hadoop giúp các công ty xử lý khối lượng cỡ terabyte và thậm chí là petabytes dữ liệu phức tạp tương đối hiệu quả với chi phí thấp hơn, các chuyên gia nói.

(JICT) - Mong muốn của các doanh nghiệp là tận dụng lượng dữ liệu khổng lồ để đưa ra quyết định kinh doanh, Hadoop giúp các công ty xử lý khối lượng cỡ terabyte và thậm chí là petabytes dữ liệu phức tạp tương đối hiệu quả với chi phí thấp hơn, các chuyên gia nói.

Các doanh nghiệp đang nỗ lực tìm kiếm thông tin quý giá từ khối lượng lớn dữ liệu phi cấu trúc được tạo ra bởi các web log, công cụ clickstream, các sản phẩm truyền thông xã hội. Chính yếu tố đó dẫn làm tăng sự quan tâm đến công nghệ mã nguồn mở Hadoop.

Hadoop, một dự án phần mềm quản lý dữ liệu Apache với nhân trong khung phần mềm MapReduce của Google, được thiết kế để hỗ trợ các ứng dụng sử dụng được số lượng lớn dữ liệu cấu trúc và phi cấu trúc.

Không giống như các hệ quản trị cơ sở dữ liệu truyền thống, Hadoop được thiết kế để làm việc với nhiều loại dữ liệu và dữ liệu nguồn. Công nghệ HDFS của Hadoop cho phép khối lượng lớn công việc được chia thành các khối dữ liệu nhỏ hơn được nhân rộng và phân phối trên các phần cứng của một cluster để xử lý nhanh hơn. Công nghệ này đã được sử dụng rộng rãi bởi một số trang web lớn nhất thế giới, chẳng hạn như Facebook, eBay, Amazon, Baidu, và Yahoo. Các nhà quan sát nhấn mạnh rằng Yahoo là một trong những nhà đóng góp lớn nhất đối với Hadoop.

Công nghệ Hadoop ngày càng được sử dụng nhiều hơn trong các ngân hàng, công ty quảng cáo, các viện nghiên cứu, các công ty dược phẩm và các công ty CNTT khác, ông Stephen O'Grady, một nhà phân tích của RedMonk cho biết.

Điều tác động đến Hadoop là mong muốn của các công ty tận dụng số lượng khổng lồ của các loại dữ liệu khác nhau để đưa ra quyết định kinh doanh, O'Grady nói. Công nghệ này cho phép các công ty xử lý khối lượng cỡ terabyte và thậm chí là petabytes dữ liệu phức tạp tương đối hiệu quả với chi phí thấp hơn đáng kể so với hệ quản trị cơ sở dữ liệu thông thường, các chuyên gia nói.

"Với Hadoop bạn có thể chỉ cần một và hai người là có thể xử lý cùng một khối lượng dữ liệu mà một số công ty lớn nhất thế giới đang xử lý," ông nói.

Tynt, người sử dụng Hadoop, một công ty phân tích web, cung cấp dịch vụ phân tích cho hơn 500.000 trang web. Sản phẩm chính của nó là một dịch vụ cho phép các nhà cung cấp dịch vụ có được cái nhìn sâu sắc về việc các dịch vụ của họ được chia sẻ như thế nào. Một ngày trung bình Tynt thu thập và phân tích gần 1 terabyte dữ liệu từ hàng trăm triệu của các tương tác web trên các trang web mà họ quan sát. Công ty chuyển sang Hadoop khoảng 18 tháng trước, khi cơ sở hạ tầng dữ liệu MySQL bắt đầu sụp đổ theo dữ liệu mà Tynt thu thập được.

“ Hadoop là một thứ hoàn toàn khác", ông Cameron Befus, phó chủ tịch kỹ thuật của Tynt đã nói như vậy. Các công nghệ cơ sở dữ liệu tập trung vào tốc độ phục hồi dữ liệu, hỗ trợ truy vấn phức tạp và độ tin cậy giao dịch, toàn vẹn và nhất quán. "Cái mà họ không làm tốt là phải chấp nhận dữ liệu mới một cách nhanh chóng," ông nói.

"Hadoop đảo ngược điều đó. Bạn có thể đưa dữ liệu vào Hadoop với tốc độ nhanh chóng," ông nói. Cấu trúc tập tin của Hadoop cho phép các công ty về cơ bản nắm bắt và củng cố tốt bất kỳ loại tập tin dữ liệu có cấu trúc và phức tạp nào, chẳng hạn như các nhật ký trên trang web, siêu dữ liệu, tập tin âm thanh và video, dịch vụ e-mail phi cấu trúc, dữ liệu dòng Twitter và dịch vụ truyền thông xã hội.

Do đó, công nghệ này là lý tưởng cho các công ty muốn phân tích khối lượng lớn dữ liệu có cấu trúc và phi cấu trúc.

Lấy dữ liệu thô từ các HDFS, tuy nhiên, chế biến nó không phải là dễ dàng hay thuận tiện như các hệ thống cơ sở dữ liệu điển hình, bởi vì dữ liệu không được tổ chức hoặc cấu trúc, Befus nói. "Về cơ bản những gì Hadoop làm là đưa các dữ liệu bên ngoài vào trong các tập tin lớn. Nó không quan tâm trong các tập tin có gì. Nó chỉ quản lý chúng và đảm bảo rằng trong đó có nhiều bản sao của các tập tin."

Ban đầu, người dùng phải viết công việc trong một ngôn ngữ lập trình như Java để phân tích và sau đó truy vấn dữ liệu thô trong Hadoop. Nhưng các công cụ hiện có thể được sử dụng để viết các truy vấn SQL như dữ liệu được lưu trữ trong Hadoop, Befus nói.

Tynt sử dụng một công cụ phổ biến được gọi là Pig để viết các truy vấn vào Hadoop. Một lựa chọn khác được sử dụng rộng rãi là Hive. Theo Befus, Kiến trúc cảu Hadoop làm cho nó trở thành lý tưởng cho việc chạy các ứng dụng xử lý hàng loạt liên quan đến 'dữ liệu lớn.'

Hadoop được sử dụng nhiều hơn cho các ứng dụng kinh doanh thông minh thời gian thực.

Càng ngày, các công ty như OpenLogic đã bắt đầu sử dụng một công nghệ mã nguồn mở được gọi là HBase thay cho Hadoop để cho phép các truy vấn nhanh chóng của dữ liệu trong HDFS. HBase là một dạng lưu trữ dữ liệu Hadoop theo cột cho phép truy cập thời gian thực và truy vấn dữ liệu trong Hadoop. Để cung cấp dịch vụ này, OpenLogic duy trì cơ sở dữ liệu toàn diện của hàng trăm ngàn gói mã nguồn mở. Công ty lưu trữ các siêu dữ liệu, nhiều phiên bản và các sửa đổi được lưu trữ tập trung trong Hadoop. Dữ liệu được truy cập thông qua HBase.

Rod Cope, CTO của OpenLogic, cho biết công ty đã có được cả hai thế giới tốt nhất với Hadoop. "Rất nhiều dữ liệu chúng tôi không thể kết hợp với RDBMS như MySQL và Oracle Vì vậy, lựa chọn tốt nhất là Hadoop," ông nói. Bằng cách chạy HBase trên Hadoop, OpenLogic cũng có thể cho phép truy cập thời gian thực theo cách gần giống như những công nghệ cơ sở dữ liệu thông thường.
(Theo Infoworld)