see more blog

Tại sao data lakehouse giữ vai trò quan trọng đối với sự phát triển của doanh nghiệp?


Ngày càng có nhiều doanh nghiệp đầu tư vào kiến ​​trúc data lakehouse mới với định hướng data – driven. Data lakehouse có bản chất là một data warehouse, được kết hợp cấu trúc và khả năng truy cập của data warehouse với khả năng lưu trữ rộng rãi của một data lake. Mục tiêu của chiến lược dữ liệu hợp nhất này là trao quyền cho mọi nhân viên truy cập và sử dụng dữ liệu cũng như trí tuệ nhân tạo để đưa ra các quyết định kinh doanh tốt hơn.

Nhiều tổ chức công nhận rằng kiến ​​trúc Lakehouse là chìa khóa giúp họ tăng cường sự sắp xếp dữ liệu theo cách linh hoạt và nhanh nhẹn hơn.

Trên thực tế, một cuộc khảo sát gần đây của Databricks với các nhà cung cấp nền tảng dữ liệu đám mây cho kết quả rằng gần 2/3 (66%) người trả lời khảo sát đang sử dụng data lakehouse. Ngoài ra, 84% người không sử dụng data lakehouse ở hiện tại cho biết họ sẽ có kế hoạch sử dụng trong tương lai.

2022 Meta beat

Vào ngày 4 tháng 10, MetaBeat cùng các nhà lãnh đạo có sức ảnh hưởng sẽ có buổi thảo luận về cách công nghệ metaverse thay đổi  cách chúng ta giao tiếp và kinh doanh.

Theo Hiral Jasani, giám đốc tiếp thị sản phẩm cấp cao của Databricks, ngày càng có nhiều tổ chức triển khai data lakehouse vì chúng kết hợp các tính năng vượt trội nhất của cả data warehouse và data lake.

Theo Jasani, có 4 lý do chính để các doanh nghiệp áp dụng mô hình data lakehouse:

Các tác động của kiến trúc Data Lakehouse đến chất lượng và tích hợp dữ liệu

Xây dựng một data stack hiện đại trên kiến ​​trúc Lakehouse giải quyết các vấn đề về chất lượng dữ liệu và tích hợp dữ liệu. Jasani nhấn mạnh rằng nó thúc đẩy phần mềm mã nguồn mở, áp dụng các công cụ quản trị dữ liệu và hỗ trợ các nỗ lực về business intelligence (BI), streaming, trí tuệ nhân tạo (AI) và machine learning (ML).

Các data lake lưu trữ một lượng lớn dữ liệu thô ở nhiều định dạng khác nhau, khiến chúng trở nên đặc biệt khó bảo mật và quản lý. Để giảm bớt sự phức tạp của việc quản lý các dữ liệu này, các delta lake được sắp xếp nằm trên các data lake để nâng cao hiệu suất và đảm bảo tính nhất quán và độ tin cậy của dữ liệu.

Delta lake, một dạng data lake mở, đáng tin cậy, hiệu suất và an toàn, là nền tảng và yếu tố thúc đẩy kiến ​​trúc data lakehouse hiệu quả về chi phí, có khả năng mở rộng cao. 

Delta lake hỗ trợ cả hoạt động phát trực tuyến và hoạt động hàng loạt. Điều này giúp giảm bớt số lượng data warehouse bằng cách cung cấp một nơi duy nhất cho dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc. Vì vậy các phân tích trở nên đơn giản hơn và có thể truy cập được trong toàn tổ chức. Điều này cũng cho phép các nhóm dữ liệu cải thiện từng bước chất lượng của dữ liệu trong lakehouse cho đến khi nó được sử dụng tại downstream.

Cũng theo Jasani, đám mây đóng một vai trò quan trọng trong việc hiện đại hóa data stack. Phần lớn những người được hỏi (71%) cho biết họ đã sử dụng đám mây trên ít nhất một nửa cơ sở hạ tầng dữ liệu của họ. Và 36% số người được hỏi xác định hỗ trợ trên các nền tảng đám mây là điều kiện quan trọng hàng đầu của hệ thống công nghệ dữ liệu hiện đại.

Phân tích nâng cao đang bị cản trở thế nào bởi các hệ thống kế thừa không có kỹ thuật? 

Nhiều tổ chức hoạt động trên các hệ thống cũ khiến họ không thể tối ưu hóa dữ liệu của mình. Business intelligence (BI), trí tuệ nhân tạo (AI) và machine learning (ML) được quản lý trong các data stack riêng biệt.

Các công cụ kế thừa không đủ khả năng đáp ứng với lượng dữ liệu ngày càng tăng và các đội nhóm đang dành một lượng thời gian đáng kể để chuẩn bị dữ liệu phân tích thay vì thực sự trích xuất thông tin chi tiết từ dữ liệu của họ. Theo khảo sát, những người được hỏi đã dành 41% tổng thời gian của họ cho các dự án phân tích dữ liệu dành riêng cho việc tích hợp và chuẩn bị dữ liệu.

Jasani cho biết thêm rằng việc học cách phân biệt và tích hợp khoa học dữ liệu với khả năng của machine learning vào IT stack có thể rất khó khăn. Do sự phức tạp ngày càng tăng của việc sao chép dữ liệu giữa các nền tảng khác nhau, việc này không còn hiệu quả nữa.  

Gần như tất cả các doanh nghiệp đều gặp phải vấn đề về chất lượng dữ liệu chưa đạt tiêu chuẩn

Theo Jasani, chất lượng dữ liệu kém và các vấn đề tích hợp dữ liệu có thể có tác động tiêu cực đáng kể đến một doanh nghiệp. Các vấn đề về tích hợp dữ liệu đã dẫn đến một tỷ lệ lớn người trả lời khảo sát (96%) báo cáo rằng họ tốn công sức cho công việc đơn giản, chưa tối ưu trải nghiệm khách hàng và làm việc thủ công  quá nhiều. Hơn nữa, có những nguy cơ thiệt hại về kinh doanh trong lâu dài, chẳng hạn như khách hàng từ bỏ doanh nghiệp, bỏ lỡ cơ hội, giảm giá trị thương hiệu và cuối cùng là các quyết định kinh doanh thiếu chính xác.

Liên quan đến vấn đề này, các nhóm dữ liệu đang tìm cách xây dựng một data stack hiện đại để tăng cường sự hợp tác (46% người được khảo sát trả lời). Mục tiêu của họ là tạo điều kiện thuận lợi để dòng thông tin có thể mang lại kiến thức dữ liệu và sự tin cậy trong một tổ chức.

Khi các nhóm có thể cộng tác với dữ liệu, họ có thể chia sẻ số liệu thống kê và mục tiêu để hoàn thành công việc của mình. Theo Jasani, việc sử dụng các công nghệ mã nguồn mở cũng thúc đẩy sự hợp tác vì nó cho phép các chuyên gia dữ liệu tận dụng các kỹ năng mà họ đã có và sử dụng các công cụ mà họ yêu thích.

Ngoài ra, sự đáng tin cậy và minh bạch là điều phổ biến trong mọi tổ chức khi nói đến việc quản lý và sử dụng dữ liệu một cách hiệu quả. Khi có nhiều bản sao dữ liệu nằm ở những nơi khác nhau trong tổ chức, nhân viên sẽ khó xác định dữ liệu nào là mới nhất hoặc chính xác nhất, dẫn đến sự thiếu tin cậy thông tin.

Các đội nhóm sẽ không thể tin tưởng hoặc dựa vào thông tin mà họ được nhận. Dữ liệu được tách biệt giữa các chức năng kinh doanh khác nhau tạo ra một môi trường trong đó các nhóm kinh doanh khác nhau đang dựa vào các tập dữ liệu riêng biệt khác, khi tất cả chúng phải hoạt động từ một nguồn sự thật duy nhất.

Phân tích nâng cao và mô hình Data Lakehouse

Công nghệ Lakehouse thường được sử dụng bởi các công ty muốn nâng cao khả năng phân tích dữ liệu của họ. Các doanh nghiệp này có thể đang sử dụng nhiều định dạng dữ liệu khác nhau trên bộ lưu trữ rẻ tiền, làm cho công nghệ Lakehouse tiết kiệm chi phí hơn cho các ứng dụng ML / AI.

Cơ sở dữ liệu mã nguồn mở cung data warehouse và data lake tốt nhất. Nó hỗ trợ nhiều loại dữ liệu khác nhau và khối lượng công việc dữ liệu cho phân tích và trí tuệ nhân tạo. Một data warehouse chung cho phép khả năng hiển thị và kiểm soát tốt hơn môi trường dữ liệu sẵn có của các công ty để họ có thể cạnh tranh tốt hơn trong thế giới ưu tiên kỹ thuật số.

Những người được hỏi cho biết rằng họ có ý định hiện đại hóa data warehouse của mình theo một số cách khác nhau, bao gồm bằng cách triển khai các công cụ chất lượng dữ liệu (59%), công nghệ mã nguồn mở (38%), các công cụ quản trị dữ liệu (38%) và công cụ  self-service (38%).

Một trong những bước đầu tiên cần thiết nhất để hiện đại hóa ngăn xếp dữ liệu là tạo hoặc đầu tư vào cơ sở hạ tầng đảm bảo các nhóm dữ liệu có thể truy cập dữ liệu từ một hệ thống duy nhất. Bằng cách này, mọi người có thể làm việc từ cùng một nguồn thông tin hiện có. 

Theo Jasani, một data lakehouse có thể được sử dụng như một nơi lưu trữ duy nhất cho dữ liệu cấu trúc, bán cấu trúc và không cấu trúc, tạo nền tảng cho một ngăn xếp dữ liệu hiện đại có khả năng mở rộng cũng như tối ưu chi phí. Nó cũng sẽ tích hợp với lưu trữ, dữ liệu và danh mục hiện có, cho phép các tổ chức xây dựng dựa trên các nguồn lực hiện tại của họ trong khi vẫn duy trì một mô hình quản trị được kiểm chứng trong tương lai.

Không chỉ vậy, các nhà lãnh đạo CNTT cũng nên xem xét một số tiêu chí khi nói đến việc hiện đại hóa kho dữ liệu của họ. Chúng bao gồm việc họ muốn một dịch vụ được quản lý hay tự quản lý, độ tin cậy của sản phẩm để giảm thiểu thời gian chết, trình kết nối chất lượng cao để đảm bảo truy cập nhanh vào dữ liệu và bảng, dịch vụ và hỗ trợ khách hàng nhanh chóng và khả năng hoạt động của sản phẩm để xử lý khối lượng lớn dữ liệu.

Các nhà lãnh đạo cũng nên xem xét tầm quan trọng của các nền tảng mở, có thể mở rộng cho phép tích hợp nhanh chóng với các công cụ dữ liệu mà họ lựa chọn và cho phép họ kết nối với dữ liệu ở bất cứ nơi đâu.

Cuối cùng, Jasani lưu ý, cần có một hệ thống linh hoạt và hiệu suất cao hỗ trợ một loạt các ứng dụng dữ liệu, bao gồm phân tích SQL, real-time streaming, khoa học dữ liệu và machine learning. Một trong những sai lầm phổ biến nhất là sử dụng nhiều hệ thống một lúc, bao gồm data lake, các data warehouse riêng biệt và các hệ thống chuyên biệt khác để streaming, phân tích hình ảnh và các mục đích khác.

Về VTI Cloud

VTI Cloud là Đối tác cấp cao (Advanced Consulting Partner) của Amazon Web Services (AWS) và Đối tác vàng (Gold Partner) của Microsoft. Với đội ngũ hơn 100+ kỹ sư về giải pháp được chứng nhận bởi AWS và Microsoft, cùng hàng trăm dự án lớn, VTI Cloud tự hào là đơn vị tiên phong trong việc tư vấn giải pháp, phát triển phần mềm và triển khai hạ tầng cho khách hàng tại Việt Nam và Nhật Bản.

Nguồn: https://list23.com/ 

Related news

what’s up at VTI