see more blog

Nâng cấp chiến lược Big Data của doanh nghiệp với Data Lakehouse và Data Mesh


Tìm hiểu về cách doanh nghiệp có thể tối giản chi phí và quy trình khi dịch chuyển dữ liệu lên data lakehouse và datamesh.

Theo một khảo sát từ MIT Technology Review, 47% trong tổng số 351 người đang làm trong vị trí Data Executive cho rằng việc giảm thiểu số dữ liệu trùng lặp được coi là yếu tố chính quyết định đến thành công cho các sáng kiến về chiến lược dữ liệu. Dữ liệu của chúng tôi cũng công nhận điều tương tự, khi có khoảng 50% tổ chức vẫn thường sao chép hệ thống dữ liệu giao dịch từ warehouse sang data lake (một số trường hợp còn sao chép hằng ngày). Hệ quả từ việc đó là chi phí dịch chuyển dữ liệu cao, ảnh hưởng đến độ trễ trong việc tải dữ liệu (data latency) cũng như độ tín nhiệm của hệ thống (reliability).

Hiện nay, các hệ thống dữ liệu giao dịch thường hoạt động giữa data warehouse và các cơ sở dữ liệu (CSDL) hoạt động như Oracle, Microsoft SQL hay PostgreSQL (một CSDL OSS phổ biến). Mặt khác, học máy (machine learning) và phân tích dữ liệu đã thường xuyên xuất hiện trong data lake hay thậm chí là data warehouse kể từ thập niên 90s. Tuy nhiên, dù cho doanh nghiệp của bạn đã “bắt kịp” theo xu hướng chung, bạn cũng có thể thấy sự gia tăng của chi phí liên quan tới ETL (trích xuất, dịch chuyển và tải dữ liệu), truy cập cũng như là quản lý dữ liệu.

Bạn có thể giảm thiểu chi phí cho ETL cũng như tối đa hóa lợi nhuận từ những khoản đầu tư cho dữ liệu bằng việc dịch chuyển toàn bộ dữ liệu hiện tại sang data lake. Bạn có thể chuẩn bị dữ liệu theo logic mà doanh nghiệp bạn mong muốn và lưu trữ cho các ứng dụng cũng như sử dụng cho các báo cáo. Cách tiếp cận này cho phép bạn tìm đến dữ liệu mà doanh nghiệp bạn cần thay vì phải liên tục tái đầu tư cho việc xử lý dữ liệu – điều gây ảnh hưởng tới việc vận hành hiện tại rất nhiều. Tôi cho rằng bạn nên lo lắng về chi phí cho việc lưu trữ dữ liệu, khi chi phí đã bắt đầu thấp hơn rất nhiều khi dịch chuyển lên hạ tầng đám mây. Cùng với đó, nếu bạn có một data catalog, việc có toàn bộ dữ liệu trên data lake cũng giúp cho người dùng khám phá và sử dụng dữ liệu mà không tiêu tốn tài nguyên IT (ví dụ như là một phần của Power BI dashboard).

Tôi cho rằng bạn nên đảm bảo doanh nghiệp của bạn có thể hoạt động với phân tích real-time trên các CSDL hoạt động (ví dụ như CSDL trên server kiểu SQL hay non-SQL như Cosmos DB). Gartner Inc. định nghĩa việc phân tích này như một quá trình giao dịch/phân tích hybrid (HTAP), và rất nhiều nhà cung cấp cloud đang đầu tư vào các công cụ hỗ trợ đơn giản hóa việc tích hợp. Azure Synapse Link là một ví dụ tiêu biểu của HTAP.

Data Lakehouse

Dựa trên trải nghiệm của tôi tại Mỹ Latin, những nhà lãnh đạo dữ liệu thường đầu tư thời gian và công sức để có một nền tảng thống nhất, giúp giảm thiểu độ phức tạp trong kiến trúc phân tích, đồng thời nâng cao việc hợp tác giữa các vị trí trọng yếu như kỹ sư dữ liệu, nhà khoa học dữ liệu cũng như business analyst. Bằng việc đó, họ có thể giảm thiểu chi phí, vận hành hiệu quả hơn, tập trung vào các thách thức về mặt tổ chức doanh nghiệp và có khả năng thích nghi tốt trước những thay đổi diễn ra liên tục.

Một nền tảng thống nhất (a unified platform) cũng cho phép nhà khoa học dữ liệu nhanh chóng phát triển, triển khai và vận hành hóa các mô hình học máy. Cách tiếp cận này có thể làm giàu cho dữ liệu về tổ chức với các mô hình dự báo, tức là các business analyst có thể đưa công việc của các nhà khoa học dữ liệu vào trong báo cáo ở Power BI, chuyển các insights từ mô tả sang dự báo.

Các doanh nghiệp thường yêu cầu một trải nghiệm dễ dàng sử dụng khi lượng tải dữ liệu được xây dựng một cách có chủ đích và tích hợp sâu. Tiềm năng phát triển của kiến trúc dữ liệu của doanh nghiệp hiện nay có thể là khái niệm về data lakehouse được giới thiệu bởi Databricks vào năm 2020. Databricks đưa ra ý tưởng về một data lakehouse có khả năng hỗ trợ học máy và phân tích dữ liệu ở cùng một nơi, tránh đi các silo để cho phép khách hàng tin tưởng vào khả năng vận hành. Tôi tin rằng chỉ cần một data lakehouse cũng có thể giảm thiểu vấn đề dữ liệu trùng lặp, cho phép việc sử dụng hiệu quả các công cụ học máy trong doanh nghiệp của bạn.

Data Mesh

Một kiến trúc dữ liệu phân tích chạy trên một domain như data mesh (lưới dữ liệu) xứng đáng được cân nhắc để đưa vào chiến lược dữ liệu của bạn. Data mesh có thể giúp bạn hỗ trợ việc dân chủ hóa dữ liệu (data democratization), khi dữ liệu đang dần trở thành một sản phẩm của doanh nghiệp, và sản phẩm dữ liệu được cho phép để có những kiểu mẫu khác nhau (data product patterns).

Bạn có thể tưởng tượng về một đơn vị marketing trong một nhà bán lẻ mong muốn đưa ra một sản phẩm dữ liệu mô tả các sản phẩm bán chạy nhất của công ty. Mặt khác, đơn vị vận hành lại muốn tạo một mô hình theo yêu cầu (demand-like model), cân nhắc về việc đưa thêm thông tin về sản phẩm bán chạy của bên marketing. Với data mesh, đội IT có thể không cần dịch chuyển dữ liệu giữa các đơn vị kinh doanh và tạo những bản sao lưu rời rạc. Thay vào đó, đơn vị vận hành (hay mọi đơn vị nào khác trong doanh nghiệp) chỉ cần theo dõi sản phẩm dữ liệu của phòng marketing và đưa nó vào trong hoạt động phân tích của họ nếu cần.

Theo quan điểm của tôi, data mesh có thể phù hợp với mọi doanh nghiệp. Nó có thể làm việc tốt ở quy mô toàn cầu và trong các doanh nghiệp phức tạp cần đảm bảo các đơn vị doanh nghiệp của họ chia sẻ dữ liệu một cách hiệu quả (tránh việc trùng lặp dữ liệu) trong khi vẫn làm việc độc lập với nhau (ví dụ như mỗi quốc gia có những sản phẩm dữ liệu riêng và logic kinh doanh khác nhau theo từng miền).

Tôi có thể bắt đầu từ đâu?

Việc triển khai cả data lakehouse lẫn data mesh như một phần trong chiến lược dữ liệu trong doanh nghiệp sẽ là một hành trình dài, và tốt nhất nó không nên tác động tới hoạt động vận hành hiện tại của doanh nghiệp.

Lời khuyên của tôi đó là hãy bắt đầu ít nhất với các bước sau đây:

1. Định nghĩa được một tương lai theo ý bạn mong muốn qua việc liên kết chặt chẽ chúng với mục tiêu kinh doanh, phát triển con người và sự tiến hóa của quy trình doanh nghiệp.

2. Đưa ra một bài kiểm tra tình trạng dữ liệu để hiểu được tình trạng hoạt động doanh nghiệp hiện nay một cách thấu đáo.

3. Thực hiện một bài phân tích khoảng trống (gap analysis) để đo lường sự khác biệt giữa tình trạng hiện tại và tình trạng bạn mong muốn, nhận biết được những cơ hội và điểm yếu, cũng như tạo ra một lộ trình với những hành động rõ ràng.

4. Đánh giá các lựa chọn về data lake và thực hiện một pilot với use case bao gồm cả kỹ sư dữ liệu và nhà khoa học dữ liệu để chứng minh rằng dữ liệu có thể sử dụng để phát triển hệ thống AI.

5. Xử lý dữ liệu tại chỗ. Thay vì sử dụng một ETL truyền thống cho việc dịch chuyển dữ liệu lên data lakehouse, bạn có thể cân nhắc sử dụng TEL (dịch chuyển, trích xuất, và tải dữ liệu), xử lý dữ liệu trong các data store được phân bổ.

6. Kiến tạo một văn hóa data-driven trong doanh nghiệp, bao gồm cả với stakeholders và hội đồng quản trị.

7. Triển khai dịch vụ nền tảng cho data mesh và cho một đơn vị kinh doanh phát triển sản phẩm dữ liệu đầu tiên.

8. Đưa ra các dịch vụ quản trị dữ liệu (data governance) như data catalog, nhận biết việc sử dụng dữ liệu nhạy cảm và phân loại dữ liệu.

9. Đưa thêm 2 hoặc 3 đơn vị kinh doanh khác cùng triển khai các sản phẩm dữ liệu.

Lời kết

Việc phát triển kiến trúc dữ liệu cho doanh nghiệp của bạn bằng việc cân nhắc sử dụng data lakehouse và, nếu có thể, có thêm cả data mesh. Bạn cũng nên đưa ra một kim chỉ nam rõ ràng cho việc triển khai hoạt động phân tích dữ liệu hiện đại và như quản trị dữ liệu quy mô lớn, cùng với đó là việc gắn kết công nghệ, con người và quy trình lại để tạo ra một tổ chức intelligence-driven (IDO) hoàn hảo.

Nguồn: Pablo Junco từ forbes.com

Về VTI Cloud

 

VTI Cloud là Đối tác cấp cao (Advanced Consulting Partner) của Amazon Web Services (AWS) và Đối tác vàng (Gold Partner) của Microsoft. Với đội ngũ hơn 100+ kỹ sư về giải pháp được chứng nhận bởi AWS và Microsoft, cùng hàng trăm dự án lớn, VTI Cloud tự hào là đơn vị tiên phong trong việc tư vấn giải pháp, phát triển phần mềm và triển khai hạ tầng cho khách hàng tại Việt Nam và Nhật Bản.

Liên hệ với chúng tôi: Tại đây.

 

 

 

 

Related news

what’s up at VTI