“Khoảng 2/3 hệ thống tính toán của Lyft Level 5 hiện đang sử dụng Amazon EC2 Spot Instances. Chúng tôi đã có thể mở rộng khả năng tính toán một cách đáng kể trong khi giảm chi phí vận hành tổng thể lên đến 77%.” Timothy Perrett, Kỹ sư cấp cao tại Lyft Level 5 chia sẻ.
Giới thiệu về Lyft
Lyft là một trong những ứng dụng đặt xe lớn nhất ở Hoa Kỳ và Canada với sứ mệnh: cải thiện cuộc sống của mỗi người bằng dịch vụ giao thông tiên tiến nhất t thế giới. Bên cạnh với việc tập trung phát triển vào các dịch vụ như các chuyến đi chia sẻ (shared rides), hệ thống xe đạp chia sẻ (bikeshare system), xe scooter điện và quan hệ đối tác vận tải công cộng, Lyft đã ra mắt Dịch vụ xe lái tự động Level 5 – Level 5 autonomous vehicle (AV) vào năm 2017.
Để cải thiện hiệu suất và độ an toàn của hệ thống tự lái, Lyft phải thực hiện hàng triệu mô phỏng mỗi năm từ khối lượng lớn dữ liệu thu thập được từ hệ thống AV. Thực tế rằng, những mô phỏng này yêu cầu tính toán chuyên sâu và Lyft cần một hệ thống tính toán tỉ mỉ có thể tăng và giảm quy mô với một mức giá phải chăng. Kể từ khi ra mắt năm 2012, Lyft đã lựa chọn các dịch vụ của AWS cho nền tảng rideshare platform, và giờ đây họ tiếp tục sử dụng các dịch vụ của AWS để tăng năng lực điện toán và giảm chi phí.
Lựa chọn hoàn hảo cho các workload mô phỏng AV chính là sự kết hợp của Amazon Elastic Compute Cloud (Amazon EC2 ) Spot Instance và Amazon Elastic Kubernetes (Amazon EKS).
Thực hiện các mô phỏng trên Amazon EC2 Spot Instances
Việc chạy song song các mô phỏng trên hàng nghìn đơn vị xử lý đồ họa (GPU) là rất quan trọng đối với sự thành công của Lyft Level 5 trong việc thử nghiệm và cải thiện cách AV phản ứng với các tình huống lái xe khác nhau. Timothy Perrett, kỹ sư cấp cao tại Lyft Level 5, cho biết: “Mô phỏng là một trong những bước quan trọng để chúng tôi cải thiện độ an toàn của phần mềm trước khi nó hoạt động — thậm chí đó chỉ là một bản thử nghiệm.
Để có thể hiểu sâu được không gian mô phỏng, ví dụ như thay đổi tốc độ, vị trí hoặc động lực học của phương tiện, đòi hỏi chúng tôi phải thử nghiệm lặp đi lặp lại rất nhiều lần và do đó hệ thống phải có tính linh hoạt điện toán rất cao. Nhưng đồng thời, chúng tôi cần khả năng tăng size vào giai đoạn cao điểm và sau đó phải nhanh chóng được tắt đi khi không sử dụng.”.
Lyft có thể đầu tư các bộ xử lý trung tâm và GPU on premises, nhưng với những trải nghiệm sử dụng AWS cho các nền tảng trước đó, họ đã quyết định tiếp tục tin tưởng AWS cho hệ thống mới này. Đội ngũ kỹ sư cấp của Lyft Level 5 sử dụng Amazon EC2 On-Demand Instances kết hợp với Amazon EKS, một dịch vụ quản lý hoàn toàn Kubernetes do AWS cung cấp.
Sau khi thử nghiệm chạy mô phỏng bằng On-demand instances, đội kỹ sư nhanh chóng nhận ra rằng họ có thể cải thiện hiệu quả và giảm chi phí bằng cách chuyển sang Amazon EC2 Spot Instances. Hiện tại, hơn 90% mô phỏng được chạy trên Amazon EC2 Spot Instances, bao gồm Amazon EC2 P3 Instances được hỗ trợ bởi GPU NVIDIA V100 Tensor Core. Kết quả là Lyft đã giảm được 70% chi phí so với mức giá của On-demand Instances mà các hệ thống của họ vẫn phát triển khá nhanh chóng.
Giải pháp để hệ thống hoạt động hiệu quả
Đội kỹ sư phân phối workload mô phỏng để đảm bảo rằng mô phỏng vẫn chạy ngay cả khi Amazon EC2 Spot Instances không khả dụng, và quan sát các cụm clusters và các pools trong các cụm đó hoạt động hiệu quả như thế nào. Lyft đã sử dụng Amazon EKS để sắp xếp thứ tự ưu tiên và mở rộng resource pools để các chúng hoạt động được hiệu quả.
Họ cũng cẩn thận thiết kế các hệ thống sao cho các mô phỏng hoạt động trên nhiều phần cứng khác nhau tùy thuộc vào instances có sẵn. Perrett giải thích, “Chúng tôi đã nỗ lực rất nhiều để thiết kế stack của mình hoạt động trên bất kỳ loại instance nào khả dụng — ví dụ như Amazon EC2 P3 Instances có thể được thay bằng Amazon EC2 P2 Instances.” Sự linh hoạt này giúp Lyft tránh phải chờ đợi để lập lịch trình mô phỏng, ngay cả khi nhu cầu lên cao.
Lyft quản lý một lượng lớn dữ liệu thu thập được từ các mô phỏng và từ hệ thống AV. Họ sử dụng dịch vụ Amazon Simple Storage Service (Amazon S3) để lưu trữ và truy cập vào một tập dữ liệu ngày càng mở rộng khi tăng số lượng cảm biến trên các phương tiện thử nghiệm. Việc thu thập và lưu trữ tất cả dữ liệu từ các AV và mô phỏng của nó lên tới hàng petabyte dữ liệu và chuyển trực tiếp lượng dữ liệu đó lên đám mây, như họ đã làm trong những ngày đầu là rất tốn kém.
Để giảm chi phí đó, Lyft sử dụng AWS Direct Connect, một kết nối mạng chuyên dụng giữa trung tâm kỹ thuật của Level 5 và các hệ thống đám mây. Perrett lưu ý: “Chúng tôi có một mạng lưới dung lượng rất cao kết nối với những nơi chúng tôi vận hành đội AV của mình. Và sau đó, chúng tôi upload dữ liệu với chi phí thấp hơn nhiều cho mỗi petabyte.”
Bằng cách phân vùng cẩn thận và định hướng lưu lượng mô phỏng trên Amazon EC2 Spot Instances, Lyft Level 5 đã giảm chi phí mô phỏng xuống chỉ còn một vài xu cho mỗi lần thực hiện. Perrett cho biết: “Khoảng 77% hệ thống máy tính của chúng tôi trên toàn bộ Level 5 workload — và hơn 90% khối lượng công việc mô phỏng AV — hiện đang trên Amazon EC2 Spot Instances và tổng chi phí tiết kiệm được là khoảng ⅔. Chúng tôi đã có thể mở rộng đáng kể khả năng điện toán trong khi giảm chi phí vận hành tổng thể.”
Lợi ích của AWS
● Giảm 2/3 chi phí điện toán
● Tăng đáng kể khả năng tính toán
● Tăng tốc độ phát triển cho các hệ thống xe tự lái Autonomous Vehicle
Các dịch vụ sử dụng
Amazon Elastic Compute Cloud (Amazon EC2):
Là dịch vụ web cung cấp năng lực điện toán bảo mật và có kích cỡ linh hoạt trên đám mây. Dịch vụ này được thiết kế để giúp các nhà phát triển dễ sử dụng điện toán đám mây ở quy mô web hơn.
Amazon EC2 Spot Instance:
Cho phép bạn tận dụng mức công suất EC2 không sử dụng trong đám mây AWS. Sử dụng Spot Instances bạn có thể giảm tới 90% so với giá của On-demand Instances. Spot instances được sử dụng cho nhiều ứng dụng stateless và có tính linh hoạt cao.
Amazon Elastic Kubernetes Service (Amazon EKS):
Cung cấp cho bạn sự linh hoạt để khởi động, chạy và thay đổi quy mô các ứng dụng Kubernetes trong đám mây AWS hoặc tại chỗ. Amazon EKS giúp bạn cung cấp các cụm có tính sẵn sàng và bảo mật cao, đồng thời tự động hóa các tác vụ chính như vá lỗi, cung cấp nút và cập nhật. Các khách hàng như Intel, Snap, Intuit, GoDaddy và Autodesk tin dùng EKS để chạy các ứng dụng quan trọng và nhạy cảm nhất của họ.
Kết luận
Khả năng chạy hàng triệu mô phỏng song song báo hiệu những bước phát triển đầy hứa hẹn phía trước của Lyft Level 5. Sử dụng kết hợp Amazon EC2 Spot Instances và Amazon EKS, cùng với các dịch vụ AWS khác, Lyft đang đưa thế giới đến gần với một viễn cảnh mà xe tự lái cải thiện khả năng tiếp cận phương tiện giao thông an toàn và đáng tin cậy.
Lựa chọn chuyển đổi từ On-demand Instance sang Spot Instance đang là một trong những hướng đi giúp các doanh nghiệp tối ưu hóa được chi phí vận hành, mà vẫn đảm bảo được hoạt động kinh doanh diễn ra bình thường. Nếu doanh nghiệp bạn đang gặp vấn đề về chi phí cho EC2, hãy thử nghiệm chuyển đổi sang Spot Instances, chắc chắn doanh nghiệp của bạn sẽ tiết kiệm được chi phí rất đáng kể.
Về VTI Cloud
VTI Cloud là Đối tác cấp cao (Advanced Consulting Partner) của AWS, với đội ngũ hơn 50+ kỹ sư về giải pháp được chứng nhận bởi AWS. Với mong muốn hỗ trợ khách hàng trong hành trình chuyển đổi số và dịch chuyển lên đám mây AWS, VTI Cloud tự hào là đơn vị tiên phong trong việc tư vấn giải pháp, phát triển phần mềm và triển khai hạ tầng AWS cho khách hàng tại Việt Nam và Nhật Bản.
Xây dựng các kiến trúc an toàn, linh hoạt, hiệu suất cao, và tối ưu chi phí cho khách hàng là nhiệm vụ hàng đầu của VTI Cloud trong sứ mệnh công nghệ hóa doanh nghiệp.
Reference: https://aws.amazon.com/vi/solutions/case-studies/Lyft-level-5-spot/?nc1=f_ls