CPU: Lựa chọn hiệu quả cho ứng dụng Generative AI
Mục lục:
- RAG với Vector Embeddings trên CPU
- Hiệu suất: Chạy mô hình Embeddings trên CPU
- Lời chứng thực
- Bắt đầu
- Tài liệu tham khảo
1. RAG với Vector Embeddings trên CPU
Retrieval Augmented Generation (RAG) là phương pháp phổ biến để cá nhân hóa phản hồi của mô hình ngôn ngữ lớn (LLM) bằng dữ liệu tùy chỉnh. Hầu hết các công ty bắt đầu với mô hình ngôn ngữ lớn được đào tạo sẵn và sau đó tăng cường phản hồi bằng dữ liệu phù hợp với doanh nghiệp mà không cần phải tinh chỉnh lại toàn bộ mô hình LLM. RAG hiện nay là kỹ thuật phổ biến được các kỹ sư AI sử dụng để tăng cường tính phù hợp của mô hình trong môi trường dữ liệu đang phát triển nhanh chóng, nhờ vào tính linh hoạt và dễ triển khai.
Để thực hiện RAG, các công ty cần xác định chiến lược vector embeddings của mình. Sử dụng embeddings là một cách để biểu diễn dữ liệu: Lấy dữ liệu đầu vào, chẳng hạn như PDF và tệp văn bản, và chuyển đổi chúng sang định dạng số với các mối quan hệ ngữ nghĩa. Những vector ở định dạng số này được lưu trữ trong cơ sở dữ liệu vector, chẳng hạn như Oracle 23 AI hoặc Chroma DB, và cần một mô hình LLM chuyên biệt về embeddings để thực hiện nhiệm vụ. Mô hình LLM Embeddings thường có kích thước nhỏ (dưới 1 GB), khiến CPU trở thành lựa chọn cơ sở hạ tầng tiết kiệm chi phí và năng lượng.
2. Hiệu suất: Chạy mô hình Embeddings trên CPU
Chúng tôi đã thực hiện đánh giá hiệu suất mở rộng sử dụng CPU Ampere A1 được tối ưu hóa. Sử dụng 80 lõi A1, chúng tôi có thể xử lý 1 GB dữ liệu văn bản embeddings trong vòng chưa đầy 7 phút, tương đương khoảng 1,4 đô la cho 10 GB vector hóa dữ liệu. Với tính toán phù hợp và khả năng sẵn có trên toàn cầu của Ampere A1, bạn có thể triển khai một instance OCI Compute trong khu vực lựa chọn và điều chỉnh quy mô dung lượng CPU một cách linh hoạt dựa trên nhu cầu embeddings của bạn.
3. Lời chứng thực
Là một phần trong cam kết đổi mới và khai thác giá trị của CPU trong lĩnh vực Generative AI, OCI và Ampere Computing đang tích cực làm việc để mở rộng hỗ trợ kịch bản với khách hàng và đối tác hệ sinh thái:
- Lampi AI: Guillaume Couturas, CEO của Lampi, chia sẻ: Tại Lampi, chúng tôi cam kết mạnh mẽ với hiệu quả và tính bền vững trong triển khai AI ở quy mô sản xuất. Cách tiếp cận kết hợp của chúng tôi sử dụng CPU thay cho GPU cho nhiều quy trình kinh doanh giúp hợp tác của chúng tôi với OCI và Ampere Computing trở nên có giá trị. Thực tế, trong khi hiệu suất của GPU ấn tượng đối với suy luận trực tiếp và tốc độ thực thi, chúng tôi tin rằng nhiều nhiệm vụ AI có thể được phân bổ cho CPU hiệu quả năng lượng hơn, xét rằng nhiều quy trình kinh doanh không yêu cầu suy luận tức thời và có thể được quản lý hiệu quả bằng AI theo cách bất đồng bộ, bao gồm cả ứng dụng RAG. Để minh họa điều này, trên nền tảng của chúng tôi chạy với Ampere A1 trên OCI, một tác nhân AI lý luận có thể thực hiện phân tích thị trường toàn diện, bao gồm nhiều truy vấn thông qua đường ống RAG, chỉ trong 5 phút 31 giây. Ngay cả trên GPU, quy trình tác nhân thường kéo dài thời gian cần thiết để có được câu trả lời, xét đến số lượng suy luận từ tác nhân thực hiện nhiều tìm kiếm. Tương tự, các tác nhân AI được giám sát chạy trên CPU có thể được hình dung để tự động thực hiện các nhiệm vụ hàng tuần trùng lặp dựa trên RAG, chẳng hạn như phân tích danh mục đầu tư hàng tháng, đánh giá hiệu suất, phân loại bản ghi, phân tích phản hồi của khách hàng và nghiên cứu thị trường. Khi chúng ta đứng trên bờ vực của một kỷ nguyên mới trong AI và điện toán, chúng tôi cho rằng hợp tác của chúng ta là một bản thiết kế cho ngành AI và các công ty để phân bổ sức mạnh tính toán hiệu quả hơn, chứng minh rằng có thể đạt được sự xuất sắc về công nghệ mà không ảnh hưởng đến tính toàn vẹn môi trường.
- Wallaroo AI: Younes Amar, Phó chủ tịch sản phẩm tại Wallaroo, chia sẻ: Wallaroo có thể cho phép triển khai và quản lý các mô hình embeddings có sẵn trên bảng HuggingFace, trực tiếp trên Ampere, mà không cần bất kỳ thao tác phần cứng hoặc cơ sở hạ tầng nào. Ngoài ra, khả năng tự động hóa khối lượng công việc suy luận và bộ công cụ tích hợp của Wallaroo cung cấp hỗ trợ cho hầu hết các cơ sở dữ liệu vector hiện nay, làm phong phú cơ sở dữ liệu vector với nhiều ngữ cảnh và embeddings, theo yêu cầu và theo lịch trình, khi dữ liệu mới có sẵn. Kết quả là, các nhà khoa học dữ liệu và kỹ sư AI xây dựng và triển khai LLM trong sản xuất có thể đảm bảo vòng phản hồi chặt chẽ và liên tục cải thiện chất lượng của LLM chạy trong sản xuất với khối lượng hoạt động thấp. Trong tháng tới, chúng tôi sẽ công bố giải pháp RAG LLM đầy đủ bao gồm điểm cuối suy luận trực tiếp để cung cấp năng lượng cho các trường hợp sử dụng chatbot thời gian thực và làm phong phú cơ sở dữ liệu ngữ cảnh bằng cách sử dụng cơ sở dữ liệu vector. Chúng tôi có kế hoạch tận dụng tích hợp llama-cpp đầy đủ của chúng tôi trên Ampere và 23ai của Oracle để đảm bảo sự tương thích của Wallaroo với hệ sinh thái dữ liệu và AI trong OCI và làm nổi bật hiệu quả hoạt động mà chúng tôi có thể mang lại với sự tích hợp này.
4. Bắt đầu
Để bắt đầu với Ampere trên OCI, khách hàng hiện tại có thể khởi chạy hình ảnh hệ điều hành tùy chỉnh trong Oracle Cloud Marketplace với cả hỗ trợ Oracle Linux và Ubuntu. Hình ảnh được đóng gói với các ứng dụng bao gồm giao diện người dùng trò chuyện để giúp bạn triển khai và xác thực các LLM OSS như Llama 3 8B trên instance Ampere.
5. Tài liệu tham khảo
- Democratizing Generative AI with CPU-based Inference
- Introducing Meta Llama 3 on OCI Ampere A1: A testament to CPU-Based Model Inference
- LLM Inference with Ampere-based OCI A1 Product Page (amperecomputing.com)
- Benchmark scripts to reproduce the performance results and public access to optimized llama.cpp Ampere containers

0 comments Blogger 0 Facebook
Đăng nhận xét