Triển khai Mô hình Ngôn ngữ lớn DBRX trên Oracle Cloud Infrastructure với NVIDIA NIM và Delta Sharing

Mục lục:

Kiến trúc tổng thể
Quá trình thu thập dữ liệu
Oracle AI Stack
NVIDIA Inference Microservices
Oracle Cloud Infrastructure
DBRX: Mô hình ngôn ngữ lớn tiên tiến
Delta Sharing: Chia sẻ dữ liệu an toàn
Quá trình triển khai trên OCI
Lợi ích chính
Kết luận

1. Kiến trúc tổng thể

Bài viết này giới thiệu về việc triển khai mô hình ngôn ngữ lớn (LLM) DBRX trên Oracle Cloud Infrastructure (OCI) sử dụng NVIDIA Inference Microservices (NIM) và Delta Sharing. Kiến trúc được thiết kế để xử lý dữ liệu quy mô lớn từ nhiều nguồn khác nhau, sau đó được sử dụng trong luồng công việc tạo nội dung kết hợp truy xuất thông tin (RAG) - retrieval-augmented generation (RAG). DBRX LLM được triển khai sử dụng dịch vụ NVIDIA NIM trên NVIDIA L40S trên OCI. Kiến trúc đã được xác minh trên NVIDIA H100 chạy trên OCI.

2. Quá trình thu thập dữ liệu

Luồng công việc này bao gồm các giai đoạn xử lý dữ liệu, tạo vector nhúng, truy vấn và suy luận trong phạm vi các dịch vụ OCI.

Nguồn dữ liệu: Thu thập dữ liệu từ nhiều nguồn khác nhau, bao gồm internet, OCI FastConnect, OCI-Azure Interconnect và IPSec VPN. OCI backbone được sử dụng cho việc kết nối mạng VCN trong và giữa các vùng.
Xử lý dữ liệu: Dữ liệu được xử lý bởi các instance Compute dày đặc, tạo ra các vector nhúng cho từng đoạn văn bản.
Cơ sở dữ liệu vector Oracle: Các vector nhúng và đoạn văn bản được đưa vào cơ sở dữ liệu vector chuyên dụng Oracle 23ai. Các truy vấn được tạo dựa trên các vector nhúng này.
Mô hình nhúng: Mô hình nhúng tạo ra các vector nhúng cho đoạn văn bản và truy vấn, hỗ trợ hiệu quả cho việc truy vấn và lấy thông tin.
Cụm suy luận: Cụm tính toán hỗ trợ GPU NVIDIA được sử dụng cho việc suy luận mạng thần kinh và phục vụ mô hình (NIMS). Mô-đun này sử dụng DBRX LLM mã nguồn mở của Databricks và thực hiện các chức năng:
- Trả về các đoạn văn bản dựa trên truy vấn
- Tạo ngữ cảnh từ các đoạn văn bản
- Cung cấp ngữ cảnh từ các đoạn văn bản cho mô hình suy luận
Trả về kết quả suy luận: Giai đoạn cuối cùng là đưa ra kết quả suy luận, hoàn thành luồng công việc.

3. Oracle AI Stack

Oracle AI Stack được thiết kế để tích hợp liền mạch với các ứng dụng khác nhau, từ các ứng dụng Fusion và NetSuite đến các ứng dụng của bên thứ ba và các giải pháp ngành. Nó sử dụng các khả năng AI tạo sinh và AI cổ điển được nhúng trong toàn bộ cơ sở hạ tầng AI.

Oracle cung cấp các dịch vụ sau đây cho việc sử dụng AI:

Các ứng dụng Fusion
Fusion Analytics
NetSuite
Các ứng dụng ngành
Các ứng dụng của bên thứ ba: Các ứng dụng này tích hợp các khả năng AI tạo sinh và AI cổ điển được nhúng, cho thấy phạm vi rộng lớn của các giải pháp phần mềm sử dụng công nghệ AI.

Các dịch vụ AI sau đây có khả năng GenAI:

AI tạo sinh: Các khả năng AI tạo sinh mới được giới thiệu
GenAI Agents: Các tác nhân mới được giới thiệu tận dụng GenAI.
Trợ lý kỹ thuật số: Trợ lý ảo do AI điều khiển
Âm thanh: Các dịch vụ AI tập trung vào nhận dạng và xử lý giọng nói
Ngôn ngữ: Các dịch vụ AI cho xử lý ngôn ngữ tự nhiên
Hình ảnh: Các dịch vụ AI cho phân tích hình ảnh và video
Hiểu tài liệu: AI cho xử lý và hiểu tài liệu

Các dịch vụ sau đây cung cấp các tính năng học máy (ML) và GenAI cho các nền tảng dữ liệu:

Tìm kiếm vector cơ sở dữ liệu Oracle: Các khả năng tìm kiếm vector mới được giới thiệu trong cơ sở dữ liệu Oracle
Cơ sở dữ liệu tự động lựa chọn AI: Các khả năng AI mới được giới thiệu trong cơ sở dữ liệu tự động của Oracle
MySQL HeatWave Store và GenAI: Tích hợp các khả năng GenAI với MySQL HeatWave Store
Khoa học dữ liệu: Các nền tảng và công cụ cho các luồng công việc khoa học dữ liệu
ML trong cơ sở dữ liệu Oracle: Các khả năng học máy được nhúng trong cơ sở dữ liệu Oracle
MySQL HeatWave AutoML: Học máy tự động trong MySQL HeatWave
Ghi nhãn dữ liệu: Các công cụ và dịch vụ để ghi nhãn dữ liệu cho học máy

Các dịch vụ sau đây cung cấp cơ sở hạ tầng AI:

Tính toán GPU: Các lựa chọn khác nhau, bao gồm bare metal, máy ảo (VM) và cụm Kubernetes
Lưu trữ: Bao gồm lưu trữ khối, đối tượng, tệp và hệ thống tệp tính toán hiệu năng cao (HPC)
Siêu cụm: Kết nối mạng cụm hỗ trợ tối đa 64K GPU sử dụng giao thức RoCEv2 (RDMA của mạng cụm)

4. NVIDIA Inference Microservices

NVIDIA NIM là một dịch vụ container hóa, mô-đun được tối ưu hóa để triển khai và mở rộng quy mô các tải trọng suy luận AI. Nó bao gồm các lợi ích sau:

Khả năng mở rộng quy mô: Dễ dàng mở rộng quy mô các dịch vụ để xử lý các tải trọng thay đổi
Linh hoạt: Triển khai và cập nhật các dịch vụ độc lập
Hiệu quả: Tối ưu hóa việc sử dụng tài nguyên và giảm độ trễ

NIM nâng cao năng suất của nhà phát triển và hiệu quả cơ sở hạ tầng, cho phép các doanh nghiệp tối đa hóa khoản đầu tư của họ. Ví dụ, việc chạy Meta Llama 3-8B trong NIM tạo ra nhiều hơn gấp ba lần số token AI tạo sinh trên cơ sở hạ tầng được tăng tốc so với không sử dụng NIM.

5. Oracle Cloud Infrastructure

OCI là đám mây thế hệ thứ 2 cung cấp phương pháp tiếp cận khác biệt với sự đổi mới cao, tính linh hoạt và tổng chi phí sở hữu (TCO) thấp nhất so với các nhà cung cấp đám mây và siêu quy mô khác. Nó hỗ trợ đổi mới AI và ML mạnh mẽ thông qua chiến lược AI đầy đủ, bao gồm cơ sở hạ tầng, nền tảng và phần mềm dưới dạng dịch vụ (IaaS, PaaS và SaaS).

OCI bao gồm các điểm nổi bật chính sau:

Bare metal NVIDIA GPU đào tạo và suy luận IaaS
Băng thông cao (RoCEv2): 3200 Gbps mỗi nút
Lưu trữ NVMe: 61,4 TB mỗi nút, dẫn đến hiệu suất vượt trội
Kích thước cụm: 1–8.000 nút
Số lượng GPU trong một cụm: 8–64.000 GPU NVIDIA

6. DBRX: Mô hình ngôn ngữ lớn tiên tiến

DBRX là một LLM dựa trên bộ biến đổi, chỉ giải mã với kiến trúc hỗn hợp chuyên gia (MoE) chi tiết, có 132 tỷ tham số với 36 tỷ tham số hoạt động trên bất kỳ đầu vào nào. Nó vượt trội so với các mô hình MoE mở khác như Mixtral và Grok-1 do số lượng chuyên gia nhỏ hơn và chất lượng mô hình được cải thiện.

DBRX sử dụng các kỹ thuật tiên tiến, chẳng hạn như mã hóa vị trí xoay (RoPE), đơn vị tuyến tính có cửa (GLU) và chú ý truy vấn nhóm (GQA). Nó được đào tạo trước trên 12 nghìn tỷ token dữ liệu văn bản và mã, sử dụng bộ phân tách GPT-4 để tối ưu hóa hiệu suất.

7. Delta Sharing: Chia sẻ dữ liệu an toàn

Delta Sharing là một giao thức mở để chia sẻ dữ liệu an toàn và liền mạch giữa các tổ chức và nền tảng, hoạt động với Delta Lake để đảm bảo độ tin cậy và hiệu suất. Nó ưu tiên các khái niệm cốt lõi sau:

Nhà cung cấp: Các thực thể chia sẻ dữ liệu
Chia sẻ: Các nhóm hợp lý các bảng từ bảng Delta Lake
Người nhận: Cá nhân truy cập dữ liệu được chia sẻ

Các lợi thế chính của Delta Sharing bao gồm chia sẻ dữ liệu trực tiếp, không sao chép dữ liệu, độc lập nền tảng và quản trị an toàn.

8. Quá trình triển khai trên OCI

Việc triển khai DBRX LLM trên OCI bao gồm các bước sau:

Thiết lập ban đầu
Cung cấp các instance Compute hiệu suất cao
Cấu hình các giải pháp lưu trữ có khả năng mở rộng
Thiết lập mạng an toàn
Tích hợp với NVIDIA NIM
Container hóa bằng cách sử dụng Docker và Kubernetes
Triển khai và mở rộng quy mô các microservice cho các tác vụ suy luận khác nhau
Chi tiết kỹ thuật
Khả năng mở rộng quy mô thông qua tự động mở rộng quy mô và cân bằng tải
Tối ưu hóa hiệu quả và hiệu suất

9. Lợi ích chính

Việc triển khai DBRX LLM trên OCI với NVIDIA NIM mang lại những lợi ích sau:

Khả năng mở rộng quy mô: Khả năng mở rộng quy mô liền mạch để xử lý các tải trọng thay đổi
Hiệu quả: Các dịch vụ suy luận thời gian thực hiệu suất cao
Bảo mật: Nền tảng mạnh mẽ với các tính năng bảo mật toàn diện

Nhóm Giải pháp AI Kỹ thuật đám mây Bắc Mỹ của OCI đã tự động hóa toàn bộ việc triển khai bằng cách sử dụng API và terraform.

10. Kết luận

Bài thuyết trình này nhấn mạnh sự đồng điệu giữa OCI và các khả năng AI của NVIDIA, làm nổi bật cách kết hợp mạnh mẽ này tạo điều kiện thuận lợi cho việc xử lý hiệu quả dữ liệu quy mô lớn và các tải trọng AI tiên tiến. Quá trình triển khai trên OCI đảm bảo khả năng mở rộng quy mô, hiệu quả và bảo mật, làm cho nó trở thành lựa chọn lý tưởng cho các doanh nghiệp muốn sử dụng các giải pháp AI tiên tiến.

Để biết thêm thông tin và thử nghiệm NVIDIA NIM trên Oracle Cloud Infrastructure, hãy truy cập NVIDIA AI và Oracle Cloud Infrastructure.

Triển khai Mô hình Ngôn ngữ lớn DBRX trên Oracle Cloud Infrastructure với NVIDIA NIM và Delta Sharing