Xây dựng mạng lưới AI quy mô lớn tại Meta: Hành trình chinh phục thách thức

Mục lục

Giới thiệu
Kiến trúc mạng lưới cho huấn luyện AI phân tán
- Sự tách biệt Frontend và Backend
- Khu vực AI (AI Zone)
Điều hướng luồng dữ liệu huấn luyện
- ECMP và Path Pinning
- Mở rộng Queue Pair
Kiểm soát tắc nghẽn
- Điều chỉnh DCQCN
- Quản lý lưu lượng dựa trên đầu thu
Hướng phát triển tương lai
Kết luận

Giới thiệu

Sự phát triển của AI, đặc biệt là huấn luyện AI phân tán, đang tạo áp lực lớn lên cơ sở hạ tầng mạng của trung tâm dữ liệu. Để đáp ứng nhu cầu ngày càng tăng này, Meta đã nghiên cứu và phát triển một mạng lưới AI quy mô lớn, hiệu suất cao dựa trên công nghệ RoCEv2. Bài viết này sẽ trình bày chi tiết về thiết kế, triển khai và vận hành mạng lưới này, đồng thời nêu bật những thách thức và giải pháp mà Meta đã thực hiện.

Kiến trúc mạng lưới cho huấn luyện AI phân tán

Sự tách biệt Frontend và Backend

Để tối ưu hóa hiệu suất, Meta đã thiết lập hai mạng độc lập: Frontend (FE) và Backend (BE). FE đảm nhận các tác vụ như tiếp nhận dữ liệu, checkpointing và logging, trong khi BE tập trung vào việc kết nối các GPU phục vụ cho huấn luyện.

Khu vực AI (AI Zone)

Ban đầu, Meta sử dụng cấu trúc hình sao đơn giản với một switch trung tâm. Tuy nhiên, để mở rộng quy mô và tăng cường khả năng sẵn sàng, Meta đã chuyển sang kiến trúc fabric-based với cấu trúc Clos hai tầng, gọi là AI Zone.

Trong AI Zone, các switch RTSW đóng vai trò là switch lá, kết nối các GPU trong cùng một rack. Switch CTSW ở tầng lõi kết nối tất cả các rack trong cluster, tạo ra kết nối không bị chặn giữa các GPU.

Để đáp ứng nhu cầu huấn luyện các mô hình ngôn ngữ lớn (LLM) như Llama, Meta đã mở rộng kết nối RoCE ra ngoài phạm vi AI Zone bằng cách sử dụng switch ATSW. ATSW kết nối các CTSW trong trung tâm dữ liệu, cho phép mở rộng quy mô GPU.

Điều hướng luồng dữ liệu huấn luyện

ECMP và Path Pinning

Ban đầu, Meta sử dụng ECMP để cân bằng tải lưu lượng mạng. Tuy nhiên, do đặc thù luồng dữ liệu huấn luyện AI có entropy thấp, ECMP không mang lại hiệu quả cao. Giải pháp thay thế là path pinning, định tuyến gói tin dựa trên lát đích.

Tuy nhiên, path pinning bộc lộ hạn chế khi rack được phân bổ cho nhiều job, dẫn đến phân bố lưu lượng không đồng đều và tắc nghẽn. Nâng cấp băng thông RTSW là giải pháp tạm thời cho vấn đề này.

Mở rộng Queue Pair

Để cải thiện hiệu suất ECMP, Meta đã áp dụng kỹ thuật mở rộng Queue Pair (QP). Bằng cách sử dụng E-ECMP và mở rộng QP, Meta đã tăng số lượng luồng dữ liệu cho các tập hợp phân cấp, từ đó cải thiện hiệu suất AllReduce lên tới 40%.

Kiểm soát tắc nghẽn

Điều chỉnh DCQCN

Meta đã thử nghiệm điều chỉnh DCQCN để thích ứng với tốc độ và cấu trúc liên kết mạng 400G. Tuy nhiên, do lỗi trong firmware, hiệu suất bị giảm sút.

Quản lý lưu lượng dựa trên đầu thu

Để giảm thiểu tắc nghẽn, Meta đã đồng thiết kế thư viện kết nối và RoCE để thực thi quản lý lưu lượng dựa trên đầu thu. Cơ chế này giới hạn lưu lượng trên mạng, đặc biệt khi bắt đầu xuất hiện tắc nghẽn.

Hướng phát triển tương lai

Với sự phát triển nhanh chóng của GenAI, Meta sẽ tiếp tục cải tiến cơ sở hạ tầng mạng, tập trung vào việc tối ưu hóa thuật toán kiểm soát tắc nghẽn và thích ứng với khối lượng công việc huấn luyện AI ngày càng phức tạp.

Kết luận

Thông qua việc tách biệt mạng FE và BE, áp dụng các phương pháp định tuyến hiệu quả và tối ưu hóa luồng dữ liệu, Meta đã xây dựng được một mạng lưới AI quy mô lớn, hiệu suất cao và đáng tin cậy. Những nỗ lực này góp phần thúc đẩy sự phát triển của cơ sở hạ tầng huấn luyện AI phân tán, đáp ứng nhu cầu ngày càng tăng của kỷ nguyên AI.

Xây dựng mạng lưới AI quy mô lớn tại Meta: Hành trình chinh phục thách thức