Mục lục
- Giới thiệu về Phi-4
- Đặc điểm kỹ thuật của Phi-4
- Cải tiến trong kiến trúc Transformer
- Hiệu suất của Phi-4
- Xu hướng mô hình ngôn ngữ nhỏ mở nguồn
- Kết luận
1. Giới thiệu về Phi-4
Microsoft vừa công bố mã nguồn mở cho Phi-4, một mô hình ngôn ngữ nhỏ (SLM) có khả năng tạo văn bản và giải các bài toán. Phi-4 là phiên bản thứ tư trong dòng SLM được Microsoft giới thiệu từ năm 2023. Ban đầu, mô hình này chỉ được cung cấp thông qua dịch vụ phát triển trí tuệ nhân tạo Azure Foundry của Microsoft, nhưng hiện tại đã có thể tải về trên Hugging Face, một nền tảng phổ biến dành cho các dự án AI mã nguồn mở.
2. Đặc điểm kỹ thuật của Phi-4
Phi-4 sở hữu 14 tỷ tham số, các cấu hình cài đặt quyết định cách một mạng nơ-ron xử lý dữ liệu. Các nhà nghiên cứu của Microsoft đã huấn luyện mô hình này trong 21 ngày trên một cụm gồm 1.920 bộ xử lý đồ họa H100 của Nvidia Corp.
Mô hình này dựa trên kiến trúc Transformer, một tiêu chuẩn công nghiệp được hầu hết các mô hình ngôn ngữ lớn hỗ trợ. Khi nhận được một yêu cầu từ người dùng, các mô hình Transformer sẽ chia đầu vào thành các từ riêng lẻ và xác định ý nghĩa của mỗi từ bằng cách phân tích văn bản xung quanh. Chúng cũng ưu tiên các phần văn bản được coi là phù hợp nhất.
3. Cải tiến trong kiến trúc Transformer
Phi-4 sử dụng biến thể "decoder-only" của kiến trúc Transformer. Mô hình Transformer tiêu chuẩn phân tích văn bản trước và sau một từ để xác định ý nghĩa. Ngược lại, các mô hình "decoder-only" chỉ tập trung vào văn bản đứng trước từ đó, giúp giảm lượng dữ liệu cần xử lý và do đó giảm chi phí suy luận.
Microsoft cũng đã áp dụng hai kỹ thuật tối ưu hóa sau đào tạo để cải thiện chất lượng đầu ra của Phi-4: tối ưu hóa ưu tiên trực tiếp và tinh chỉnh dựa trên giám sát. Cả hai kỹ thuật này đều cung cấp cho mô hình ngôn ngữ các ví dụ giải thích cách nó nên phản hồi các yêu cầu.
4. Hiệu suất của Phi-4
Trong một đánh giá nội bộ, Microsoft đã so sánh Phi-4 với Llama 3.3 70B, một mô hình ngôn ngữ lớn có số lượng tham số gấp 5 lần. Microsoft cho biết Phi-4 đạt hiệu suất tốt hơn trên các bộ dữ liệu thử nghiệm phổ biến GPQA và MATH. Hai bộ dữ liệu này lần lượt chứa các câu hỏi khoa học và các bài toán.
5. Xu hướng mô hình ngôn ngữ nhỏ mở nguồn
Phi-4 gia nhập danh sách ngày càng tăng các mô hình ngôn ngữ nhỏ được các công ty công nghệ lớn mở nguồn trong năm qua.
Tháng 2, Google giới thiệu một bộ các mô hình ngôn ngữ nhỏ gọi là Gemma, với số lượng tham số từ 2 đến 27 tỷ. Theo Google, phiên bản 27 tỷ tham số có thể vượt trội hơn các mô hình có kích thước gấp đôi nó.
Gần đây hơn, Meta Platforms đã phát hành hai mô hình Llama 3.2 với ít hơn 5 tỷ tham số. Công ty tiếp tục mở nguồn các phiên bản hiệu quả hơn của các mô hình này. Các phiên bản này sử dụng kỹ thuật học máy gọi là lượng tử hóa, giúp nén dữ liệu mà mạng nơ-ron xử lý, giảm yêu cầu về phần cứng.
6. Kết luận
Việc Microsoft mở nguồn Phi-4 đánh dấu một bước tiến quan trọng trong xu hướng phát triển các mô hình ngôn ngữ nhỏ, mạnh mẽ và dễ tiếp cận. Với khả năng giải quyết các bài toán và tạo văn bản hiệu quả, Phi-4 hứa hẹn sẽ đóng góp vào sự phát triển của trí tuệ nhân tạo trong nhiều lĩnh vực khác nhau. Xu hướng này cũng cho thấy các công ty công nghệ lớn đang ngày càng chú trọng đến việc chia sẻ và hợp tác trong cộng đồng AI mã nguồn mở.
0 comments Blogger 0 Facebook
Đăng nhận xét