Điều chỉnh Mô hình Đa Phương Thức cho các Trường Hợp Sử dụng Hình ảnh và Văn bản trên Amazon SageMaker JumpStart
Mục lục
- Giới thiệu
- Tổng quan về mô hình Meta Llama 3.2 Vision 11B và 90B
- Bộ dữ liệu DocVQA
- Chuẩn bị bộ dữ liệu cho các nhiệm vụ hỏi đáp hình ảnh
- SageMaker JumpStart
- Tổng quan về giải pháp
- Điều kiện tiên quyết
- Điều chỉnh không cần mã thông qua giao diện người dùng SageMaker Studio
- Điều chỉnh bằng cách sử dụng SageMaker Python SDK
- Các chỉ số định lượng của việc tinh chỉnh
- Kết quả định tính của việc tinh chỉnh
- Dọn dẹp
- Kết luận
- Phụ lục
1. Giới thiệu
Trong bối cảnh phát triển nhanh chóng của AI, các mô hình generative đã nổi lên như một công nghệ mang tính biến đổi, trao quyền cho người dùng khám phá những chân trời mới của sự sáng tạo và giải quyết vấn đề. Những hệ thống AI tiên tiến này đã vượt xa khả năng dựa trên văn bản truyền thống của chúng, giờ đây tích hợp liền mạch các chức năng đa phương thức mở rộng phạm vi của chúng vào các ứng dụng đa dạng. Mô hình đa phương thức ngày càng mạnh mẽ, cho phép nhiều ứng dụng vượt ra ngoài việc chỉ tạo văn bản. Các mô hình này hiện có thể tạo ra những hình ảnh ấn tượng, tạo ra các bản tóm tắt hấp dẫn, trả lời các câu hỏi phức tạp và thậm chí tạo ra mã — tất cả đều duy trì mức độ chính xác và mạch lạc cao. Việc tích hợp các khả năng đa phương thức này đã mở ra những khả năng mới cho các doanh nghiệp và cá nhân, cách mạng hóa các lĩnh vực như tạo nội dung, phân tích hình ảnh và phát triển phần mềm.
2. Tổng quan về mô hình Meta Llama 3.2 Vision 11B và 90B
Bộ sưu tập các mô hình ngôn ngữ lớn (LLM) đa phương thức và đa ngôn ngữ Meta Llama 3.2 là một tập hợp các mô hình generative được đào tạo trước và được tinh chỉnh hướng dẫn ở nhiều kích thước khác nhau. Các mô hình 11B và 90B là đa phương thức — chúng hỗ trợ văn bản vào/văn bản ra và văn bản + hình ảnh vào/văn bản ra.
Meta Llama 3.2 11B và 90B là những mô hình Llama đầu tiên hỗ trợ các nhiệm vụ thị giác, với một kiến trúc mô hình mới tích hợp các biểu diễn mã hóa hình ảnh vào mô hình ngôn ngữ. Các mô hình mới được thiết kế để hiệu quả hơn đối với các khối lượng công việc AI, với độ trễ giảm và hiệu suất được cải thiện, làm cho chúng phù hợp với nhiều ứng dụng khác nhau. Tất cả các mô hình Meta Llama 3.2 đều hỗ trợ độ dài ngữ cảnh 128.000, duy trì khả năng mở rộng token được giới thiệu trong Meta Llama 3.1. Ngoài ra, các mô hình cung cấp hỗ trợ đa ngôn ngữ được cải thiện cho tám ngôn ngữ, bao gồm tiếng Anh, tiếng Đức, tiếng Pháp, tiếng Ý, tiếng Bồ Đào Nha, tiếng Hindi, tiếng Tây Ban Nha và tiếng Thái.
3. Bộ dữ liệu DocVQA
Bộ dữ liệu DocVQA (Document Visual Question Answering) là một điểm chuẩn được sử dụng rộng rãi để đánh giá hiệu suất của các mô hình AI đa phương thức đối với các nhiệm vụ hỏi đáp hình ảnh liên quan đến hình ảnh kiểu tài liệu. Bộ dữ liệu này bao gồm một bộ sưu tập đa dạng các hình ảnh tài liệu được ghép nối với một loạt các câu hỏi ngôn ngữ tự nhiên đòi hỏi cả sự hiểu biết về hình ảnh và văn bản để trả lời chính xác. Bằng cách tinh chỉnh một mô hình AI generative như Meta Llama 3.2 trên bộ dữ liệu DocVQA bằng cách sử dụng Amazon SageMaker, bạn có thể trang bị cho mô hình các kỹ năng chuyên môn cần thiết để xuất sắc trong việc trả lời các câu hỏi về nội dung và cấu trúc của thông tin hình ảnh dựa trên tài liệu phức tạp.
4. Chuẩn bị bộ dữ liệu cho các nhiệm vụ hỏi đáp hình ảnh
Các mô hình Meta Llama 3.2 Vision có thể được tinh chỉnh trên các bộ dữ liệu văn bản-hình ảnh cho các nhiệm vụ ngôn ngữ và thị giác như hỏi đáp hình ảnh (VQA). Dữ liệu huấn luyện nên được cấu trúc với hình ảnh, câu hỏi về hình ảnh và câu trả lời mong đợi. Định dạng dữ liệu này cho phép quá trình tinh chỉnh điều chỉnh khả năng hiểu và lập luận đa phương thức của mô hình để xuất sắc trong việc trả lời các câu hỏi ngôn ngữ tự nhiên về nội dung hình ảnh.
5. SageMaker JumpStart
SageMaker JumpStart là một tính năng mạnh mẽ trong môi trường học máy (ML) SageMaker cung cấp cho các chuyên gia ML một trung tâm toàn diện các mô hình cơ sở (FM) công khai và độc quyền. Với dịch vụ được quản lý này, các chuyên gia ML có quyền truy cập vào danh sách ngày càng tăng các mô hình tiên tiến từ các trung tâm và nhà cung cấp mô hình hàng đầu mà bạn có thể triển khai vào các phiên bản SageMaker chuyên dụng trong môi trường mạng được cô lập và tùy chỉnh các mô hình bằng cách sử dụng SageMaker để đào tạo và triển khai mô hình.
6. Tổng quan về giải pháp
Trong các phần sau, chúng ta sẽ thảo luận các bước để tinh chỉnh các mô hình Meta Llama 3.2 Vision. Chúng ta sẽ đề cập đến hai cách tiếp cận: sử dụng giao diện người dùng (UI) Amazon SageMaker Studio cho giải pháp không cần mã và sử dụng SageMaker Python SDK.
7. Điều kiện tiên quyết
Để thử nghiệm giải pháp này bằng SageMaker JumpStart, bạn cần các điều kiện tiên quyết sau:
- Tài khoản AWS.
- Vai trò AWS Identity and Access Management (IAM) để truy cập SageMaker.
- Quyền truy cập vào SageMaker Studio hoặc phiên bản SageMaker notebook, hoặc môi trường phát triển tích hợp (IDE) như PyCharm hoặc Visual Studio Code.
8. Điều chỉnh không cần mã thông qua giao diện người dùng SageMaker Studio
SageMaker JumpStart cung cấp quyền truy cập vào các FM công khai và độc quyền từ các nhà cung cấp bên thứ ba và độc quyền. Các nhà khoa học dữ liệu và nhà phát triển có thể nhanh chóng tạo nguyên mẫu và thử nghiệm với nhiều trường hợp sử dụng ML khác nhau, đẩy nhanh quá trình phát triển và triển khai các ứng dụng ML.
9. Điều chỉnh bằng cách sử dụng SageMaker Python SDK
Bạn cũng có thể tinh chỉnh các mô hình Meta Llama 3.2 Vision Instruct bằng cách sử dụng SageMaker Python SDK. Một ví dụ mã minh họa cách tinh chỉnh mô hình Meta Llama 3.2 11B Vision Instruct.
10. Các chỉ số định lượng của việc tinh chỉnh
SageMaker JumpStart tự động xuất ra nhiều chỉ số huấn luyện và xác thực, chẳng hạn như mất mát, trong quá trình tinh chỉnh để giúp đánh giá hiệu suất của mô hình.
11. Kết quả định tính của việc tinh chỉnh
Ngoài các chỉ số đánh giá định lượng, bạn có thể quan sát thấy sự khác biệt về chất lượng trong đầu ra của mô hình sau quá trình tinh chỉnh.
12. Dọn dẹp
Sau khi hoàn tất việc chạy notebook, hãy đảm bảo xóa tất cả các tài nguyên bạn đã tạo trong quá trình này để dừng tính phí.
13. Kết luận
Trong bài viết này, chúng ta đã thảo luận về việc tinh chỉnh các mô hình Meta Llama 3.2 Vision Instruct bằng cách sử dụng SageMaker JumpStart. Chúng ta đã chỉ ra rằng bạn có thể sử dụng bảng điều khiển SageMaker JumpStart trong SageMaker Studio hoặc SageMaker Python SDK để tinh chỉnh và triển khai các mô hình này. Chúng ta cũng đã thảo luận về kỹ thuật tinh chỉnh, loại phiên bản và các siêu tham số được hỗ trợ. Cuối cùng, chúng ta đã giới thiệu cả các chỉ số định lượng và kết quả định tính của việc tinh chỉnh mô hình Meta Llama 3.2 Vision trên bộ dữ liệu DocVQA, làm nổi bật hiệu suất được cải thiện của mô hình đối với các nhiệm vụ hỏi đáp hình ảnh liên quan đến hình ảnh kiểu tài liệu phức tạp.
14. Phụ lục
Các mô hình ngôn ngữ như Meta Llama có kích thước hơn 10 GB hoặc thậm chí 100 GB. Việc tinh chỉnh các mô hình lớn như vậy yêu cầu các phiên bản có bộ nhớ CUDA cao hơn đáng kể. Hơn nữa, việc huấn luyện các mô hình này có thể rất chậm do kích thước của chúng. Do đó, để tinh chỉnh hiệu quả, chúng ta sử dụng các tối ưu hóa sau:
- Low-Rank Adaptation (LoRA)
- Đào tạo độ chính xác hỗn hợp (bf16)
Bài viết cũng liệt kê các siêu tham số mặc định được sử dụng trong quá trình tinh chỉnh.
0 comments Blogger 0 Facebook
Đăng nhận xét