Meta ra mắt Transfusion: Mô hình AI xử lý cả văn bản và hình ảnh trong một kiến trúc duy nhất
Các mô hình đa phương thức (multi-modal) có khả năng xử lý cả văn bản và hình ảnh đang là một lĩnh vực nghiên cứu phát triển mạnh mẽ trong trí tuệ nhân tạo. Tuy nhiên, việc huấn luyện các mô hình này đặt ra một thách thức độc đáo: mô hình ngôn ngữ xử lý các giá trị rời rạc (từ và mã thông báo), trong khi mô hình tạo hình ảnh phải xử lý các giá trị pixel liên tục.
Hiện nay, các mô hình đa phương thức thường sử dụng các kỹ thuật làm giảm chất lượng biểu diễn dữ liệu. Trong một nghiên cứu mới được công bố gần đây, các nhà khoa học từ Meta và Đại học Nam California đã giới thiệu Transfusion, một kỹ thuật mới cho phép một mô hình duy nhất xử lý liền mạch cả hai phương thức rời rạc và liên tục.
Thách thức của mô hình đa phương thức
Các phương pháp hiện có để giải quyết thách thức đa phương thức thường phải đánh đổi. Một số kỹ thuật sử dụng các kiến trúc riêng biệt để xử lý ngôn ngữ và hình ảnh, thường được huấn luyện trước từng thành phần riêng lẻ. Đây là phương pháp được sử dụng trong các mô hình như LLaVA. Tuy nhiên, các mô hình này gặp khó khăn trong việc học các tương tác phức tạp giữa các phương thức khác nhau, đặc biệt là khi xử lý các tài liệu mà hình ảnh và văn bản được xen kẽ.
Một số kỹ thuật khác lượng tử hóa hình ảnh thành các giá trị rời rạc, về cơ bản là chuyển chúng thành một chuỗi mã thông báo tương tự như văn bản. Đây là phương pháp được sử dụng bởi Chameleon của Meta, được giới thiệu vào đầu năm nay. Mặc dù phương pháp này cho phép sử dụng mô hình ngôn ngữ để xử lý hình ảnh, nhưng nó dẫn đến việc mất thông tin chứa trong các giá trị pixel liên tục.
Chunting Zhou, nhà khoa học nghiên cứu cấp cao tại Meta AI và đồng tác giả của bài báo, trước đây đã làm việc trong bài báo về Chameleon.
"Chúng tôi nhận thấy rằng phương pháp lượng tử hóa tạo ra nút thắt cổ chai thông tin cho các biểu diễn hình ảnh, nơi các biểu diễn rời rạc của hình ảnh bị nén cao và mất thông tin trong hình ảnh gốc", cô nói với VentureBeat. "Và đồng thời, việc huấn luyện một bộ mã hóa hình ảnh rời rạc tốt là rất khó khăn. Do đó, chúng tôi đã đặt ra câu hỏi 'Liệu chúng ta có thể chỉ sử dụng các biểu diễn liên tục tự nhiên hơn của hình ảnh khi chúng ta huấn luyện một mô hình đa phương thức cùng với văn bản rời rạc không?'"
Transfusion: Phương pháp tiếp cận thống nhất cho học tập đa phương thức
"Mô hình khuếch tán và mô hình tự hồi quy dự đoán mã thông báo tiếp theo đại diện cho thế giới tốt nhất để tạo ra dữ liệu liên tục và rời rạc tương ứng", Zhou nói. "Điều này đã truyền cảm hứng cho chúng tôi phát triển một phương pháp đa phương thức mới kết hợp những gì tốt nhất của cả hai thế giới theo một cách tự nhiên và đơn giản."
Transfusion là một công thức để huấn luyện một mô hình duy nhất có thể xử lý cả phương thức rời rạc và liên tục mà không cần lượng tử hóa hoặc các mô-đun riêng biệt. Ý tưởng cốt lõi đằng sau Transfusion là huấn luyện một mô hình duy nhất với hai mục tiêu: mô hình hóa ngôn ngữ cho văn bản và khuếch tán cho hình ảnh.
Transfusion kết hợp hai mục tiêu này để huấn luyện một mô hình biến đổi có thể xử lý và tạo cả văn bản và hình ảnh. Trong quá trình huấn luyện, mô hình được tiếp xúc với cả dữ liệu văn bản và hình ảnh, và các hàm mất mát cho mô hình hóa ngôn ngữ và khuếch tán được áp dụng đồng thời.
"Chúng tôi chỉ ra rằng có thể tích hợp hoàn toàn cả hai phương thức, không mất thông tin, bằng cách huấn luyện một mô hình duy nhất để vừa dự đoán mã thông báo văn bản rời rạc vừa khuếch tán hình ảnh liên tục", các nhà nghiên cứu viết.
Transfusion sử dụng kiến trúc và từ vựng thống nhất để xử lý đầu vào đa phương thức hỗn hợp. Mô hình bao gồm các thành phần dành riêng cho phương thức nhẹ chuyển đổi mã thông báo văn bản và các bản vá hình ảnh thành các biểu diễn phù hợp trước khi chúng được xử lý bởi biến đổi.
Để cải thiện khả năng biểu diễn dữ liệu hình ảnh, Transfusion sử dụng bộ mã hóa tự động biến phân (VAE), mạng nơ-ron có thể học cách biểu diễn dữ liệu phức tạp, chẳng hạn như hình ảnh, trong không gian liên tục có chiều thấp hơn. Trong Transfusion, VAE được sử dụng để mã hóa mỗi bản vá 8 × 8 của hình ảnh thành một danh sách các giá trị liên tục.
"Sự đổi mới chính của chúng tôi là chứng minh rằng chúng ta có thể sử dụng các tổn thất riêng biệt cho các phương thức khác nhau - mô hình hóa ngôn ngữ cho văn bản, khuếch tán cho hình ảnh - trên dữ liệu và tham số được chia sẻ", các nhà nghiên cứu viết.
Transfusion vượt trội hơn các phương pháp dựa trên lượng tử hóa
Các nhà nghiên cứu đã huấn luyện một mô hình 7 tỷ dựa trên Transfusion và đánh giá nó trên nhiều điểm chuẩn đơn phương thức và đa phương thức tiêu chuẩn, bao gồm các tác vụ văn bản sang văn bản, văn bản sang hình ảnh và hình ảnh sang văn bản. Họ đã so sánh hiệu suất của nó với một mô hình có kích thước tương đương dựa trên Chameleon, phương pháp khoa học mở nổi bật hiện tại để huấn luyện các mô hình đa phương thức bản địa.
Trong các thí nghiệm của họ, Transfusion luôn vượt trội hơn Chameleon trên tất cả các phương thức. Trong việc tạo văn bản sang hình ảnh, Transfusion đã đạt được kết quả tốt hơn với chi phí tính toán ít hơn một phần ba so với Chameleon. Tương tự, trong việc tạo hình ảnh sang văn bản, Transfusion đã phù hợp với hiệu suất của Chameleon chỉ với 21,8% tài nguyên tính toán.
Đáng ngạc nhiên, Transfusion cũng cho thấy hiệu suất tốt hơn trên các điểm chuẩn chỉ văn bản, mặc dù cả Transfusion và Chameleon đều sử dụng cùng một mục tiêu mô hình hóa ngôn ngữ cho văn bản. Điều này cho thấy rằng việc huấn luyện trên các mã thông báo hình ảnh lượng tử hóa có thể ảnh hưởng tiêu cực đến hiệu suất văn bản.
"Là một sự thay thế, Transfusion mở rộng quy mô tốt hơn so với các phương pháp huấn luyện đa phương thức được áp dụng phổ biến với các mã thông báo hình ảnh rời rạc trên diện rộng", Zhou nói.
Các nhà nghiên cứu đã thực hiện các thí nghiệm riêng biệt về tạo hình ảnh và so sánh Transfusion với các mô hình tạo hình ảnh khác. Transfusion vượt trội hơn các mô hình phổ biến khác như DALL-E 2 và Stable Diffusion XL đồng thời cũng có thể tạo văn bản.
"Transfusion mở ra rất nhiều cơ hội mới cho việc học đa phương thức và các trường hợp sử dụng thú vị mới", Zhou nói. "Vì Transfusion hoạt động giống như LLM nhưng trên dữ liệu đa phương thức, điều này có khả năng mở khóa các ứng dụng mới với khả năng kiểm soát tốt hơn trên các phiên tương tác của đầu vào của người dùng, ví dụ: chỉnh sửa tương tác hình ảnh và video."

0 comments Blogger 0 Facebook
Đăng nhận xét