LLaMA-Mesh: Mô hình AI tiên phong kết hợp tạo mesh 3D với mô hình ngôn ngữ lớn
Mục lục
- Giới thiệu vấn đề
- Các phương pháp hiện có
- LLaMA-Mesh: Giải pháp đột phá
- Quá trình huấn luyện và kiến trúc
- Hiệu suất và ứng dụng
- Kết luận
1. Giới thiệu vấn đề
Một thách thức lớn trong lĩnh vực trí tuệ nhân tạo là cho phép các mô hình ngôn ngữ lớn (LLM) trực tiếp tạo ra các lưới 3D (mesh) từ mô tả văn bản. Các kỹ thuật thông thường hạn chế khả năng hoạt động của LLM như các thành phần dựa trên văn bản và loại bỏ các quy trình đa phương thức kết hợp tạo nội dung văn bản và 3D. Hầu hết các khung hiện có đều yêu cầu kiến trúc bổ sung hoặc tài nguyên tính toán khổng lồ, khiến chúng khó sử dụng trong các môi trường tương tác thời gian thực như trò chơi video, thực tế ảo và thiết kế công nghiệp. Việc thiếu các hệ thống thống nhất kết hợp liền mạch khả năng hiểu ngôn ngữ và tạo hình 3D làm phức tạp thêm việc tạo nội dung 3D hiệu quả và dễ tiếp cận. Ngược lại, các giải pháp cho những vấn đề này có thể thay đổi cục diện của AI đa phương thức và làm cho quy trình thiết kế 3D trực quan và khả năng mở rộng hơn.
2. Các phương pháp hiện có
Các phương pháp hiện có để tạo hình 3D có thể được phân loại rộng rãi thành các mô hình tự hồi quy và các phương pháp chưng cất điểm số. Các mô hình tự hồi quy như MeshGFT và PolyGen phân mảnh dữ liệu lưới 3D và sử dụng máy biến áp để tạo lưới đối tượng. Chúng hoạt động tốt nhưng được huấn luyện từ đầu và không tích hợp ngôn ngữ tự nhiên; ngoài ra, chúng yêu cầu tài nguyên tính toán khổng lồ. Các phương pháp chưng cất điểm số bao gồm DreamFusion và Magic3D; chúng sử dụng một mô hình khuếch tán được huấn luyện trước duy nhất để tạo đối tượng. Các phương pháp này dựa trên các biểu diễn trung gian như trường khoảng cách có dấu hoặc lưới voxel, bao gồm nhiều xử lý hơn và tốn nhiều tài nguyên tính toán, do đó không hiệu quả lắm đối với các ứng dụng thời gian thực. Cả hai loại đều không cho phép tính linh hoạt cần thiết để dễ dàng chèn các khả năng tạo hình dựa trên văn bản và 3D trong một khung thống nhất và hiệu quả.
3. LLaMA-Mesh: Giải pháp đột phá
Các nhà nghiên cứu tại NVIDIA và Đại học Thanh Hoa giới thiệu LLaMA-MESH, khung đầu tiên kết hợp biểu diễn của các phương thức văn bản và 3D thành một kiến trúc duy nhất. Định dạng tệp OBJ dựa trên văn bản mã hóa lưới 3D bằng văn bản thuần túy, bao gồm tọa độ đỉnh và định nghĩa mặt. Vì không cần mở rộng vốn từ vựng mã thông báo hay thay đổi bộ phân mảnh, nên thiết kế này giảm chi phí tính toán; bằng cách sử dụng kiến thức không gian và kết hợp nó với nền tảng có điều kiện của LLM, LLaMA-MESH cho phép người dùng tạo nội dung 3D trực tiếp từ các lời nhắc văn bản. Việc huấn luyện trên một tập dữ liệu biên tập các đoạn hội thoại xen kẽ văn bản-3D cho phép tạo ra các khả năng, bao gồm việc diễn giải và mô tả lưới 3D bằng ngôn ngữ tự nhiên. Hơn nữa, việc tích hợp của nó loại bỏ các kiến trúc riêng biệt và do đó làm cho khung này rất hiệu quả và linh hoạt để thực hiện các nhiệm vụ đa phương thức.
4. Quá trình huấn luyện và kiến trúc
Lưới được mã hóa ở định dạng OBJ, với tọa độ đỉnh và định nghĩa mặt được chuyển đổi thành chuỗi văn bản thuần túy. Lượng tử hóa được áp dụng cho tọa độ đỉnh để giảm độ dài của chuỗi mã thông báo mà không ảnh hưởng đến độ chính xác hình học để tương thích với cửa sổ ngữ cảnh của LLM. Việc tinh chỉnh diễn ra trên một tập dữ liệu được phát triển từ Objaverse, chứa hơn 31.000 lưới được tuyển chọn, được mở rộng lên 125.000 mẫu thông qua tăng cường dữ liệu. Chữ thuyết minh được tạo ra bằng Cap3D trong khi sự phong phú của cấu trúc đối thoại được quyết định dựa trên các mẫu dựa trên quy tắc cũng như các kỹ thuật tăng cường LLM. Nó đã được tinh chỉnh trên 32 GPU A100 trong 21.000 lần lặp lại bằng cách sử dụng hỗn hợp các nhiệm vụ tạo lưới, hiểu lưới và hội thoại. Kiến trúc được sử dụng là LLaMA 3.1-8B-Instruct, cung cấp một khởi tạo tốt khi kết hợp các phương thức văn bản và 3D.
5. Hiệu suất và ứng dụng
LLAMA-MESH đạt được hiệu suất vượt trội: tạo ra các lưới 3D đa dạng, chất lượng cao với cấu trúc hình học như của nghệ sĩ trong khi vượt trội so với các phương pháp truyền thống về hiệu quả tính toán trên sự cân bằng của các nhiệm vụ đa phương thức, với khả năng hiểu và lập luận ngôn ngữ tốt. Kiến trúc này tỏ ra mạnh mẽ hơn đối với việc tạo hình 3D từ văn bản, được chứng minh trong các ứng dụng môi trường thiết kế và tương tác thực tế. Điều đó là, tích hợp đầu cuối của việc hiểu ngôn ngữ và tạo hình 3D đã được kích hoạt; đó là một bước tiến đáng kể trong AI đa phương thức.
6. Kết luận
Bằng cách thu hẹp khoảng cách giữa các phương thức văn bản và 3D, LLaMA-MESH cung cấp một giải pháp hiệu quả và thống nhất để tạo và giải thích lưới 3D trực tiếp từ các lời nhắc văn bản. Các kết quả tương tự như vậy được tạo ra thông qua các mô hình 3D chuyên dụng, một điểm mạnh của điều này được cho là khả năng nhận thức ngôn ngữ mạnh mẽ. Công trình này đã mở ra những cách thức và con đường mới hướng tới các phương pháp tiếp cận 3D trực quan hơn, được điều khiển bằng ngôn ngữ và đã tạo ra những thay đổi to lớn trong các ứng dụng trò chơi, thực tế ảo và thiết kế công nghiệp.
0 comments Blogger 0 Facebook
Đăng nhận xét