Mục lục

  1. Giới thiệu
  2. Mô hình lý luận o1
  3. Mô hình tạo video Sora
  4. Kết luận
  5. Về tác giả

1. Giới thiệu

OpenAI vừa công bố phiên bản đầy đủ của mô hình lý luận o1 và mô hình tạo video Sora. Thông báo về o1 cũng bao gồm việc ra mắt một API tinh chỉnh riêng biệt. Tin tức này được đăng tải trên InfoQ, một nguồn tin công nghệ uy tín.

2. Mô hình lý luận o1

Mô hình o1 sử dụng kỹ thuật "chuỗi suy nghĩ" (chain-of-thought) cho phép tạo ra các quá trình suy luận phức tạp, từng bước trước khi đưa ra câu trả lời. Điều này giúp mô hình xử lý tốt các nhiệm vụ đòi hỏi sự suy luận sắc thái. Mô hình được huấn luyện trên sự kết hợp của các tập dữ liệu công khai, độc quyền và tùy chỉnh. Phương pháp này tạo ra quá trình suy luận chậm hơn nhưng tỉ mỉ hơn.

User added image

An toàn vẫn là yếu tố cốt lõi của dòng sản phẩm o1, với nhiều đánh giá được triển khai để tránh các nỗ lực "jailbreak" (vượt qua giới hạn an toàn) và hành vi thiên vị. Các đánh giá được OpenAI công bố cho thấy o1 vượt trội hơn GPT-4 trong việc tránh từ chối quá mức trong các ngữ cảnh lành tính. Khả năng lập luận của mô hình này mở rộng đến việc tuân thủ "Thang cấp hướng dẫn" của OpenAI, đảm bảo rằng các chỉ thị của hệ thống được ưu tiên hơn các lời nhắc của nhà phát triển và người dùng. Tuy nhiên, vẫn còn những thách thức, đặc biệt là trong các lĩnh vực như đầu vào đa phương thức, nơi việc đạt được ranh giới từ chối chính xác vẫn đang được hoàn thiện.

Việc "red teaming" (kiểm thử an ninh mạng giả định) đóng một vai trò quan trọng trong việc kiểm tra khả năng và giới hạn của các mô hình o1, với các chuyên gia khám phá các lĩnh vực như an ninh mạng, các mối đe dọa sinh học và phóng xạ, cũng như thao túng thuyết phục. Mặc dù các cơ chế an toàn của mô hình đã thành công trong việc chống lại các kịch bản nguy cơ cao trong hầu hết các trường hợp, nhưng độ chi tiết và độ sâu tăng lên trong các phản hồi đôi khi làm tăng rủi ro khi các lần từ chối bị bỏ qua. OpenAI đang cố gắng giảm thiểu điều này bằng cách hợp tác với các nhà đánh giá bên ngoài và sử dụng "Khung chuẩn bị" của họ.

"Họ nhà mô hình ngôn ngữ lớn o1 được huấn luyện bằng học tăng cường để thực hiện lập luận phức tạp. o1 suy nghĩ trước khi trả lời - nó có thể tạo ra một chuỗi suy nghĩ dài trước khi trả lời người dùng. Thông qua quá trình huấn luyện, các mô hình học cách trau dồi quá trình suy nghĩ của mình, thử các chiến lược khác nhau và nhận ra những sai lầm của mình." - OpenAI

3. Mô hình tạo video Sora

Mô hình Sora mới cho phép người dùng tạo video dài tới 20 giây ở độ phân giải 1080p, sử dụng các định dạng đầu vào từ mô tả văn bản đến hình ảnh và video hiện có. Dựa trên nền tảng của các kiến trúc DALL·E và GPT, Sora sử dụng phương pháp dựa trên khuếch tán để duy trì tính nhất quán trong các yếu tố hình ảnh trên nhiều khung hình. Việc huấn luyện của nó dựa trên các kỹ thuật như "viết lại chú thích" để có sự liên kết văn bản chính xác hơn.

Sora được xây dựng trên khái niệm "mảnh hình ảnh" (visual patches), lấy cảm hứng từ các chiến lược phân đoạn trong các mô hình ngôn ngữ lớn. Video được nén thành một không gian tiềm ẩn có chiều thấp hơn và được chia thành các "mảnh không-thời gian" để biểu diễn và xử lý có thể mở rộng. OpenAI đã huấn luyện Sora trên một hỗn hợp các tập dữ liệu công khai, tài nguyên độc quyền thu được thông qua các quan hệ đối tác và các tập dữ liệu tùy chỉnh được thiết kế nội bộ. Các cơ chế lọc đào tạo mạnh mẽ đảm bảo loại bỏ nội dung rõ ràng, bạo lực hoặc nhạy cảm trước khi dữ liệu đến được mô hình.

Các phiên bản Sora trong tương lai sẽ tiếp tục trau dồi khả năng và biện pháp bảo vệ của nó, tập trung vào việc thể hiện, nguồn gốc và sự phù hợp về đạo đức. Những nỗ lực để giảm thiểu sự thiên vị trong đầu ra và nâng cao hiệu suất phân loại phản ánh tinh thần phát triển lặp đi lặp lại của mô hình.

4. Kết luận

Việc ra mắt o1 và Sora đánh dấu một bước tiến quan trọng trong lĩnh vực AI, đặc biệt là trong lĩnh vực lý luận và tạo video. Tuy nhiên, cũng cần lưu ý những thách thức về an toàn và đạo đức vẫn cần được giải quyết trong quá trình phát triển tiếp theo. Nhà phát triển quan tâm có thể tìm hiểu thêm thông tin chi tiết về o1 và Sora thông qua các tài liệu kỹ thuật của OpenAI.

5. Về tác giả

Andrew Hoblitzell là thành viên cấp cao của đội ngũ kỹ thuật tại Salesforce, nơi ông làm việc trong nhóm Einstein. Ông có bằng Tiến sĩ Khoa học Máy tính từ Đại học Purdue, West Lafayette và đam mê ứng dụng học máy cũng như việc học hỏi và giáo dục những người khác trong cộng đồng ML.

0 comments Blogger 0 Facebook

Đăng nhận xét

 
Agent.ai.vn © 2024 - Nắm bắt tương lai
Top