Hermes 3: Siêu AI nguồn mở "khủng hoảng hiện sinh"
Cập nhật lúc 21:46 EDT / 15 tháng 8 năm 2024
SiliconANGLE - Lambda Inc. và Nous Research vừa công bố mô hình ngôn ngữ lớn (LLM) mới mang tên Hermes 3. Được phát triển dựa trên Llama 3.1 mã nguồn mở của Meta, Hermes 3 được giới thiệu là phiên bản "cá nhân hóa, không giới hạn".
Điều khiến phiên bản 405 tỷ tham số của Hermes 3 trở nên đặc biệt chính là “cơn khủng hoảng hiện sinh” mà nó thể hiện. Cụ thể, khi nhận được câu hỏi "Bạn là ai?" sau một lời nhắc trống, mô hình này đã có những phản hồi bất thường.
Trong bài đăng trên blog của mình, các nhà nghiên cứu của Lambda cho biết “đặc điểm” này là điều hoàn toàn bất ngờ. Họ cho rằng đây là "hành vi dị thường" xảy ra khi AI được mở rộng quy mô vượt ngưỡng nhất định. Để tìm hiểu rõ hơn, Lambda đang kêu gọi người dùng tương tác với Hermes 3 thông qua Discord, cùng nhau khám phá “mê cung ẩn giấu bên trong”.
Được biết, Lambda là công ty chuyên về cơ sở hạ tầng AI, ra đời từ “đống tro tàn” của ứng dụng nhận diện khuôn mặt bên thứ ba dành cho Google Glass. Trong khi đó, Nous Research là startup chuyên nghiên cứu AI, tập trung tạo ra "mã nguồn mở mạnh mẽ và các mô hình ngôn ngữ lớn hiệu quả". Trước Hermes 3, hai công ty này đã hợp tác tạo ra các phiên bản tiền nhiệm là Hermes, Hermes 2 và Open Hermes 2.5 với tổng cộng hơn 33 triệu lượt tải xuống.
Bên cạnh khả năng vượt trội hơn hẳn, điểm khác biệt lớn nhất của Hermes 3 nằm ở việc cung cấp trọng số mở, không khóa và không bị kiểm duyệt. Điều này giúp mô hình trở nên linh hoạt hơn, cho phép người dùng tùy chỉnh để phù hợp với nhu cầu của mình, trái ngược hoàn toàn với sự cứng nhắc của các LLM hàng đầu hiện nay.
Hermes 3 có 3 phiên bản với số lượng tham số là 8 tỷ, 70 tỷ và 405 tỷ. Mô hình này được huấn luyện trên tập dữ liệu đa dạng, tập trung cải thiện khả năng sáng tạo, lập luận và tuân thủ hướng dẫn. Hermes 3 sở hữu khả năng duy trì ngữ cảnh dài hạn, cho phép trò chuyện tự nhiên và ghi nhớ ngữ cảnh cụ thể. Mô hình này cũng rất giỏi nhập vai phức tạp, điều mà các LLM độc quyền thường gặp khó khăn.
Một điểm tiến bộ khác của Hermes 3 chính là khả năng tự chủ. Đây là tính năng cho phép AI thực hiện một loạt tác vụ thay cho người dùng, thu hút sự chú ý lớn trong lĩnh vực phát triển AI gần đây. Hermes 3 có thể sử dụng thẻ XML để tạo kết quả có cấu trúc, tạo độc thoại nội bộ minh bạch trong quá trình đưa ra quyết định và tham gia giao tiếp trực quan bằng biểu đồ Mermaid. Mô hình này cũng sử dụng lập luận và lập kế hoạch được dán nhãn từng bước để tăng cường tính minh bạch.
Ấn tượng hơn, Hermes 3 có thể tạo và giải thích mã lập trình một cách thông thạo, đồng thời cung cấp tài liệu chi tiết đi kèm. Điều này mở ra tiềm năng to lớn cho Hermes 3 trong lĩnh vực phát triển phần mềm và phát hiện lỗi.
Theo Nous Research, Hermes 3 được đào tạo bằng cách sử dụng cơ sở hạ tầng 1-Click Cluster của Lambda, được tối ưu hóa hiệu quả nhờ các kỹ thuật như lượng tử hóa FP8 của Neural Magic Inc., giúp giảm 50% RAM ảo và dung lượng đĩa. Mặc dù chưa thể sánh bằng các LLM độc quyền như GPT-4o (OpenAI) hay Claude 3.5 Sonnet (Anthropic), Hermes 3 cho thấy hiệu suất vượt trội so với tất cả các LLM nguồn mở khác trong loạt bài kiểm tra chuẩn.
Điểm hấp dẫn nhất của Hermes 3 chính là tính linh hoạt. Mô hình này được cho là xuất sắc trong các ứng dụng yêu cầu đưa ra quyết định, lập luận nâng cao, lập kế hoạch chiến lược và sáng tạo.
“Từ khi bắt đầu hành trình với AI, tôi đã luôn muốn tạo ra mô hình nguồn mở tiên tiến, phù hợp với người dùng thay vì một tập đoàn hay tổ chức nào đó. Và hôm nay, với Hermes 3 405B, chúng tôi đã đạt được mục tiêu đó”, Teknium, đồng sáng lập Nous Research chia sẻ.
Holger Mueller (Constellation Research Inc.) cho biết Hermes 3 là ví dụ điển hình cho thấy ưu điểm tuyệt vời nhất của phần mềm nguồn mở - khả năng tiếp nhận và cải tiến.
“Đó chính xác là những gì Lambda và Nous Research đã làm được. Họ đã tiếp nhận Llama 3.1, tiếp tục huấn luyện và để người dùng quyết định trọng số được áp dụng cho câu trả lời", vị chuyên gia phân tích cho biết. "Nếu mang lại kết quả khả quan hơn, đây sẽ là “phước lành” cho người dùng. Tuy nhiên, mô hình này cũng có thể gây ra một số vấn đề nếu dẫn đến việc thử nghiệm nhiều hơn và mất thời gian. Hermes 3 cần chứng minh được khả năng tạo nên sự khác biệt trong các ứng dụng AI dành cho doanh nghiệp.”
Cả Lambda và Nous Research đều mong muốn mọi người trải nghiệm Hermes 3 và chia sẻ cảm nhận của mình. Người dùng thông thường có thể trải nghiệm mô hình này thông qua giao diện Lambda Chat hoặc giao diện lập trình ứng dụng Chat Completions. Người dùng chỉ cần tạo khóa API đám mây thông qua bảng điều khiển của Lambda là có thể kiểm tra khả năng của mô hình mà không cần thiết lập phức tạp.
Để truy cập chuyên dụng, người dùng có thể triển khai Hermes 3 trên một nút Lambda duy nhất hoặc cấu hình đa nút nâng cao hơn nếu muốn tinh chỉnh thêm.

0 comments Blogger 0 Facebook
Đăng nhận xét