Anthropic Tăng Tốc Truy Cập Mô Hình AI Với Tính Năng Lưu Bộ Nhớ Đầu Vào

Cập nhật lúc 12:00 EDT / 14 tháng 8 năm 2024

Startup trí tuệ nhân tạo Anthropic PBC, cha đẻ của chatbot AI tạo sinh Claude, hôm nay đã công bố ra mắt tính năng lưu bộ nhớ đầu vào (prompt caching). Tính năng mới này hứa hẹn sẽ cải thiện đáng kể thời gian phản hồi của các mô hình ngôn ngữ lớn (LLM) bằng cách cho phép các nhà phát triển cung cấp cho chúng những đầu vào dài hơn và chi tiết hơn.

Thông thường, các kỹ sư AI phải xây dựng những "đầu vào" phức tạp, bao gồm các khối dữ liệu ngôn ngữ tự nhiên, để AI xử lý và tạo ra phản hồi mỗi khi chúng được chạy. Một đầu vào có thể đơn giản như "Thời tiết hôm nay như thế nào?" hoặc phức tạp như toàn bộ một tài liệu.

Khi người dùng muốn một LLM trả lời các câu hỏi về một tài liệu dài, tài liệu đó cần được đưa vào đầu vào cho mỗi lần trò chuyện tiếp theo. Điều này đồng nghĩa với việc nó cần được tải lại toàn bộ vào AI mỗi lần, tiêu tốn rất nhiều tài nguyên vì nó phải được xử lý lại từ đầu giữa các cuộc trò chuyện.

Với tính năng lưu bộ nhớ đầu vào, Anthropic giải quyết vấn đề này bằng cách lưu trữ các đầu vào đã xử lý trước đó trong bộ nhớ cache. Khi một yêu cầu mới được gửi đến LLM, nó sẽ kiểm tra xem đầu vào đó đã được lưu trữ trong bộ nhớ cache hay chưa. Nếu có, nó có thể bỏ qua bước xử lý tốn kém thời gian và tài nguyên, trực tiếp sử dụng thông tin đã lưu để tạo phản hồi nhanh hơn.

Lợi ích vượt trội:

Tăng tốc độ phản hồi: Giảm thiểu thời gian tải và xử lý đầu vào, mang lại trải nghiệm người dùng mượt mà hơn.
Giảm chi phí: Tối ưu hóa việc sử dụng tài nguyên tính toán, giảm đáng kể chi phí vận hành cho doanh nghiệp.
Nâng cao hiệu suất tác vụ: Đặc biệt hữu ích cho các tác vụ xử lý tài liệu dài và các tác vụ yêu cầu nhiều bước phức tạp.

Ứng dụng đa dạng:

Xử lý tài liệu: Cho phép người dùng doanh nghiệp kết hợp cùng một tài liệu dài vào nhiều cuộc trò chuyện mà không cần tải lại, giữ cho độ trễ và chi phí ở mức thấp.
Hướng dẫn chi tiết: Các bộ hướng dẫn chi tiết có thể được thiết lập trước và chia sẻ trên mọi cuộc trò chuyện ở một nơi, tinh chỉnh phản hồi của Claude mà không phải trả thêm phí.
Nâng cao AI Agent: Giúp LLM thực hiện nhiều cuộc gọi đến các công cụ bên thứ ba, thực hiện các thay đổi mã lặp đi lặp lại và thực hiện các hướng dẫn phức tạp một cách hiệu quả hơn.

Theo Anthropic, tính năng này có thể giảm tới 90% tổng chi phí cho doanh nghiệp và nhà phát triển, đồng thời cải thiện tốc độ phản hồi lên đến hai lần.

Tính năng lưu bộ nhớ đầu vào hiện đang được triển khai ở chế độ beta trên giao diện lập trình ứng dụng (API) của Anthropic cho Claude 3.5 Sonnet, mô hình LLM đa phương thức mạnh mẽ nhất của công ty và mô hình tốc độ cao Claude 3 Haiku.

Anthropic Tăng Tốc Truy Cập Mô Hình AI Với Tính Năng Lưu Bộ Nhớ Đầu Vào