Anthropic Ra mắt Claude 3.5 Sonnet và Haiku, Mở rộng AI với Phiên Bản Beta Công khai "Sử dụng Máy tính"

Anthropic Ra mắt Claude 3.5 Sonnet và Haiku, Mở rộng AI với Phiên bản Beta Công khai "Sử dụng Máy tính"

Mục lục

Giới thiệu
Claude 3.5 Sonnet
Claude 3.5 Haiku
Khả năng "Sử dụng Máy tính"
An toàn và Bảo mật
Kết luận

1. Giới thiệu

Công ty Anthropic đã công bố hai mô hình AI tiên tiến, Claude 3.5 Sonnet và Claude 3.5 Haiku, với những cải thiện đáng kể về chức năng và hiệu suất, đặc biệt là trong lĩnh vực lập trình. Claude 3.5 Sonnet được đánh giá cao hơn so với phiên bản trước trong nhiều tiêu chuẩn đánh giá, trong khi Claude 3.5 Haiku đạt hiệu quả tương đương với mô hình lớn nhất trước đây của Anthropic, Claude 3 Opus, nhưng với chi phí và tốc độ tương đương.

2. Claude 3.5 Sonnet

Claude 3.5 Sonnet mang đến những nâng cấp đáng chú ý về lập trình. Điểm số SWE-bench Verified của nó đã được nâng lên 49,0%, vượt trội hơn các mô hình công khai khác và các hệ thống chuyên dụng. Mô hình này cũng tiến bộ trong TAU-bench, một công cụ đánh giá khả năng sử dụng công cụ, cho thấy sự cải thiện trong cả lĩnh vực bán lẻ và hàng không.

GitLab, một nền tảng dựa trên web hỗ trợ các nhóm cộng tác trong phát triển phần mềm, đã thử nghiệm mô hình này cho các nhiệm vụ DevSecOps và nhận thấy nó cung cấp khả năng lập luận mạnh mẽ hơn (lên đến 10% trên nhiều trường hợp sử dụng) mà không làm tăng độ trễ, khiến nó trở thành lựa chọn lý tưởng để hỗ trợ các quy trình phát triển phần mềm nhiều bước.

3. Claude 3.5 Haiku

Claude 3.5 Haiku, mô hình nhanh thế hệ tiếp theo của Anthropic, cung cấp hiệu suất cải thiện rộng rãi với chi phí và tốc độ tương đương với Claude 3 Haiku trước đây. Đạt điểm 40,6% trên SWE-bench Verified, nó vượt trội hơn các mô hình cũ, khiến nó phù hợp cho các sản phẩm hướng đến người dùng và các nhiệm vụ yêu cầu cá nhân hóa, chẳng hạn như phân tích lịch sử mua hàng hoặc quản lý hồ sơ kho. Claude 3.5 Haiku sẽ ra mắt vào cuối tháng này trên API của Anthropic, Amazon Bedrock và Vertex AI của Google Cloud.

4. Khả năng "Sử dụng Máy tính"

Anthropic cũng đã giới thiệu một khả năng mới "sử dụng máy tính" trong phiên bản beta công khai. Claude 3.5 Sonnet là mô hình đầu tiên cung cấp tính năng này, cho phép AI mô phỏng tương tác của con người với giao diện máy tính - di chuyển con trỏ, nhấp chuột và nhập liệu. Ban đầu là thử nghiệm, chức năng này nhằm mục đích tự động hóa các nhiệm vụ phức tạp, nhiều bước cho các nhà phát triển. Ví dụ, Replit đang sử dụng khả năng điều hướng UI của Claude để đánh giá trong quá trình phát triển sản phẩm Replit Agent của họ.

Điểm số đánh giá OSWorld của Claude - 14,9% trong danh mục chỉ có ảnh chụp màn hình và 22,0% với các bước bổ sung - nêu bật tiềm năng của nó trong việc bắt chước các hoạt động máy tính giống như con người. (OSWorld cung cấp đánh giá tác nhân đa phương thức cho các nhiệm vụ mở trong môi trường máy tính thực tế.) Tuy nhiên, Anthropic khuyên các nhà phát triển nên bắt đầu với các ứng dụng có rủi ro thấp, vì công nghệ này đôi khi có thể gặp khó khăn trong các nhiệm vụ như cuộn trang và phóng to. "Khả năng này chưa hoàn hảo nhưng đang phát triển nhanh chóng, và chúng tôi chủ động trong việc triển khai an toàn", Anthropic tuyên bố, nhấn mạnh các bộ phân loại mới được phát triển để phát hiện lạm dụng và giảm thiểu rủi ro.

5. An toàn và Bảo mật

Hợp tác với Viện An toàn AI Hoa Kỳ và Anh Quốc, Anthropic đã tiến hành thử nghiệm trước khi triển khai để đảm bảo Claude 3.5 Sonnet tuân thủ các tiêu chuẩn an toàn ASL-2 theo Chính sách Tăng trưởng Có trách nhiệm của mình. Công ty nhấn mạnh cam kết phát triển AI an toàn, nhận thức được cả tiềm năng và những tác động của các hệ thống mạnh mẽ hơn.

6. Kết luận

"Chúng tôi rất mong muốn các nhà phát triển khám phá những tiến bộ này và cung cấp phản hồi. Đây chỉ là khởi đầu cho một chương mới trong việc làm việc với Claude", Anthropic cho biết.

Anthropic Ra mắt Claude 3.5 Sonnet và Haiku, Mở rộng AI với Phiên Bản Beta Công khai "Sử dụng Máy tính"