Mục lục
- Giới Thiệu
- OpenAI o1 trong API
- Tính năng chính
- So sánh hiệu năng
- Khả năng ứng dụng
- Cải Tiến Realtime API
- Hỗ trợ WebRTC
- Giá cả cạnh tranh hơn
- Kiểm soát phản hồi tốt hơn
- Tinh Chỉnh Ưu Tiên (Preference Fine-Tuning)
- So sánh với Tinh chỉnh có giám sát (Supervised Fine-Tuning)
- Ứng dụng thực tế
- Bộ SDK Go và Java mới
- Kết luận
1. Giới Thiệu
OpenAI vừa công bố một loạt các bản cập nhật và công cụ mới dành cho các nhà phát triển, bao gồm các mô hình mạnh mẽ hơn, các công cụ tùy biến mới, và những nâng cấp giúp cải thiện hiệu suất, tính linh hoạt và hiệu quả chi phí. Cụ thể, chúng ta có:
- OpenAI o1 trong API với hỗ trợ function calling, developer messages, Structured Outputs và khả năng thị giác.
- Cập nhật Realtime API bao gồm tích hợp WebRTC đơn giản, giảm 60% giá cho GPT-4o audio và hỗ trợ GPT-4o mini với giá chỉ bằng 1/10 audio trước đây.
- Tinh chỉnh Ưu tiên (Preference Fine-Tuning), một kỹ thuật tùy chỉnh mô hình mới giúp dễ dàng điều chỉnh dựa trên sở thích của người dùng và nhà phát triển.
- SDK Go và Java mới đã có phiên bản beta.
2. OpenAI o1 trong API
OpenAI o1, mô hình suy luận được thiết kế để xử lý các tác vụ phức tạp nhiều bước với độ chính xác cao, hiện đã có mặt cho các nhà phát triển ở tầng sử dụng 5 trong API. o1 là phiên bản kế nhiệm của OpenAI o1-preview, đã được các nhà phát triển sử dụng để xây dựng các ứng dụng tác nhân nhằm tối ưu hóa hỗ trợ khách hàng, cải thiện các quyết định chuỗi cung ứng và dự báo các xu hướng tài chính phức tạp.
Tính năng chính của o1:
- Function calling: Kết nối liền mạch o1 với dữ liệu và API bên ngoài.
- Structured Outputs: Tạo các phản hồi tuân thủ đáng tin cậy theo JSON Schema tùy chỉnh của bạn.
- Developer messages: Xác định hướng dẫn hoặc ngữ cảnh cho mô hình, chẳng hạn như xác định giọng điệu, phong cách và các hướng dẫn hành vi khác.
- Khả năng thị giác: Suy luận dựa trên hình ảnh để mở ra nhiều ứng dụng hơn trong khoa học, sản xuất hoặc lập trình, nơi đầu vào trực quan rất quan trọng.
- Độ trễ thấp: o1 sử dụng trung bình ít hơn 60% token suy luận so với o1-preview cho cùng một yêu cầu.
- Một tham số API
reasoning_effort
mới cho phép bạn kiểm soát thời gian mô hình suy nghĩ trước khi trả lời.
So sánh hiệu năng
Phiên bản o1-2024-12-17 đã đạt được kết quả vượt trội trên nhiều tiêu chuẩn đánh giá, cải thiện hiệu quả chi phí và hiệu suất. Dưới đây là bảng so sánh chi tiết:
Danh Mục | Tiêu Chuẩn | o1-2024-12-17 | o1-preview |
---|---|---|---|
Tổng quan | GPQA diamond | 75.7 | 73.3 |
MMLU (pass @1) | 91.8 | 90.8 | |
Lập trình | SWE-bench Verified | 48.9 | 41.3 |
LiveBench (Coding) | 76.6 | 52.3 | |
Toán học | MATH (pass @1) | 96.4 | 85.5 |
AIME 2024 (pass @1) | 79.2 | 42.0 | |
MGSM (pass @1) | 89.3 | 90.8 | |
Thị giác | MMMU (pass @1) | 77.3 | — |
MathVista (pass @1) | 71.0 | — | |
Tính xác thực | SimpleQA | 42.6 | 42.4 |
Tác nhân | TAU-bench (retail) | 73.5 | — |
TAU-bench (airline) | 54.2 | — |
Ngoài ra, o1-2024-12-17 còn vượt trội hơn đáng kể so với gpt-4o trong các thử nghiệm function calling và Structured Outputs.
Khả năng ứng dụng
Với những cải tiến đáng kể này, o1 mở ra những khả năng ứng dụng rộng lớn trong nhiều lĩnh vực, từ tối ưu hóa quy trình kinh doanh đến phát triển các ứng dụng AI phức tạp.
3. Cải Tiến Realtime API
Realtime API cho phép các nhà phát triển tạo ra những trải nghiệm hội thoại tự nhiên, độ trễ thấp, lý tưởng cho các trợ lý giọng nói, công cụ dịch thuật trực tiếp, gia sư ảo và các hệ thống hỗ trợ khách hàng tương tác.
Hỗ trợ WebRTC
OpenAI đã giới thiệu hỗ trợ WebRTC cho Realtime API, một tiêu chuẩn mở giúp dễ dàng xây dựng và mở rộng các sản phẩm giọng nói thời gian thực trên nhiều nền tảng khác nhau. Tích hợp WebRTC giúp các tương tác mượt mà và nhạy bén hơn trong các điều kiện thực tế.
async function createRealtimeSession(localStream, remoteAudioEl, token) {
const pc = new RTCPeerConnection();
pc.ontrack = e => remoteAudioEl.srcObject = e.streams[0];
pc.addTrack(localStream.getTracks()[0]);
const offer = await pc.createOffer();
await pc.setLocalDescription(offer);
const headers = { Authorization: `Bearer ${token}`, 'Content-Type': 'application/sdp' };
const opts = { method: 'POST', body: offer.sdp, headers };
const resp = await fetch('https://api.openai.com/v1/realtime', opts);
await pc.setRemoteDescription({ type: 'answer', sdp: await resp.text() });
return pc;
}
Giá cả cạnh tranh hơn
OpenAI đã giảm giá token audio tới 60% cho gpt-4o-realtime-preview-2024-12-17 và đưa GPT-4o mini vào Realtime API với mức giá thấp hơn nhiều:
- GPT-4o audio: $40/1 triệu token đầu vào và $80/1 triệu token đầu ra. Token audio đã được cache giảm 87,5% xuống còn $2.50/1 triệu token đầu vào.
- GPT-4o mini audio: $10/1 triệu token đầu vào và $20/1 triệu token đầu ra. Token text có giá $0.60/1 triệu token đầu vào và $2.40/1 triệu token đầu ra. Cả audio và text đã được cache đều có giá $0.30/1 triệu token.
Kiểm soát phản hồi tốt hơn
Các tính năng mới của Realtime API cho phép kiểm soát tốt hơn các phản hồi:
- Phản hồi ngoài băng tần đồng thời: Cho phép các tác vụ nền như kiểm duyệt nội dung hoạt động mà không làm gián đoạn tương tác giọng nói của người dùng.
- Ngữ cảnh đầu vào tùy chỉnh: Xác định các mục hội thoại nào sẽ được đưa vào làm đầu vào của mô hình.
- Kiểm soát thời gian phản hồi: Sử dụng Voice Activity Detection (VAD) phía máy chủ mà không tự động kích hoạt phản hồi.
- Tăng thời lượng phiên tối đa: Từ 15 lên 30 phút.
4. Tinh Chỉnh Ưu Tiên (Preference Fine-Tuning)
Preference Fine-Tuning giúp tùy chỉnh các mô hình dựa trên sở thích của người dùng và nhà phát triển. Phương pháp này sử dụng Direct Preference Optimization (DPO) để so sánh các cặp phản hồi của mô hình và dạy mô hình phân biệt giữa các đầu ra được ưu tiên và không được ưu tiên.
So sánh với Tinh chỉnh có giám sát (Supervised Fine-Tuning)
Đặc điểm | Tinh chỉnh có giám sát (SFT) | Tinh chỉnh ưu tiên (PFT) |
---|---|---|
Mục tiêu | Khuyến khích mô hình tạo ra các đầu ra chính xác bằng cách sao chép các đầu ra được gắn nhãn | Tối ưu hóa mô hình để ưu tiên hành vi mong muốn bằng cách củng cố các phản hồi ưu tiên và giảm phản hồi không ưu tiên |
Dữ liệu huấn luyện | Các cặp đầu vào và đầu ra chính xác | Các cặp đầu ra mô hình ưu tiên và không ưu tiên, thông qua chú thích của con người, A/B testing hoặc tạo dữ liệu tổng hợp |
Ứng dụng | Các tác vụ dễ chuẩn bị đầu ra lý tưởng và cần độ chính xác cao như định dạng code tùy chỉnh | Các tác vụ mà phản hồi "tốt hơn" mang tính chủ quan, như viết sáng tạo hoặc tóm tắt |
Ứng dụng thực tế
Các đối tác đã thử nghiệm Preference Fine-Tuning đã thấy kết quả đầy hứa hẹn. Ví dụ, Rogo AI đã cải thiện hiệu suất của mô hình từ 75% lên hơn 80% bằng cách sử dụng Preference Fine-Tuning cho ứng dụng trợ lý AI dành cho nhà phân tích tài chính.
Preference Fine-Tuning hiện đã có cho gpt-4o-2024-08-06 và sẽ sớm có cho gpt-4o-mini-2024-07-18.
5. Bộ SDK Go và Java mới
OpenAI ra mắt hai bộ SDK chính thức mới cho Go và Java ở dạng beta, bên cạnh các thư viện Python, Node.js và .NET hiện có.
Go là ngôn ngữ tĩnh, lý tưởng cho việc xử lý đồng thời và xây dựng các API và hệ thống backend có khả năng mở rộng.
client := openai.NewClient()
ctx := context.Background()
prompt := "Write me a haiku about Golang."
completion, err := client.Chat.Completions.New(
ctx,
openai.ChatCompletionNewParams{
Messages: openai.F(
[]openai.ChatCompletionMessageParamUnion{
openai.UserMessage(prompt),
},
),
Model: openai.F(openai.ChatModelGPT4o),
},
)
Java là ngôn ngữ được ưa chuộng trong phát triển phần mềm doanh nghiệp, với hệ thống kiểu mạnh mẽ và hệ sinh thái thư viện mã nguồn mở rộng lớn.
OpenAIClient client = OpenAIOkHttpClient.fromEnv();
ChatCompletionCreateParams params = ChatCompletionCreateParams
.builder()
.message(List.of(
ChatCompletionMessageParam.ofChatCompletionUserMessageParam(
ChatCompletionUserMessageParam
.builder()
.role(ChatCompletionUserMessageParam.Role.USER)
.content(
ChatCompletionUserMessageParam.Content.ofTextContent(
"What is the origin of Java's Duke mascot?"
)
)
.build()
)
))
.model(ChatModel.O1_PREVIEW)
.build();
ChatCompletion chatCompletion = client.chat().completions().create(params);
6. Kết luận
Những cập nhật mới của OpenAI hứa hẹn mang đến những công cụ mạnh mẽ và linh hoạt cho các nhà phát triển AI. Cho dù bạn đang xây dựng các ứng dụng giọng nói, tinh chỉnh các mô hình hay phát triển các ứng dụng tác nhân phức tạp, những công cụ này sẽ giúp bạn mở rộng giới hạn của những gì có thể. Hãy khám phá tài liệu API chi tiết để bắt đầu thử nghiệm ngay hôm nay!
0 comments Blogger 0 Facebook
Đăng nhận xét