NVIDIA NV-Embed: Mô hình nhúng văn bản hàng đầu trên bảng xếp hạng MTEB

Mục lục

  1. NV-Embed: Mô hình nhúng văn bản mạnh mẽ
  2. Hiểu rõ các tiêu chuẩn đánh giá mô hình nhúng
  3. MTEB và BEIR: Tiêu chuẩn đánh giá cho các ứng dụng thu thập thông tin
  4. Hiệu suất vượt trội của NV-Embed
  5. Ứng dụng thực tế của NV-Embed
  6. Bắt đầu sử dụng NV-Embed

1. NV-Embed: Mô hình nhúng văn bản mạnh mẽ

Mô hình nhúng văn bản mới nhất của NVIDIA, NV-Embed, đã thiết lập kỷ lục về độ chính xác nhúng với điểm số 69,32 trên tiêu chuẩn đánh giá Massive Text Embedding Benchmark (MTEB), bao gồm 56 tác vụ nhúng.

Các mô hình chính xác và hiệu quả như NV-Embed đóng vai trò quan trọng trong việc chuyển đổi lượng dữ liệu khổng lồ thành những thông tin có thể hành động được. NVIDIA cung cấp các mô hình hiệu suất cao thông qua danh mục API của NVIDIA.

2. Hiểu rõ các tiêu chuẩn đánh giá mô hình nhúng

Để đánh giá độ chính xác của các mô hình nhúng, chúng ta cần xem xét các tiêu chuẩn đánh giá chính:

  • Normalized discounted cumulative gain (NDCG): Là tiêu chuẩn đánh giá dựa trên thứ hạng, đo lường độ liên quan và thứ tự của thông tin được thu thập.
  • Recall: Là tiêu chuẩn đánh giá không dựa trên thứ hạng, đo lường phần trăm kết quả liên quan được thu thập.

3. MTEB và BEIR: Tiêu chuẩn đánh giá cho các ứng dụng thu thập thông tin

Hai tiêu chuẩn đánh giá được sử dụng phổ biến nhất trong lĩnh vực thu thập thông tin là:

  • MTEB: Bao gồm 56 tác vụ khác nhau, bao gồm thu thập thông tin, phân loại, sắp xếp lại, phân cụm, tóm tắt và nhiều hơn nữa.
  • BEIR: Tập trung vào tác vụ thu thập thông tin và thêm độ phức tạp về các loại và lĩnh vực câu hỏi, chẳng hạn như kiểm tra thực tế, câu hỏi sinh học hoặc phát hiện câu hỏi trùng lặp.

4. Hiệu suất vượt trội của NV-Embed

NV-Embed đạt được điểm số NDCG@10 là 69,32 trên MTEB, cao hơn so với các mô hình hàng đầu khác. Một số cải tiến chính giúp NV-Embed đạt được hiệu quả vượt trội:

  • Lớp chú ý tiềm ẩn mới: Giúp đơn giản hóa quá trình kết hợp các đại diện toán học (nhúng) của một chuỗi từ (chuỗi mã thông báo).
  • Quá trình học hai giai đoạn: Giai đoạn đầu sử dụng các cặp âm tính trong lô và các cặp âm tính khó để học tương phản. Giai đoạn hai kết hợp dữ liệu từ các tác vụ không phải thu thập thông tin để học tương phản và vô hiệu hóa huấn luyện âm tính trong lô.

5. Ứng dụng thực tế của NV-Embed

NV-Embed có thể được sử dụng để nâng cao hiệu suất của các ứng dụng thu thập thông tin, chẳng hạn như:

  • Nói chuyện với dữ liệu (Talk to your data): Cho phép người dùng đặt câu hỏi cho dữ liệu không cấu trúc và nhận được câu trả lời chính xác.
  • Hỗ trợ tìm kiếm: Cung cấp kết quả tìm kiếm liên quan hơn và chính xác hơn.

6. Bắt đầu sử dụng NV-Embed

Bạn có thể trải nghiệm NV-Embed thông qua danh mục API của NVIDIA. Ngoài ra, bạn có thể sử dụng bộ sưu tập vi dịch vụ NVIDIA NeMo Retriever, được thiết kế để cho phép các tổ chức kết nối liền mạch các mô hình tùy chỉnh với dữ liệu kinh doanh đa dạng và cung cấp phản hồi chính xác cao.

NVIDIA logo

0 comments Blogger 0 Facebook

Đăng nhận xét

 
Agent.ai.vn © 2024 - Nắm bắt tương lai
Top