Mục lục:
1. Giới thiệu:
Mẫu ngôn ngữ lớn (LLM) mã nguồn mở đang trở nên ngày càng mạnh mẽ và là một lựa chọn thay thế khả thi cho các LLM thương mại như GPT-4 và Gemini. Do chi phí của phần cứng tăng tốc AI, các nhà phát triển đang xem xét các API để sử dụng các mô hình ngôn ngữ tiên tiến.
Trong khi các nền tảng đám mây như Azure OpenAI, Amazon Bedrock và Google Cloud Vertex AI là lựa chọn rõ ràng, nhưng có những nền tảng được xây dựng riêng biệt, nhanh hơn và rẻ hơn so với các nhà cung cấp siêu quy mô.
Bài viết này giới thiệu 5 nền tảng suy luận AI thế hệ mới để sử dụng các LLM mở như Llama 3, Mistral và Gemma. Một số trong số chúng cũng hỗ trợ các mô hình cơ bản nhắm mục tiêu đến thị giác.
2. Groq
Groq là một công ty cơ sở hạ tầng AI tuyên bố xây dựng công nghệ suy luận AI nhanh nhất thế giới. Sản phẩm chủ lực của họ là Language Processing Units (LPU) Inference Engine, một nền tảng phần cứng và phần mềm với mục tiêu mang lại tốc độ tính toán, chất lượng và hiệu quả năng lượng vượt trội cho các ứng dụng AI. Các nhà phát triển yêu thích Groq vì tốc độ và hiệu suất của nó.
Một mạng lưới LPU được mở rộng cung cấp năng lượng cho dịch vụ GroqCloud, cho phép người dùng sử dụng các LLM mã nguồn mở phổ biến, như Llama 3 70B của Meta AI với tốc độ (theo tuyên bố) nhanh hơn gấp 18 lần so với các nhà cung cấp khác. Bạn có thể sử dụng SDK khách hàng Python hoặc SDK khách hàng OpenAI của Groq để sử dụng API. Rất dễ dàng để tích hợp Groq với LangChain và LlamaIndex để xây dựng các ứng dụng LLM và chatbot nâng cao.
Về giá cả, Groq cung cấp nhiều lựa chọn. Đối với dịch vụ đám mây của họ, họ tính phí dựa trên số lượng mã thông báo được xử lý - với giá dao động từ 0,06 đến 0,27 đô la cho mỗi triệu mã thông báo, tùy thuộc vào mô hình được sử dụng. Bậc miễn phí là một cách tuyệt vời để bắt đầu sử dụng Groq.
3. Perplexity Labs
Perplexity đang nhanh chóng trở thành một lựa chọn thay thế cho Google và Bing. Mặc dù sản phẩm chính của nó là một công cụ tìm kiếm được hỗ trợ bởi AI, nhưng họ cũng có một công cụ suy luận được cung cấp thông qua Perplexity Labs.
Vào tháng 10 năm 2023, Perplexity Labs đã giới thiệu pplx-api, một API được thiết kế để tạo điều kiện thuận lợi cho việc truy cập nhanh chóng và hiệu quả vào các LLM mã nguồn mở. Hiện đang trong giai đoạn beta công khai, pplx-api cho phép người dùng có đăng ký Perplexity Pro truy cập API, cho phép một cơ sở người dùng rộng lớn thử nghiệm và cung cấp phản hồi, điều này giúp Perplexity Labs liên tục nâng cao công cụ.
API hỗ trợ các LLM phổ biến, bao gồm Mistral 7B, Llama 13B, Code Llama 34B và Llama 70B. Nó được thiết kế để tiết kiệm chi phí cho cả việc triển khai và suy luận, với tiết kiệm chi phí đáng kể được báo cáo bởi Perplexity Labs. Người dùng có thể tích hợp API một cách liền mạch với các ứng dụng hiện có bằng cách sử dụng giao diện tương thích với khách hàng OpenAI, giúp việc này thuận tiện cho các nhà phát triển quen thuộc với hệ sinh thái của OpenAI. Để có cái nhìn tổng quan nhanh chóng, hãy tham khảo hướng dẫn của tôi về API Perplexity.
Nền tảng cũng bao gồm llama-3-sonar-small-32k-online và llama-3-sonar-large-32k-online, dựa trên bài báo FreshLLM. Những mô hình này, dựa trên Llama3, có thể trả về trích dẫn - một tính năng hiện đang trong giai đoạn beta kín.
Perplexity Labs cung cấp một mô hình định giá linh hoạt cho API của họ. Kế hoạch trả theo nhu cầu tính phí người dùng dựa trên số lượng mã thông báo được xử lý, giúp nó có thể truy cập mà không cần cam kết trước. Kế hoạch Pro, với giá 20 đô la mỗi tháng hoặc 200 đô la mỗi năm, bao gồm 5 đô la tín dụng hàng tháng cho việc sử dụng API, tải lên tệp không giới hạn và hỗ trợ chuyên dụng.
Giá dao động từ 0,20 đến 1,00 đô la cho mỗi triệu mã thông báo, tùy thuộc vào kích thước của mô hình. Ngoài phí mã thông báo, các mô hình trực tuyến phải trả phí cố định là 5 đô la cho mỗi nghìn yêu cầu.
4. Fireworks AI
Fireworks AI là một nền tảng AI thế hệ mới cho phép các nhà phát triển tận dụng các mô hình mã nguồn mở tiên tiến cho các ứng dụng của họ. Nó cung cấp một loạt các mô hình ngôn ngữ, bao gồm FireLLaVA-13B (một mô hình ngôn ngữ thị giác), FireFunction V1 (cho việc gọi hàm), Mixtral MoE 8x7B và 8x22B (các mô hình tuân theo hướng dẫn) và mô hình Llama 3 70B từ Meta.
Ngoài các mô hình ngôn ngữ, Fireworks AI hỗ trợ các mô hình tạo ảnh như Stable Diffusion 3 và Stable Diffusion XL. Các mô hình này có thể được truy cập thông qua API không máy chủ của Fireworks AI, mà công ty cho biết cung cấp hiệu suất và thông lượng hàng đầu ngành.
Nền tảng có một mô hình định giá cạnh tranh. Nó cung cấp một cấu trúc định giá trả theo nhu cầu dựa trên số lượng mã thông báo được xử lý. Ví dụ: mô hình Gemma 7B có giá 0,20 đô la cho mỗi triệu mã thông báo, trong khi mô hình Mixtral 8x7B có giá 0,50 đô la cho mỗi triệu mã thông báo. Fireworks AI cũng cung cấp việc triển khai theo yêu cầu, trong đó người dùng có thể thuê các trường hợp GPU (A100 hoặc H100) theo giờ. API tương thích với OpenAI, giúp dễ dàng tích hợp với LangChain và LlamaIndex.
Fireworks AI nhắm mục tiêu đến các nhà phát triển, doanh nghiệp và doanh nghiệp với các mức giá khác nhau. Bậc Developer cung cấp giới hạn tốc độ 600 yêu cầu/phút và tối đa 100 mô hình được triển khai, trong khi các bậc Business và Enterprise cung cấp giới hạn tốc độ tùy chỉnh, tính năng cộng tác nhóm và hỗ trợ chuyên dụng.
5. Cloudflare
Cloudflare AI Workers là một nền tảng suy luận cho phép các nhà phát triển chạy các mô hình máy học trên mạng lưới toàn cầu của Cloudflare chỉ với một vài dòng mã. Nó cung cấp một giải pháp không máy chủ và có thể mở rộng cho suy luận AI được tăng tốc GPU, cho phép các nhà phát triển tận dụng các mô hình được đào tạo trước cho nhiều nhiệm vụ - bao gồm tạo văn bản, nhận dạng hình ảnh và nhận dạng giọng nói - mà không cần quản lý cơ sở hạ tầng hoặc GPU.
Cloudflare AI Workers cung cấp một bộ các mô hình mã nguồn mở phổ biến được tuyển chọn, bao gồm một loạt các nhiệm vụ AI. Một số mô hình đáng chú ý được hỗ trợ bao gồm llama-3-8b-instruct, mistral-8x7b-32k-instruct, gemma-7b-instruct và thậm chí cả các mô hình thị giác như vit-base-patch16-224 và segformer-b5-finetuned-ade-512-pt.
Cloudflare AI Workers cung cấp các điểm tích hợp linh hoạt để kết hợp khả năng AI vào các ứng dụng hiện có hoặc tạo ra các ứng dụng mới. Các nhà phát triển có thể sử dụng môi trường thực thi không máy chủ của Cloudflare, Workers và Pages Functions để chạy các mô hình AI trong các ứng dụng của họ. Đối với những người thích tích hợp với ngăn xếp hiện tại của họ, một REST API có sẵn, cho phép các yêu cầu suy luận từ bất kỳ ngôn ngữ hoặc khung nào. API hỗ trợ các nhiệm vụ như tạo văn bản, phân loại hình ảnh và nhận dạng giọng nói, và các nhà phát triển có thể nâng cao các ứng dụng AI của mình bằng cách sử dụng Vectorize (một cơ sở dữ liệu vectơ) và AI Gateway (một mặt phẳng điều khiển để quản lý các mô hình và dịch vụ AI) của Cloudflare.
Cloudflare AI Workers sử dụng một mô hình định giá trả theo nhu cầu dựa trên số lượng nơ-ron được xử lý, cung cấp một giải pháp giá cả phải chăng cho suy luận AI. Bởi vì nền tảng cung cấp một bộ đa dạng các mô hình vượt ra ngoài LLM, nên nơ-ron hoạt động như một đơn vị giống như mã thông báo. Tất cả các tài khoản đều có một bậc miễn phí cho phép 10.000 nơ-ron mỗi ngày, trong đó một nơ-ron gộp việc sử dụng trên nhiều mô hình khác nhau. Ngoài ra, Cloudflare tính phí 0,011 đô la cho mỗi 1.000 nơ-ron bổ sung. Chi phí thay đổi theo kích thước mô hình; ví dụ: Llama 3 70B có giá 0,59 đô la cho mỗi triệu mã thông báo đầu vào và 0,79 đô la cho mỗi triệu mã thông báo đầu ra, trong khi Gemma 7B có giá 0,07 đô la cho mỗi triệu mã thông báo cho cả đầu vào và đầu ra.
6. Nvidia NIM
API Nvidia NIM cung cấp quyền truy cập vào một loạt các mô hình ngôn ngữ lớn được đào tạo trước và các mô hình AI khác được tối ưu hóa và tăng tốc bởi bộ phần mềm của Nvidia. Thông qua Danh mục API Nvidia, các nhà phát triển có thể khám phá và thử nghiệm hơn 40 mô hình khác nhau từ Nvidia, Meta, Microsoft, Hugging Face và các nhà cung cấp khác. Bao gồm các mô hình tạo văn bản mạnh mẽ như Llama 3 70B của Meta, Mixtral 8x22B của Microsoft và Nemotron 3 8B của chính Nvidia, cũng như các mô hình thị giác như Stable Diffusion và Kosmos 2.
API NIM cho phép các nhà phát triển dễ dàng tích hợp các mô hình AI tiên tiến này vào các ứng dụng của họ chỉ với một vài dòng mã. Các mô hình được lưu trữ trên cơ sở hạ tầng của Nvidia và được hiển thị thông qua một API tương thích với OpenAI được tiêu chuẩn hóa, cho phép tích hợp liền mạch. Các nhà phát triển có thể tạo nguyên mẫu và thử nghiệm các ứng dụng của họ miễn phí bằng cách sử dụng API được lưu trữ, với tùy chọn triển khai các mô hình tại chỗ hoặc trên đám mây bằng cách sử dụng các container Nvidia NIM được ra mắt gần đây khi sẵn sàng cho sản xuất.
Nvidia cung cấp cả bậc miễn phí và trả phí cho API NIM. Bậc miễn phí bao gồm 1.000 tín dụng để bắt đầu, trong khi định giá trả phí dựa trên số lượng mã thông báo được xử lý và kích thước mô hình, dao động từ 0,07 đô la cho mỗi triệu mã thông báo cho các mô hình nhỏ hơn như Gemma 7B, lên đến 0,79 đô la cho mỗi triệu mã thông báo đầu ra cho các mô hình lớn như Llama 3 70B.
7. Kết luận
Danh sách trên là một phần của các nền tảng suy luận cung cấp các mô hình ngôn ngữ như một dịch vụ. Trong một bài viết sắp tới, tôi sẽ đề cập đến các máy chủ mô hình tự lưu trữ và các công cụ suy luận có thể chạy trên Kubernetes. Hãy theo dõi.

0 comments Blogger 0 Facebook
Đăng nhận xét