Các Mô Hình AI Ấn Độ Làm Nên Lịch Sử Năm 2024

Mục lục


Giới thiệu

Năm 2024 chứng kiến bước ngoặt đáng kể trong lĩnh vực trí tuệ nhân tạo (AI) tại Ấn Độ. Với sự hỗ trợ mạnh mẽ từ chính phủ dành cho các công ty khởi nghiệp AI nội địa, quốc gia này đang trải qua những thay đổi lớn trong các lĩnh vực công nghệ và kinh doanh. Sự tích hợp các ngôn ngữ địa phương, tính phù hợp về văn hoá và các ứng dụng thực tiễn đã giúp các mô hình AI trong năm nay không chỉ trao quyền cho các doanh nghiệp Ấn Độ mà còn thiết lập các chuẩn mực mới cho hệ sinh thái AI toàn cầu. Bài viết này sẽ điểm lại những mô hình AI ấn tượng nhất được ra mắt tại Ấn Độ trong năm 2024, tập trung vào cách chúng thúc đẩy sự phát triển AI của Ấn Độ trên trường quốc tế.


BharatGen và e-vikrAI

Chính phủ Ấn Độ gần đây đã công bố BharatGen, sáng kiến đầu tiên do chính phủ tài trợ nhằm phát triển các mô hình ngôn ngữ lớn (LLM) đa phương thức. BharatGen hướng đến mục tiêu xây dựng "GenAI cho Bharat, bởi Bharat". Sáng kiến này đã ra mắt e-vikrAI – một giải pháp tiên tiến được hỗ trợ bởi Mô hình Ngôn ngữ Hình ảnh, được thiết kế dành cho hình ảnh sản phẩm trong thương mại điện tử Ấn Độ. e-vikrAI đơn giản hóa việc lập danh mục cho người bán, loại bỏ nhu cầu nhập liệu thủ công. Chỉ cần tải lên hình ảnh sản phẩm, người bán sẽ nhận được các gợi ý về tiêu đề, mô tả, tính năng và giá cả tự động tạo, tất cả đều dựa trên sự hiểu biết sâu sắc về văn hóa Ấn Độ.


NVIDIA Nemotron-4-Mini-Hindi-4B và Dự Án Indus 2.0

Trong chuyến thăm Ấn Độ, Giám đốc điều hành của NVIDIA, Jensen Huang, đã ra mắt mô hình Nemotron-4-Mini-Hindi-4B, một mô hình ngôn ngữ tiếng Hindi nhỏ gọn nhưng mạnh mẽ, được thiết kế để giúp các doanh nghiệp tạo ra các giải pháp AI đáp ứng nhu cầu khu vực. Mô hình này, là một phần của dịch vụ vi mô NIM của NVIDIA, có thể được triển khai trên các hệ thống được tăng tốc bằng GPU của NVIDIA, tối ưu hóa hiệu suất cho nhiều ứng dụng khác nhau. Tech Mahindra là công ty đầu tiên triển khai mô hình này, tạo ra Indus 2.0, tập trung vào tiếng Hindi và các phương ngữ của nó. Mô hình tiếng Hindi Nemotron có 4 tỷ tham số và được lấy từ mô hình đa ngôn ngữ 15 tỷ tham số, Nemotron-4. Nó được huấn luyện với dữ liệu tiếng Hindi thực tế và dữ liệu tổng hợp, bao gồm cả tiếng Anh. Sau khi được tinh chỉnh với NVIDIA NeMo, nó dẫn đầu nhiều tiêu chuẩn chính xác cho các mô hình AI với tối đa 8 tỷ tham số. Được đóng gói dưới dạng một dịch vụ vi mô, nó hỗ trợ nhiều ứng dụng trong ngành, bao gồm giáo dục và chăm sóc sức khỏe.


Krutrim

Đầu năm nay, Ola Krutrim của Bhavish Aggarwal đã ra mắt mô hình AI đầu tiên của mình, Krutrim. Mô hình này có thể hiểu 22 ngôn ngữ Ấn Độ và tạo văn bản bằng 10 ngôn ngữ, bao gồm tiếng Hindi, Marathi, Bengali, Tamil, Kannada, Telugu, Odia, Gujarati và Malayalam. Krutrim được huấn luyện trên hơn 2 nghìn tỷ mã thông báo, với sự tập trung mạnh mẽ vào dữ liệu Ấn Độ, làm cho nó đặc biệt phù hợp để phản ánh các sắc thái của di sản và văn hóa Ấn Độ.


Sarvam-1

Công ty khởi nghiệp AI của Ấn Độ Sarvam AI đã ra mắt Sarvam-1, LLM đầu tiên được tối ưu hóa đặc biệt cho các ngôn ngữ Ấn Độ. Được phát triển với 2 tỷ tham số, Sarvam-1 hỗ trợ 10 ngôn ngữ chính của Ấn Độ – Bengali, Gujarati, Hindi, Kannada, Malayalam, Marathi, Oriya, Punjabi, Tamil và Telugu. Một trong những tính năng chính của Sarvam-1 là hiệu quả tính toán. Mô hình này cung cấp tốc độ suy luận nhanh hơn từ bốn đến sáu lần so với các mô hình lớn hơn như Gemma-2-9B và Llama-3.1-8B trong khi vẫn duy trì mức hiệu suất cạnh tranh. Điều này làm cho Sarvam-1 đặc biệt phù hợp để triển khai trong các môi trường sản xuất, bao gồm cả các thiết bị edge nơi tài nguyên tính toán có thể bị hạn chế.


Surya OCR

Surya OCR là một bộ công cụ nhận dạng ký tự quang học (OCR) toàn diện được phát triển để xử lý nhiều loại tài liệu và ngôn ngữ khác nhau. Được tạo ra bởi Vik Paruchuri, nó gần đây đã ra mắt phiên bản v2, cung cấp độ chính xác được cải thiện trên tất cả các loại tài liệu và vượt trội hơn cả Tesseract và Google Cloud OCR. Surya có thể phát hiện các yếu tố bố cục khác nhau như bảng, hình ảnh, tiêu đề, v.v., và xác định cách sắp xếp của chúng trong tài liệu. Surya OCR có thể dễ dàng cài đặt thông qua pip và yêu cầu Python 3.9+ cùng với PyTorch. Trọng lượng của mô hình được tải xuống tự động trong lần chạy đầu tiên, đơn giản hóa quá trình thiết lập. Một API đáng tin cậy cũng có sẵn cho những người thích các giải pháp được lưu trữ. API này hỗ trợ nhiều định dạng tài liệu và đảm bảo hiệu suất nhất quán cho các nhu cầu OCR khác nhau. Surya cũng cung cấp một giao diện dòng lệnh mạnh mẽ, cho phép người dùng thực hiện các tác vụ như OCR, phát hiện văn bản, phân tích bố cục và phát hiện thứ tự đọc trực tiếp từ thiết bị đầu cuối. Ngoài ra, Surya có thể được tích hợp vào các script Python, cho phép các đường dẫn OCR tùy chỉnh và quy trình tiền xử lý cho các trường hợp sử dụng nâng cao hơn.


Everest 1.0

Hanooman của SML đã giới thiệu Everest 1.0, một hệ thống AI đa ngôn ngữ hỗ trợ các ngôn ngữ Ấn Độ, bao gồm tiếng Hindi, Bengali, Tamil và Telugu. Hiện tại, nó hỗ trợ 35 ngôn ngữ, với kế hoạch mở rộng lên 90 ngôn ngữ trong những tháng tới. Được cung cấp bởi kiến ​​trúc mô hình chuyên gia thực thi (EEM), Everest 1.0 xử lý các tác vụ như truy cập dữ liệu thời gian thực, thông tin dự đoán và phân tích hình ảnh. Nó tìm cách cải thiện khả năng tiếp cận và tính bao trùm trong các lĩnh vực như dịch vụ khách hàng, giáo dục, chăm sóc sức khỏe và tài chính.


Chitralekha

Chitralekha là một nền tảng tạo video nguồn mở được hỗ trợ bởi Quỹ EkStep và được xây dựng bằng các mô hình AI được phát triển nội bộ bởi AI4Bhārat. Nền tảng này mở rộng để nâng cấp và tích hợp các tính năng mới. Ban đầu được phát triển để chú thích video, nó cho phép người dùng tự động tạo và chỉnh sửa bản ghi âm bằng các ngôn ngữ Ấn Độ. Các tính năng chính của nó bao gồm tạo và tải xuống phụ đề, lồng tiếng âm thanh/video và dịch video sang nhiều ngôn ngữ Ấn Độ.


Airavata

Airavata là một LLM được tinh chỉnh bằng hướng dẫn nguồn mở cho tiếng Hindi, được phát triển bởi AI4Bharat, một phòng thí nghiệm nghiên cứu tại IIT Madras. Được phát hành vào năm 2024, Airavata được tạo ra bằng cách tinh chỉnh mô hình OpenHathi (được phát triển bởi Sarvam AI) bằng các bộ dữ liệu tinh chỉnh hướng dẫn đa dạng bằng tiếng Hindi. Mô hình, được đặt tên theo từ tiếng Phạn có nghĩa là "voi", cải thiện hiệu suất trên nhiều tác vụ hỗ trợ bằng tiếng Hindi. Airavata được huấn luyện bằng các bộ dữ liệu thân thiện với giấy phép, được quản lý bởi con người, bao gồm cả các phiên bản được dịch của các bộ dữ liệu tinh chỉnh hướng dẫn bằng tiếng Anh, để đảm bảo tính bền vững và tránh các hạn chế về cấp phép.


Sutra

Two AI, một công ty khởi nghiệp do Pranav Mistry thành lập, đã giới thiệu một họ mô hình được gọi là SUTRA. Kiến trúc bộ chuyển đổi kép của nó cung cấp các giải pháp AI đa ngôn ngữ, hiệu quả về chi phí bằng hơn 50 ngôn ngữ, bao gồm một số ngôn ngữ Nam Á như Gujarati, Marathi, Tamil và Telugu. Mô hình này có hai bộ chuyển đổi hỗn hợp của các chuyên gia: một mô hình khái niệm và một bộ mã hóa-giải mã để dịch, hoạt động cùng nhau để mang lại khả năng xử lý ngôn ngữ hiệu quả và chính xác.


Devika

Devika là một kỹ sư phần mềm AI nguồn mở do Mufeed VH, một nhà phát triển 21 tuổi đến từ Kerala, phát triển. Được tạo ra như một sự thay thế cho Devin AI của Cognition Labs, Devika hiểu các hướng dẫn của con người ở cấp độ cao, chia nhỏ chúng thành các bước, nghiên cứu thông tin có liên quan và viết mã để đạt được các mục tiêu đã cho. Devika sử dụng các mô hình AI tiên tiến như Claude 3, GPT-4, GPT-3.5 và LLM cục bộ thông qua Ollama. Nó có thể thực thi mã mà nó tạo ra, tự động sửa lỗi và thậm chí triển khai các trang web tĩnh trên Netlify.


Kết luận

Những mô hình AI này minh chứng cho sự tiến bộ nhanh chóng của Ấn Độ trong lĩnh vực AI, đặc biệt là trong việc ứng dụng AI vào giải quyết các vấn đề thực tế của người dân và doanh nghiệp. Sự kết hợp giữa tài trợ chính phủ, sự đổi mới của các công ty khởi nghiệp và cộng đồng nguồn mở đã tạo nên một hệ sinh thái AI năng động và đầy triển vọng tại Ấn Độ, góp phần vào sự phát triển chung của lĩnh vực AI toàn cầu.

Logo

0 comments Blogger 0 Facebook

Đăng nhận xét

 
Agent.ai.vn © 2024 - Nắm bắt tương lai
Top