Mục lục


Giới thiệu

Một nghiên cứu khảo sát mới toàn diện từ các nhà nghiên cứu Microsoft và các đối tác học thuật cho thấy các tác nhân trí tuệ nhân tạo (AI) được hỗ trợ bởi các mô hình ngôn ngữ lớn (LLM) đang ngày càng có khả năng điều khiển giao diện người dùng đồ họa (GUI), có khả năng thay đổi cách con người tương tác với phần mềm.


Tự động hóa GUI bằng AI: Một bước tiến đột phá

Công nghệ này về cơ bản cho phép các hệ thống AI có khả năng nhìn thấy và thao tác giao diện máy tính giống như con người – nhấp vào nút, điền vào biểu mẫu và điều hướng giữa các ứng dụng. Thay vì yêu cầu người dùng học các lệnh phần mềm phức tạp, các “tác nhân GUI” này có thể giải thích các yêu cầu ngôn ngữ tự nhiên và tự động thực hiện các hành động cần thiết.

“Những tác nhân này đại diện cho một sự thay đổi mô hình, cho phép người dùng thực hiện các tác vụ phức tạp, nhiều bước thông qua các lệnh hội thoại đơn giản,” các nhà nghiên cứu viết. “Ứng dụng của chúng trải rộng trên việc điều hướng web, tương tác ứng dụng di động và tự động hóa máy tính để bàn, mang lại trải nghiệm người dùng chuyển đổi cách thức cá nhân tương tác với phần mềm.”

Hãy tưởng tượng bạn có một trợ lý điều hành rất giỏi có thể vận hành bất kỳ chương trình phần mềm nào thay cho bạn. Bạn chỉ cần nói với trợ lý những gì bạn muốn hoàn thành, và họ sẽ xử lý tất cả các chi tiết kỹ thuật để thực hiện điều đó.


Sự trỗi dậy của trợ lý AI doanh nghiệp: Thay đổi mọi thứ

Các công ty công nghệ lớn đang chạy đua để tích hợp các khả năng này vào sản phẩm của họ. Power Automate của Microsoft sử dụng LLM để giúp người dùng tạo luồng công việc tự động trên các ứng dụng. Trợ lý AI Copilot của công ty có thể trực tiếp điều khiển phần mềm dựa trên các lệnh văn bản. Chức năng Sử dụng Máy tính của Anthropic cho Claude cho phép AI tương tác với giao diện web và thực hiện các tác vụ phức tạp. Google được cho là đang phát triển Project Jarvis, một hệ thống AI sẽ sử dụng trình duyệt Chrome để thực hiện các tác vụ dựa trên web như nghiên cứu, mua sắm và đặt vé du lịch, mặc dù khả năng này vẫn đang được phát triển và chưa được phát hành công khai.

“Sự ra đời của các Mô hình Ngôn ngữ Lớn, đặc biệt là các mô hình đa phương thức, đã mở ra một kỷ nguyên mới của tự động hóa GUI,” bài báo lưu ý. “Chúng đã chứng minh khả năng vượt trội trong việc hiểu ngôn ngữ tự nhiên, tạo mã, tổng quát hóa nhiệm vụ và xử lý hình ảnh.”

Điều này đại diện cho một cơ hội thị trường tiềm năng trị giá 68,9 tỷ đô la vào năm 2028, theo các nhà phân tích tại BCC Research, khi các doanh nghiệp tìm cách tự động hóa các tác vụ lặp đi lặp lại và làm cho phần mềm của họ dễ tiếp cận hơn với người dùng không phải kỹ thuật. Thị trường dự kiến sẽ tăng từ 8,3 tỷ đô la vào năm 2022 lên con số này, với tốc độ tăng trưởng hàng năm kép (CAGR) là 43,9% trong giai đoạn dự báo.

Biểu đồ thể hiện sự tăng trưởng nhanh chóng của các tác nhân AI có khả năng điều khiển phần mềm, với sự xuất hiện của các mô hình mới từ các nhà nghiên cứu và công ty công nghệ kể từ năm 2023, được phân loại theo ứng dụng của chúng trên các nền tảng web, di động và máy tính. (Nguồn: arxiv.org)
Biểu đồ thể hiện sự tăng trưởng nhanh chóng của các tác nhân AI có khả năng điều khiển phần mềm, với sự xuất hiện của các mô hình mới từ các nhà nghiên cứu và công ty công nghệ kể từ năm 2023, được phân loại theo ứng dụng của chúng trên các nền tảng web, di động và máy tính. (Nguồn: arxiv.org)

Tác động đến doanh nghiệp: Thách thức và cơ hội trong tự động hóa AI

Tuy nhiên, vẫn còn những trở ngại đáng kể trước khi công nghệ này được áp dụng rộng rãi trong doanh nghiệp. Các nhà nghiên cứu xác định một số hạn chế chính, bao gồm các mối quan tâm về quyền riêng tư khi các tác nhân xử lý dữ liệu nhạy cảm, các hạn chế về hiệu suất tính toán và nhu cầu về các đảm bảo an toàn và độ tin cậy tốt hơn.

“Mặc dù chúng hiệu quả đối với các luồng công việc được xác định trước, nhưng các phương pháp này lại thiếu tính linh hoạt và khả năng thích ứng cần thiết cho các ứng dụng thực tế năng động,” bài báo nêu rõ về các phương pháp tự động hóa trước đây.

Nhóm nghiên cứu đưa ra một lộ trình chi tiết để giải quyết những thách thức này, nhấn mạnh tầm quan trọng của việc phát triển các mô hình hiệu quả hơn có thể chạy cục bộ trên thiết bị, thực hiện các biện pháp bảo mật mạnh mẽ và tạo ra các khung đánh giá tiêu chuẩn hóa.

“Bằng cách kết hợp các biện pháp bảo vệ và hành động có thể tùy chỉnh, các tác nhân này đảm bảo hiệu quả và bảo mật khi xử lý các lệnh phức tạp,” các nhà nghiên cứu lưu ý, nhấn mạnh tiến độ gần đây trong việc làm cho công nghệ này sẵn sàng cho doanh nghiệp.

Đối với các nhà lãnh đạo công nghệ doanh nghiệp, sự xuất hiện của các tác nhân GUI được hỗ trợ bởi LLM vừa là một cơ hội vừa là một vấn đề chiến lược. Mặc dù công nghệ này hứa hẹn sẽ mang lại năng suất đáng kể thông qua tự động hóa, các tổ chức sẽ cần phải cẩn thận đánh giá các tác động về an ninh và yêu cầu cơ sở hạ tầng của việc triển khai các hệ thống AI này.

“Lĩnh vực tác nhân GUI đang hướng tới các kiến trúc đa tác nhân, khả năng đa phương thức, các tập hợp hành động đa dạng và các chiến lược ra quyết định mới,” bài báo giải thích. “Những đổi mới này đánh dấu những bước tiến đáng kể hướng tới việc tạo ra các tác nhân thông minh, có khả năng thích ứng, có khả năng hoạt động hiệu quả cao trong các môi trường đa dạng và năng động.”

Các chuyên gia trong ngành dự đoán rằng đến năm 2025, ít nhất 60% các doanh nghiệp lớn sẽ thử nghiệm một số dạng tác nhân tự động hóa GUI, có khả năng dẫn đến sự gia tăng năng suất đáng kể nhưng cũng đặt ra những câu hỏi quan trọng về quyền riêng tư dữ liệu và việc thay thế công việc.


Kết luận

Khảo sát toàn diện cho thấy chúng ta đang ở một điểm bùng phát nơi các giao diện AI đàm thoại có thể thay đổi cơ bản cách con người tương tác với phần mềm – mặc dù việc hiện thực hóa tiềm năng này sẽ đòi hỏi sự tiến bộ liên tục cả trong công nghệ cơ bản và các hoạt động triển khai doanh nghiệp.

“Những phát triển này đang đặt nền móng cho các tác nhân linh hoạt và mạnh mẽ hơn, có khả năng xử lý các môi trường phức tạp và năng động,” các nhà nghiên cứu kết luận, chỉ ra một tương lai nơi các trợ lý AI trở thành một phần không thể thiếu trong cách chúng ta làm việc với máy tính.


Hình ảnh minh họa: Robot pixel sử dụng máy tính.
Hình ảnh minh họa: Robot pixel sử dụng máy tính.

0 comments Blogger 0 Facebook

Đăng nhận xét

 
Agent.ai.vn © 2024 - Nắm bắt tương lai
Top