Trợ lý lập trình AI tốt nhất năm 2024 (và những cái tên nên tránh)

Là một người đã gắn bó với công nghệ đủ lâu, hiếm có điều gì khiến tôi thực sự phấn khích, và càng hiếm điều gì khiến tôi ngạc nhiên. Nhưng ngay sau khi ChatGPT của OpenAI ra mắt, tôi đã thử thách nó viết một plugin WordPress cho website bán hàng của vợ tôi. Và kết quả là, nó đã làm được, và plugin hoạt động hoàn hảo. Điều đó thực sự khiến tôi bất ngờ.

Sự kiện đó đã khơi mào cho hành trình khám phá sâu hơn của tôi vào thế giới chatbot và lập trình hỗ trợ bởi AI. Kể từ đó, tôi đã thử nghiệm 10 mô hình ngôn ngữ lớn (LLM) với bốn bài kiểm tra thực tế.

Tuy nhiên, không phải chatbot nào cũng có khả năng lập trình như nhau. Đã 18 tháng trôi qua kể từ bài kiểm tra đầu tiên đó, và cho đến nay, 5 trong số 10 LLM mà tôi thử nghiệm vẫn chưa thể tạo ra một plugin hoạt động.

Trong bài viết này, tôi sẽ chia sẻ kết quả của từng LLM trong các bài kiểm tra của mình. Có hai chatbot mà tôi khuyên bạn nên sử dụng, nhưng chúng đều có giá 20 đô la mỗi tháng. Các phiên bản miễn phí của hai chatbot này cũng hoạt động khá tốt, bạn có thể cân nhắc sử dụng nếu không muốn trả phí. Nhưng phần còn lại, dù miễn phí hay trả phí, đều không thực sự tốt. Tôi sẽ không mạo hiểm các dự án lập trình của mình với chúng và cũng khuyên bạn không nên làm như vậy cho đến khi hiệu suất của chúng được cải thiện.

Lưu ý:

Để hiểu rõ hơn về các bài kiểm tra lập trình của tôi, lý do tôi chọn chúng và mức độ liên quan của chúng đến bài đánh giá 10 LLM này, vui lòng đọc bài viết: "Cách tôi kiểm tra khả năng lập trình của một chatbot AI - và bạn cũng có thể làm được".
Tôi đã viết rất nhiều về việc sử dụng AI để hỗ trợ lập trình. Trừ khi đó là một dự án nhỏ, đơn giản, như plugin của vợ tôi, AI không thể tự viết toàn bộ ứng dụng hoặc chương trình. Nhưng chúng rất giỏi trong việc viết một vài dòng code và cũng không tệ trong việc sửa lỗi code.
Để tìm hiểu thêm, hãy đọc bài viết: "Cách sử dụng ChatGPT để viết code: Những gì nó có thể và không thể làm cho bạn".

Tiếp theo, chúng ta sẽ xem xét từng chatbot một cách chi tiết. Bài viết sẽ thảo luận về 9 chatbot, mặc dù bảng trên hiển thị 10 LLM. Kết quả cho GPT-4 và GPT-4o đều được bao gồm trong ChatGPT Plus.

ChatGPT Plus: Chatbot AI tốt nhất cho lập trình

Ưu điểm:

Vượt qua tất cả các bài kiểm tra.
Kết quả lập trình đáng tin cậy.
Có ứng dụng dành cho Mac.

Nhược điểm:

Đôi khi gặp ảo giác (hallucination).
Chưa có ứng dụng dành cho Windows.
Đôi khi không hợp tác.

Thông tin chi tiết:

Giá: 20 đô la/tháng
LLM: GPT-4o, GPT-4, GPT-3.5
Giao diện trình duyệt trên desktop: Có
Ứng dụng dành riêng cho Mac: Có
Ứng dụng dành riêng cho Windows: Không
Xác thực đa yếu tố: Có
Vượt qua: 4/4 bài kiểm tra

ChatGPT Plus với GPT-4 và GPT-4o đã vượt qua tất cả các bài kiểm tra của tôi. Một trong những tính năng yêu thích của tôi là ứng dụng dành riêng. Khi tôi kiểm tra lập trình web, tôi có thể đặt trình duyệt của mình ở chế độ một cửa sổ, IDE mở và ứng dụng ChatGPT Mac chạy trên một màn hình riêng biệt.

Ngoài ra, Prompt Builder của Logitech, được kích hoạt bằng nút chuột, có thể được thiết lập để sử dụng GPT-4o nâng cao và kết nối với tài khoản OpenAI của bạn, giúp bạn chạy lời nhắc chỉ bằng một cú chạm ngón tay cái, rất tiện lợi.

Điều duy nhất tôi không thích là một trong những bài kiểm tra GPT-4o của tôi đã dẫn đến câu trả lời dạng lựa chọn kép, và một trong những câu trả lời đó là sai. Tôi muốn nó chỉ đưa ra câu trả lời đúng. Mặc dù vậy, một bài kiểm tra nhanh đã xác nhận câu trả lời nào sẽ hoạt động. Nhưng đó là một chút khó chịu. Tôi đã không gặp sự cố đó trong GPT-4, vì vậy hiện tại, đó là cài đặt LLM tôi sử dụng với ChatGPT khi lập trình.

Perplexity Pro: Chatbot AI tốt nhất để kiểm tra LLM

Ưu điểm:

Hỗ trợ nhiều LLM.
Hiển thị tiêu chí tìm kiếm.
Nguồn trích dẫn tốt.

Nhược điểm:

Đăng nhập chỉ bằng email.
Không có ứng dụng dành cho desktop.

Thông tin chi tiết:

Giá: 20 đô la/tháng
LLM: GPT-4o, Claude 3.5 Sonnet, Sonar Large, Claude 3 Opus, Llama 3.1 405B
Giao diện trình duyệt trên desktop: Có
Ứng dụng dành riêng cho Mac: Không
Ứng dụng dành riêng cho Windows: Không
Xác thực đa yếu tố: Không
Vượt qua: 4/4 bài kiểm tra

Tôi đã nghiêm túc cân nhắc liệt kê Perplexity Pro là chatbot AI tốt nhất cho lập trình, nhưng một điểm trừ đã khiến nó không thể vươn lên vị trí số 1: cách bạn đăng nhập. Perplexity không sử dụng tên người dùng/mật khẩu hoặc passkey và không có xác thực đa yếu tố. Tất cả những gì nó làm là gửi email cho bạn mã PIN đăng nhập. AI này cũng không có ứng dụng dành riêng cho desktop như ChatGPT dành cho Mac.

Điều khiến Perplexity khác biệt so với các công cụ khác là nó có thể chạy nhiều LLM. Mặc dù bạn không thể đặt LLM cho một phiên nhất định, bạn có thể dễ dàng vào cài đặt và chọn mô hình đang hoạt động.

Đối với lập trình, bạn có thể sẽ muốn gắn bó với GPT-4o, vì nó đã vượt qua tất cả các bài kiểm tra của chúng tôi. Tuy nhiên, có thể thú vị khi kiểm tra chéo code trên các LLM khác nhau. Ví dụ: nếu bạn yêu cầu GPT-4o viết một số code biểu thức chính quy, bạn có thể cân nhắc chuyển sang LLM khác để xem LLM đó nghĩ gì về code đã tạo.

Như chúng ta sẽ thấy bên dưới, hầu hết các LLM đều không đáng tin cậy, vì vậy đừng coi kết quả là tuyệt đối chính xác. Tuy nhiên, bạn có thể sử dụng kết quả để có thêm thông tin để kiểm tra code ban đầu của mình. Nó giống như một cuộc đánh giá code do AI điều khiển.

ChatGPT Free: Chatbot AI miễn phí tốt nhất cho lập trình

Ưu điểm:

Miễn phí.
Vượt qua hầu hết các bài kiểm tra.

Nhược điểm:

Giới hạn số lượng lời nhắc.
Có thể ngắt kết nối bạn giữa chừng khi bạn đang làm việc.

Thông tin chi tiết:

Giá: Miễn phí
LLM: GPT-4o, GPT-3.5
Giao diện trình duyệt trên desktop: Có
Ứng dụng dành riêng cho Mac: Có
Ứng dụng dành riêng cho Windows: Không
Xác thực đa yếu tố: Có
Vượt qua: 3/4 bài kiểm tra (ở chế độ GPT-3.5)

ChatGPT được cung cấp miễn phí cho mọi người. Mặc dù cả phiên bản Plus và miễn phí đều hỗ trợ GPT-4o, LLM đã vượt qua tất cả các bài kiểm tra lập trình của tôi, nhưng có những hạn chế khi sử dụng ứng dụng miễn phí.

OpenAI coi người dùng ChatGPT miễn phí như thể họ đang ở hạng vé rẻ. Nếu lưu lượng truy cập cao hoặc máy chủ bận, ChatGPT miễn phí sẽ chỉ cung cấp GPT-3.5 cho người dùng miễn phí. Công cụ cũng sẽ chỉ cho phép bạn một số lượng truy vấn nhất định trước khi hạ cấp hoặc ngắt kết nối bạn.

Tôi đã gặp một số trường hợp phiên bản ChatGPT miễn phí thông báo rằng tôi đã hỏi quá nhiều câu hỏi.

ChatGPT là một công cụ tuyệt vời, miễn là bạn không ngại bị ngắt kết nối đôi khi. Ngay cả GPT-3.5 cũng hoạt động tốt hơn trong các bài kiểm tra so với tất cả các chatbot khác và bài kiểm tra mà nó thất bại là dành cho một công cụ lập trình khá ít người biết đến được tạo bởi một lập trình viên duy nhất ở Úc.

Vì vậy, nếu ngân sách là vấn đề đối với bạn và bạn có thể chờ đợi khi bị ngắt kết nối, hãy sử dụng ChatGPT miễn phí.

Perplexity Free: Chatbot AI miễn phí tốt nhất cho lập trình và nghiên cứu

Ưu điểm:

Miễn phí.
Vượt qua hầu hết các bài kiểm tra.
Cung cấp nhiều công cụ nghiên cứu.

Nhược điểm:

Giới hạn ở GPT-3.5.
Giới hạn số lượng lời nhắc.

Thông tin chi tiết:

Giá: Miễn phí
LLM: GPT-3.5
Giao diện trình duyệt trên desktop: Có
Ứng dụng dành riêng cho Mac: Không
Ứng dụng dành riêng cho Windows: Không
Xác thực đa yếu tố: Không
Vượt qua: 3/4 bài kiểm tra

Vì phiên bản miễn phí của Perplexity AI dựa trên GPT-3.5, kết quả thử nghiệm tốt hơn hẳn so với các chatbot AI khác.

Từ góc độ lập trình, đó là tất cả những gì cần nói. Nhưng từ góc độ nghiên cứu và tổ chức, đồng nghiệp của tôi tại ZDNET, Steven Vaughan-Nichols, lại thích Perplexity hơn các AI khác.

Anh ấy thích cách Perplexity cung cấp các nguồn đầy đủ hơn cho các câu hỏi nghiên cứu, cách nó trích dẫn nguồn, cách nó tổ chức câu trả lời và cách nó cung cấp các câu hỏi để tìm kiếm thêm.

Vì vậy, nếu bạn đang lập trình, nhưng cũng đang thực hiện các nghiên cứu khác, hãy cân nhắc sử dụng phiên bản Perplexity miễn phí.

Những chatbot nên tránh khi cần trợ giúp lập trình

Tôi đã thử nghiệm 9 chatbot và 4 chatbot đã vượt qua hầu hết các bài kiểm tra của tôi. Các chatbot còn lại, bao gồm một số chatbot được quảng cáo là tuyệt vời cho lập trình, mỗi chatbot chỉ vượt qua một trong các bài kiểm tra của tôi - và Copilot của Microsoft không vượt qua bài nào.

Tôi đề cập đến chúng ở đây vì mọi người sẽ hỏi, và tôi đã thử nghiệm chúng một cách kỹ lưỡng. Một số chatbot hoạt động tốt cho các công việc khác, vì vậy tôi sẽ chỉ ra những đánh giá chung hơn của mình nếu bạn chỉ tò mò về cách chúng hoạt động.

Meta AI

Meta AI là AI đa năng của Facebook. Như bạn có thể thấy ở trên, nó đã thất bại ba trong bốn bài kiểm tra của chúng tôi.

AI đã tạo ra một giao diện người dùng đẹp mắt nhưng không có chức năng. Và nó đã tìm thấy lỗi gây khó chịu của tôi, một thách thức khá nghiêm trọng. Với kiến thức chuyên môn cần thiết để tìm ra lỗi, tôi đã rất ngạc nhiên khi nó gặp khó khăn với một bài toán biểu thức chính quy đơn giản. Nhưng nó đã làm vậy.

Meta Code Llama

Meta Code Llama là AI của Facebook được thiết kế dành riêng cho việc hỗ trợ lập trình. Đó là thứ bạn có thể tải xuống và cài đặt trên máy chủ của mình. Tôi đã thử nghiệm nó chạy trên một phiên bản Hugging Face AI.

Điều kỳ lạ là, mặc dù cả Meta AI và Meta Code Llama đều gặp khó khăn với ba trong số bốn bài kiểm tra của tôi, nhưng chúng lại gặp khó khăn với những vấn đề khác nhau. Không thể chắc chắn rằng AI sẽ đưa ra cùng một câu trả lời hai lần, nhưng kết quả này là một bất ngờ. Chúng ta sẽ xem liệu điều đó có thay đổi theo thời gian hay không.

Claude 3.5 Sonnet

Anthropic tuyên bố rằng phiên bản 3.5 Sonnet của chatbot Claude AI là lý tưởng cho lập trình. Sau khi thất bại tất cả trừ một bài kiểm tra, tôi không chắc về điều đó.

Nếu bạn không sử dụng nó để lập trình, Claude có thể là lựa chọn tốt hơn so với phiên bản ChatGPT miễn phí.

Đồng nghiệp Maria Diaz của tôi tại ZDNET báo cáo rằng Claude có thể xử lý các tệp được tải lên, xử lý nhiều từ hơn so với phiên bản ChatGPT miễn phí, cung cấp thông tin mới hơn khoảng một năm so với GPT-3.5 và truy cập các trang web.

Gemini Advanced

Gemini Advanced là phiên bản chuyên nghiệp trị giá 20 đô la của chatbot Gemini (trước đây là Bard) của Google. Tôi hy vọng công cụ này sẽ hoạt động tốt hơn là chỉ vượt qua một trong bốn bài kiểm tra. Điều thú vị là, nó đã vượt qua bài kiểm tra mà mọi AI khác ngoài GPT-4/4o đều thất bại - kiến thức về ngôn ngữ lập trình khá ít người biết đến đó được tạo bởi một lập trình viên ở Úc.

Vậy, nếu nó biết ngôn ngữ đó, tại sao nó không thể xử lý các biểu thức chính quy cơ bản hoặc các vấn đề khác của sinh viên năm nhất ngành lập trình?

Microsoft Copilot

Bạn có thể nghĩ rằng công ty có câu thần chú "Lập trình viên! Lập trình viên! Lập trình viên!" trong DNA của nó sẽ có một AI hoạt động tốt hơn trong các bài kiểm tra lập trình. Microsoft sản xuất một số công cụ lập trình tốt nhất hành tinh. Tuy nhiên, Copilot đã hoạt động rất kém.

Điểm tích cực duy nhất là Microsoft luôn học hỏi từ những sai lầm của mình. Vì vậy, tôi sẽ kiểm tra lại sau và xem liệu kết quả này có được cải thiện hay không.

Tất cả chỉ là vấn đề thời gian

Kết quả các bài kiểm tra của tôi khá bất ngờ, đặc biệt là với khoản đầu tư lớn của Microsoft và Google. Nhưng lĩnh vực đổi mới này đang phát triển với tốc độ chóng mặt, vì vậy chúng tôi sẽ quay lại với các bài kiểm tra và kết quả được cập nhật theo thời gian. Hãy chú ý theo dõi.

Bạn đã sử dụng chatbot AI nào để lập trình chưa? Trải nghiệm của bạn như thế nào? Hãy cho chúng tôi biết trong phần bình luận bên dưới.

Trợ lý lập trình AI tốt nhất năm 2024 (và những cái tên nên tránh)