Google: Chế tạo chip tùy chỉnh, sức mạnh cho AI của Apple và chatbot Gemini

Bên trong phòng thí nghiệm của Google tại Mountain View, California, hàng trăm dãy máy chủ hoạt động không ngừng, không chỉ để chạy động cơ tìm kiếm khổng lồ hay xử lý khối lượng công việc cho hàng triệu khách hàng của Google Cloud. Chúng còn đang chạy thử nghiệm trên những con chip độc quyền của Google - Tensor Processing Units (TPU).

TPU ban đầu được đào tạo cho các khối lượng công việc nội bộ. Từ năm 2018, chúng được cung cấp cho khách hàng sử dụng Google Cloud. Tháng 7 năm 2024, Apple tiết lộ họ sử dụng TPU để huấn luyện các mô hình AI cho Apple Intelligence. Google cũng dựa vào TPU để huấn luyện và vận hành chatbot Gemini của mình.

Daniel Newman, CEO của Futurum Group, một chuyên gia theo dõi chip đám mây của Google từ khi ra mắt vào năm 2015, nhận định: "Thế giới có niềm tin vững chắc rằng tất cả AI, các mô hình ngôn ngữ lớn, đều được đào tạo trên Nvidia, và chắc chắn Nvidia nắm giữ thị phần đào tạo lớn nhất. Nhưng Google đã chọn con đường riêng."

Google là nhà cung cấp dịch vụ đám mây đầu tiên tạo ra chip AI tùy chỉnh. Ba năm sau, Amazon Web Services (AWS) công bố chip AI đám mây đầu tiên của mình, Inferentia. Microsoft phải đến cuối năm 2023 mới công bố chip AI tùy chỉnh đầu tiên, Maia.

Tuy nhiên, việc đi đầu trong lĩnh vực chip AI không đồng nghĩa với việc Google dẫn đầu cuộc đua AI tổng thể. Google đã phải hứng chịu chỉ trích vì những sản phẩm lỗi thời, chatbot Gemini ra mắt muộn hơn một năm so với ChatGPT của OpenAI.

Mặc dù vậy, Google Cloud đang có đà phát triển mạnh mẽ, một phần nhờ vào các dịch vụ AI. Alphabet, công ty mẹ của Google, báo cáo doanh thu đám mây tăng 29% trong quý gần nhất, vượt mức 10 tỷ đô la doanh thu quý lần đầu tiên.

"Kỷ nguyên đám mây AI đã hoàn toàn thay đổi cách mọi người nhìn nhận các công ty, và sự khác biệt về silicon, chính TPU, có thể là một trong những lý do chính khiến Google từ vị trí đám mây thứ ba vươn lên ngang bằng, thậm chí vượt qua hai nhà cung cấp đám mây lớn khác về khả năng AI," Newman cho biết.

Thí nghiệm đơn giản nhưng mạnh mẽ

Tháng 7 năm 2024, CNBC đã được tham quan phòng thí nghiệm chip của Google và phỏng vấn Amin Vahdat, trưởng bộ phận chip đám mây tùy chỉnh. Vahdat đã có mặt tại Google khi công ty lần đầu tiên thử nghiệm ý tưởng sản xuất chip vào năm 2014.

"Tất cả bắt đầu từ một thí nghiệm đơn giản nhưng mạnh mẽ," Vahdat chia sẻ. "Một số lãnh đạo của công ty đặt câu hỏi: Điều gì sẽ xảy ra nếu người dùng Google muốn tương tác với Google bằng giọng nói chỉ 30 giây mỗi ngày? Và chúng ta cần bao nhiêu sức mạnh tính toán để hỗ trợ người dùng?"

Nhóm nghiên cứu kết luận rằng Google cần phải nhân đôi số lượng máy tính trong các trung tâm dữ liệu của mình. Vì vậy, họ đã tìm kiếm một giải pháp tốt hơn.

"Chúng tôi nhận ra rằng mình có thể xây dựng phần cứng tùy chỉnh, không phải phần cứng đa năng, mà là phần cứng tùy chỉnh - Tensor Processing Units trong trường hợp này - để hỗ trợ hiệu quả hơn nhiều. Thực tế, hiệu quả cao hơn 100 lần so với cách thức thông thường," Vahdat cho biết.

Các trung tâm dữ liệu của Google vẫn dựa vào các đơn vị xử lý trung tâm đa năng (CPU) và đơn vị xử lý đồ họa (GPU) của Nvidia. TPU của Google là một loại chip khác gọi là mạch tích hợp chuyên dụng (ASIC), được thiết kế riêng cho mục đích cụ thể. TPU tập trung vào AI. Google cũng sản xuất một ASIC khác tập trung vào video gọi là Video Coding Unit.

Google cũng sản xuất chip tùy chỉnh cho thiết bị của mình, tương tự như chiến lược silicon tùy chỉnh của Apple. Tensor G4 cung cấp năng lượng cho Pixel 9 mới được trang bị AI, và chip A1 mới cung cấp năng lượng cho Pixel Buds Pro 2.

Tuy nhiên, chính TPU đã giúp Google nổi bật. Khi ra mắt vào năm 2015, nó là sản phẩm đầu tiên trong loại của mình. TPU của Google vẫn thống trị thị trường bộ gia tốc AI đám mây tùy chỉnh, chiếm 58% thị phần, theo The Futurum Group.

Google đặt tên cho sản phẩm dựa trên thuật ngữ đại số "tensor", ám chỉ các phép nhân ma trận quy mô lớn diễn ra nhanh chóng đối với các ứng dụng AI nâng cao.

Với phiên bản TPU thứ hai ra mắt vào năm 2018, Google đã mở rộng trọng tâm từ suy luận sang huấn luyện và cung cấp cho khách hàng đám mây của mình để chạy khối lượng công việc, cùng với các chip hàng đầu thị trường như GPU của Nvidia.

"Nếu bạn sử dụng GPU, chúng linh hoạt hơn, có thể lập trình được hơn. Nhưng chúng khan hiếm," Stacy Rasgon, nhà phân tích cấp cao về bán dẫn tại Bernstein Research, cho biết.

Sự bùng nổ của AI đã đưa cổ phiếu của Nvidia lên cao, đưa nhà sản xuất chip này đạt mức vốn hóa thị trường 3 nghìn tỷ đô la vào tháng 6, vượt qua Alphabet và cạnh tranh với Apple và Microsoft để trở thành công ty công khai có giá trị nhất thế giới.

"Thành thật mà nói, những bộ gia tốc AI chuyên dụng này không linh hoạt hoặc mạnh mẽ bằng nền tảng của Nvidia, và đó là điều mà thị trường cũng đang chờ đợi: Liệu ai có thể cạnh tranh trong lĩnh vực này?" Newman nói.

Bây giờ khi biết Apple sử dụng TPU của Google để đào tạo các mô hình AI, thử nghiệm thực sự sẽ đến khi các tính năng AI đầy đủ được triển khai trên iPhone và Mac vào năm sau.

Broadcom và TSMC

Việc phát triển các giải pháp thay thế cho động cơ AI của Nvidia không hề đơn giản. TPU thế hệ thứ sáu của Google, có tên Trillium, dự kiến ​​ra mắt vào cuối năm nay.

"Nó tốn kém. Bạn cần quy mô lớn," Rasgon nói. "Vì vậy, không phải ai cũng có thể làm được. Nhưng những công ty siêu quy mô này, họ có quy mô, tiền bạc và nguồn lực để theo đuổi con đường đó."

Quá trình này phức tạp và tốn kém đến mức ngay cả những công ty siêu quy mô cũng không thể tự mình thực hiện. Kể từ TPU đầu tiên, Google đã hợp tác với Broadcom, một nhà phát triển chip cũng hỗ trợ Meta thiết kế chip AI. Broadcom cho biết đã chi hơn 3 tỷ đô la để thực hiện các hợp tác này.

"Chip AI - chúng rất phức tạp. Có rất nhiều thứ trên đó. Vì vậy, Google mang đến sức mạnh tính toán," Rasgon nói. "Broadcom xử lý tất cả các phần ngoại vi. Họ xử lý I/O và SerDes, tất cả các phần khác nhau xung quanh sức mạnh tính toán đó. Họ cũng xử lý việc đóng gói."

Sau đó, thiết kế cuối cùng được gửi đi để sản xuất tại một nhà máy sản xuất, hoặc fab - chủ yếu là các nhà máy thuộc sở hữu của nhà sản xuất chip lớn nhất thế giới, Taiwan Semiconductor Manufacturing Company (TSMC), sản xuất 92% chất bán dẫn tiên tiến nhất thế giới.

Khi được hỏi liệu Google có bất kỳ biện pháp bảo vệ nào nếu điều tồi tệ nhất xảy ra trong lĩnh vực địa chính trị giữa Trung Quốc và Đài Loan, Vahdat nói: "Chắc chắn đó là điều chúng tôi chuẩn bị và suy nghĩ, nhưng chúng tôi hy vọng rằng nó sẽ không xảy ra."

Bảo vệ chống lại những rủi ro đó là lý do chính khiến Nhà Trắng phân bổ 52 tỷ đô la trong Quỹ CHIPS Act cho các công ty xây dựng fab tại Hoa Kỳ - với phần lớn nhất được trao cho Intel, TSMC và Samsung cho đến nay.

Bộ xử lý và năng lượng

Bỏ qua những rủi ro, Google vừa thực hiện một động thái lớn khác về chip, công bố CPU đa năng đầu tiên, Axion, sẽ có sẵn vào cuối năm nay.

"Bây giờ chúng ta có thể đưa vào phần cuối cùng của câu đố, CPU," Vahdat nói. "Vì vậy, rất nhiều dịch vụ nội bộ của chúng tôi, cho dù là BigQuery, Spanner, quảng cáo YouTube và nhiều thứ khác đang chạy trên Axion."

Google đến muộn với trò chơi CPU. Amazon đã ra mắt bộ xử lý Graviton vào năm 2018. Alibaba đã ra mắt chip máy chủ của mình vào năm 2021. Microsoft công bố CPU của mình vào tháng 11.

Khi được hỏi lý do tại sao Google không sản xuất CPU sớm hơn, Vahdat nói: "Trọng tâm của chúng tôi là nơi chúng tôi có thể mang lại giá trị tốt nhất cho khách hàng, và đó là bắt đầu với TPU, đơn vị mã hóa video của chúng tôi, mạng lưới của chúng tôi. Chúng tôi thực sự nghĩ rằng đã đến lúc."

Tất cả các bộ xử lý này, bao gồm cả bộ xử lý của Google, đều được kiến ​​trúc chip Arm hỗ trợ - một giải pháp thay thế có thể tùy chỉnh hơn, tiết kiệm năng lượng hơn và đang ngày càng được sử dụng thay thế cho mô hình x86 truyền thống của Intel và AMD. Hiệu quả năng lượng là rất quan trọng bởi vì đến năm 2027, máy chủ AI dự kiến ​​sẽ tiêu thụ nhiều năng lượng như một quốc gia như Argentina mỗi năm. Báo cáo môi trường gần đây nhất của Google cho thấy lượng khí thải tăng gần 50% từ năm 2019 đến năm 2023, một phần do sự phát triển trung tâm dữ liệu để cung cấp năng lượng cho AI.

"Nếu không có hiệu quả của những con chip này, con số có thể đã ở một vị trí hoàn toàn khác," Vahdat nói. "Chúng tôi vẫn cam kết thực sự thúc đẩy những con số này về lượng khí thải carbon từ cơ sở hạ tầng của chúng tôi, 24/7, hướng đến con số bằng không."

Cần một lượng nước khổng lồ để làm mát các máy chủ huấn luyện và chạy AI. Đó là lý do tại sao TPU thế hệ thứ ba của Google bắt đầu sử dụng hệ thống làm mát trực tiếp chip, sử dụng ít nước hơn nhiều. Đó cũng là cách Nvidia làm mát GPU Blackwell mới nhất của mình.

Mặc dù phải đối mặt với những thách thức, từ địa chính trị đến năng lượng và nước, Google vẫn cam kết với các công cụ AI thế hệ mới của mình và sản xuất chip độc quyền.

"Tôi chưa bao giờ thấy điều gì tương tự như thế này và chưa có dấu hiệu nào cho thấy nó sẽ chậm lại," Vahdat nói. "Và phần cứng sẽ đóng vai trò rất quan trọng ở đó."


Blog post image

0 comments Blogger 0 Facebook

Đăng nhận xét

 
Agent.ai.vn © 2024 - Nắm bắt tương lai
Top