Công nghệ AI giúp thanh lọc môi trường trò chuyện trực tuyến

Từ những cuộc trò chuyện trong game đến các ứng dụng kinh tế chia sẻ, mạng xã hội và hơn thế nữa, các cuộc trò chuyện kỹ thuật số có thể nhanh chóng trở nên độc hại, thậm chí nguy hiểm. Đây là vấn đề mà Modulate, một công ty khởi nghiệp có trụ sở tại Massachusetts, đang giải quyết trực diện với công cụ kiểm duyệt trò chuyện thoại ToxMod.

Công nghệ này áp dụng trí tuệ nhân tạo (AI) và học máy (ML) vào các cuộc trò chuyện thoại để gắn cờ hành vi có vấn đề và nhanh chóng thu hút sự chú ý của ngành công nghiệp game.

Khi sự quan tâm tiếp tục mở rộng, Modulate đã mở rộng quy mô với Amazon Web Services (AWS) để hỗ trợ cho sự tăng trưởng nhanh chóng. Ngày nay, ToxMod hỗ trợ các tựa game như Call of Duty: Modern Warfare III và trải nghiệm thực tế ảo như RecRoom, để đạt được khả năng kiểm duyệt nội dung trò chuyện thoại toàn diện, hiệu quả về chi phí.

Để giúp thúc đẩy sự phát triển liên tục của ToxMod, Modulate gần đây đã chọn AWS làm nhà cung cấp đám mây ưu tiên của mình. Sử dụng các công nghệ không máy chủ của AWS và các phiên bản AWS Graviton với các nhóm tự động mở rộng ở cốt lõi của cơ sở hạ tầng, ToxMod có thể xử lý và sàng lọc hàng tỷ cuộc trò chuyện thoại mỗi ngày, đồng thời tận dụng AI để xác định và gắn cờ hành vi có vấn đề cho các nhóm kiểm duyệt nội dung.

Chuyên gia trong lĩnh vực game

Modulate khởi đầu bằng việc phát triển một công cụ AI voice skin để tùy chỉnh giọng nói trong trò chơi, nhưng chẳng mấy chốc đã khám phá ra một mục đích sâu xa hơn, đó là chủ động giải quyết các tương tác tiêu cực trong cộng đồng game thủ.

"Quấy rối trong game đã trở nên phổ biến hơn, bởi vì các chuẩn mực xã hội trong thế giới ảo và thế giới thực là khác nhau", Carter Huffman, CTO của Modulate, cho biết. "Xác suất bạn bước vào quán ăn và một người lạ mặt chửi bới bạn là rất thấp, nhưng điều đó lại xảy ra thường xuyên trong các sảnh trò chơi điện tử. Đó là một vấn đề lớn mà chúng tôi biết công nghệ của mình có thể giải quyết."

Kết hợp khả năng hiểu biết nhanh chóng, chính xác và hiệu quả về chi phí về trò chuyện thoại của game thủ với AI và ML, Modulate đã phát triển ToxMod để xác định các cuộc trò chuyện độc hại trong game, từ đó các nhà phát triển và nhà xuất bản có thể xác định hành động thích hợp. Những hành động này có thể bao gồm đưa ra cảnh báo, tắt tiếng người chơi, đuổi họ ra ngoài hoặc trong một số trường hợp nhất định, báo cáo họ với cơ quan chức năng.

Sau khi ra mắt, ToxMod đã nhanh chóng được đón nhận. "Ban đầu khi chúng tôi trao đổi với khách hàng về kiểm duyệt giọng nói, họ rất hào hứng, nhưng lại cho rằng kiểm duyệt giọng nói vì mục đích tin cậy và an toàn là quá đắt đỏ. Việc chúng tôi đưa ra mức giá dựa trên mức độ sử dụng khiến họ khá sốc", Huffman chia sẻ. "Chúng tôi đã tối ưu hóa ToxMod rất tốt bằng cách sử dụng các dịch vụ AWS hiệu quả về chi phí và hiệu suất cao, nhờ đó chúng tôi có thể lưu trữ một lượng lớn âm thanh, xử lý, kiểm duyệt và áp dụng AI để tinh chỉnh nó với mức giá mà các nhà phát triển có thể chi trả."

Cơ chế hoạt động của ToxMod

Trước khi khách hàng triển khai ToxMod, Modulate sẽ phối hợp với họ để đưa bộ quy tắc ứng xử của họ vào công cụ và hoàn thành bản chạy thử với nhóm kiểm duyệt là con người của khách hàng. Sau một vài chu kỳ lặp lại, Huffman cho biết khách hàng thường đạt được độ chính xác 99%, điều này có được nhờ công cụ hiểu tiếng nói quy mô lớn, độ trễ thấp ở cốt lõi của ToxMod.

Giải pháp này liên tục giám sát các cuộc trò chuyện thoại và chủ động tiếp nhận hàng triệu đoạn âm thanh mỗi phút. Sử dụng AI và ML, công cụ của giải pháp này xác định các trường hợp trò chuyện có vấn đề theo danh mục, chẳng hạn như ngôn ngữ kích động thù địch, quấy rối và ngôn ngữ tục tĩu. Sau đó, nó sẽ nâng mức độ nghiêm trọng của các vi phạm nghiêm trọng và gắn cờ chúng cho các nhóm kiểm duyệt nội dung. ToxMod ghi lại mọi trường hợp trò chuyện có vấn đề và tạo ra bản ghi, phân tích và đoạn âm thanh của trường hợp đó, vì vậy nếu một thành viên cộng đồng bị cấm kháng cáo, sẽ có bản ghi về hành vi vi phạm trong hồ sơ. Khi ngày càng có nhiều trường hợp được xử lý và nhà phát triển cung cấp thông tin đầu vào, Modulate sẽ liên tục cải thiện độ chính xác của mô hình.

"Quấy rối hoành hành trong game và cộng đồng kỹ thuật số, và với tư cách là một nhóm kiểm duyệt, bạn có thể được giao nhiệm vụ quản lý hàng nghìn trường hợp riêng lẻ mỗi phút, một kỳ tích bất khả thi nếu chỉ dựa vào đánh giá của con người. ToxMod đang thay đổi cuộc chơi, xác định quấy rối trên quy mô chưa từng có với độ chính xác đặc biệt, điều mà AWS đã giúp chúng tôi đạt được", Huffman giải thích. "Chúng tôi đã đào tạo ToxMod đến mức nó có thể tìm thấy kim trong đống cỏ khô về hành vi có vấn đề, phân loại nó vào một nhóm và cảnh báo cho khách hàng để nhóm kiểm duyệt của họ có thể đánh giá và thực hiện hành động thích hợp một cách hiệu quả về chi phí."

AI có trách nhiệm là một thành phần quan trọng trong quá trình phát triển ToxMod, đòi hỏi vô số nguồn dữ liệu để đào tạo các mô hình ML và các quan điểm để hiểu dữ liệu đó. Phối hợp với những người gắn nhãn dữ liệu trên toàn thế giới, những người có quyền truy cập và xem xét các lát cắt dữ liệu ẩn danh của ToxMod, Modulate đào tạo, tinh chỉnh và xác thực các mô hình của mình dựa trên dữ liệu đa dạng đại diện cho một loạt các ngữ cảnh. Họ làm việc để hiểu điều gì đang xảy ra trong một tương tác và áp dụng nền tảng cũng như kiến thức của họ về văn hóa game để cung cấp cho Modulate siêu dữ liệu phù hợp để đưa vào hệ thống AI của mình. Sau đó, các hệ thống thực hiện công bằng hơn trong các trường hợp để đạt được kết quả đúng đắn gần như mọi lúc, bất kể ai đang nghe.

"Các quy trình xác thực và đào tạo có trách nhiệm rất quan trọng, nhưng đó là điều mà mọi người bỏ lỡ khi nói về việc triển khai hệ thống AI. Bạn nghĩ rằng chỉ cần lấy một mô hình phân tích hoặc LLM [mô hình ngôn ngữ lớn] có sẵn, áp dụng dữ liệu của bạn là nó sẽ cho ra kết quả đúng trong hầu hết thời gian, nhưng các mô hình ML vốn dĩ có các lỗi ngẫu nhiên và hệ thống", Huffman nói. "Nếu một nhóm hoặc tập hợp con nào đó bị tổn hại quá mức do độ chính xác thấp từ mô hình, thì đó là một thất bại và chúng tôi quay lại bản vẽ để thiết kế lại và đào tạo lại nó."

Công nghệ nền tảng của ToxMod

Tiếp nhận âm thanh là rất quan trọng đối với ToxMod, điều mà Modulate đạt được bằng cách tích hợp bộ công cụ phát triển phần mềm (SDK) của mình với cơ sở hạ tầng trò chuyện thoại của mỗi trò chơi hoặc nền tảng mà nó phục vụ. ToxMod tận dụng SDK để mã hóa các cuộc trò chuyện thoại thành các bộ đệm ngắn và gửi chúng qua internet dưới dạng gói tin vào AWS, nơi nó lưu dữ liệu đến bằng cách sử dụng các hàm AWS Lambda. Từ đó, công cụ sẽ phân tích xử lý âm thanh trên Amazon Elastic Cloud Compute (Amazon EC2) G5g, được cung cấp sức mạnh bởi GPU NVIDIA T4G Tensor Core và có bộ xử lý AWS Graviton2 chạy nhiều mô hình âm thanh ML khác nhau. Để giảm thiểu chi phí, công cụ này gom các đoạn âm thanh thành các hàng đợi để xử lý. Sau đó, các nhóm tự động mở rộng được kết nối với các hàng đợi này sẽ mở rộng hoặc thu hẹp một cách hiệu quả để phù hợp với các đỉnh và đáy trong lưu lượng truy cập.

"Quy mô mà ToxMod có thể thực hiện với AWS là rất lớn đến nỗi bất kỳ hãng game hoặc nền tảng kỹ thuật số nào cũng không thể tự mình đạt được", Huffman lưu ý. "Chúng tôi đã xây dựng cấu trúc phân loại ấn tượng này bằng cách sử dụng các khả năng không máy chủ mạnh mẽ, hiệu quả về chi phí từ AWS. Điều này bao gồm cơ sở dữ liệu có thể được sử dụng từ cơ sở hạ tầng không máy chủ, bộ nhớ S3 và một loạt các phiên bản Graviton xử lý tất cả nội dung để chạy một số mô hình thực sự mạnh mẽ nắm bắt được trò chuyện thoại trong game."

Phối hợp và mở rộng quy mô với AWS

Nhóm AWS đã làm việc chặt chẽ với Modulate ngay từ khi ToxMod ra đời, đặc biệt là khi họ bắt đầu xây dựng kiến trúc cơ bản và các lớp phân loại. Huffman và nhóm đã dựa vào AWS để được tư vấn chuyên môn trong việc xác định các yêu cầu về GPU của giải pháp, hoàn thành đánh giá kiến trúc, xác định các điểm yếu về khả năng mở rộng và giải quyết chúng. "Nhóm AWS đã rất chủ động trong việc trao đổi với chúng tôi và nêu ra tất cả những cân nhắc mà chúng tôi thậm chí còn chưa nghĩ đến. Sau đó, họ đã giúp chúng tôi tìm ra các công nghệ và dịch vụ AWS phù hợp để giải quyết chúng", ông nói thêm. "Ngay cả trong giai đoạn gieo mầm quan trọng nhất của chúng tôi, khi chúng tôi bắt đầu hợp tác với các công ty game có ảnh hưởng, AWS đã ở đó; họ không chỉ là nhà cung cấp mà còn là đối tác vững mạnh."

Sau khi được cấp vốn Series A và kích hoạt triển khai Call of Duty đầu tiên, Modulate đã chuyển sang chế độ tăng tốc. Công ty đã làm việc với AWS để đa dạng hóa các phiên bản GPU giữa các khu vực và loại phần cứng khác nhau để duy trì tính khả dụng. "AWS lần đầu tiên đề xuất kết hợp các phiên bản theo yêu cầu và theo vị trí để hạn chế chi phí và khi tôi bày tỏ lo ngại về tính khả dụng, họ đã giới thiệu cho chúng tôi các nhóm tự động mở rộng", Huffman chia sẻ. "Đó là loại chuyên môn rất có giá trị, đặc biệt là khi chúng tôi đang đào tạo các đường ống; họ đã mang đến cho chúng tôi tất cả những ý tưởng này để tối ưu hóa chi phí và giúp chúng tôi tìm ra cách tiếp cận tốt nhất, và nó đã được đền đáp một cách xứng đáng. Chúng tôi đã có thể giữ cho các dịch vụ của mình có khả năng cạnh tranh về chi phí và mang lại giá trị tối đa cho khách hàng của mình mặc dù chúng tôi đang hoạt động ở quy mô gấp 10.000 lần so với khi chúng tôi bắt đầu."

Mở rộng ra ngoài lĩnh vực game

Khi việc áp dụng ToxMod phát triển trong lĩnh vực game, các nền tảng kỹ thuật số bên ngoài ngành đang chú ý và hỏi Modulate về cách họ có thể áp dụng ToxMod để cải thiện khả năng kiểm duyệt trò chuyện thoại trong các môi trường kỹ thuật số khác. Huffman cho biết công ty đã nhận thấy sự quan tâm rất lớn từ nền kinh tế chia sẻ, đặc biệt là từ các ứng dụng giao đồ ăn và thực phẩm cũng như ứng dụng gọi xe, nơi mà các trao đổi giữa người với người có thể nhanh chóng chuyển từ khó chịu sang không an toàn. Để đón đầu nhu cầu, ToxMod đã và đang làm việc với các nhà phát triển ứng dụng này để cung cấp cho họ các công cụ nhằm chủ động phát hiện khi nào các tương tác tiềm ẩn vấn đề này xảy ra và thông báo cho nền tảng để họ có thể can thiệp và hủy đơn hàng hoặc chuyến xe.

Huffman cũng nhận thấy tiềm năng của ToxMod trong việc hiểu được các sắc thái của các cuộc trò chuyện trong các giao tiếp thoại trực tiếp giữa người với người trực tuyến khác, chẳng hạn như xác định và ngăn chặn lừa đảo, trong đó một giọng nói mạo danh bộ phận hỗ trợ khách hàng hoặc đưa ra cơ hội đầu tư sai lệch. "Chúng tôi đã thiết lập bộ mô hình ML đáng kinh ngạc này, có khả năng hiểu những điều cơ bản về một cuộc trò chuyện và đưa ra phán đoán xem có nên gắn cờ nó là có vấn đề hay không. Mặc dù định nghĩa ban đầu của chúng tôi về "có vấn đề" được điều chỉnh cho cộng đồng game thủ, nhưng kể từ đó, chúng tôi đã mở rộng định nghĩa đó và tinh chỉnh các mô hình, cấu trúc và khả năng cơ bản để hỗ trợ các kịch bản khác", ông lưu ý. "Khả năng mở rộng của AWS đã đóng góp rất lớn cho những nỗ lực này. Chúng tôi chưa bao giờ gặp phải vấn đề về khả năng mở rộng nào mà AWS không thể giải quyết."

Tiếp tục thử nghiệm với AI tạo ra cơ hội trong tương lai

Khi Modulate nâng cao ToxMod và mở rộng sang các thị trường mới, họ cũng đã bắt đầu khám phá các bộ công cụ AI trong các dịch vụ được quản lý của AWS như Amazon Bedrock và Amazon SageMaker để thử nghiệm, lặp lại và tối ưu hóa các mô hình ML của mình. Việc tích hợp các công nghệ này vào việc đào tạo đường ống lặp lại của họ cho phép nhóm Modulate nhanh chóng thử nghiệm rất nhiều mô hình. Họ có thể tạo ra các so sánh tiêu chuẩn hóa giữa chúng để tìm ra vị trí của các mô hình hiện tại về mặt so sánh chi phí và độ chính xác.

"Sự linh hoạt và tốc độ mà các dịch vụ AI được quản lý của AWS như Amazon Bedrock và SageMaker mang lại là rất lớn và quan trọng đối với các nhóm ML và nghiên cứu của chúng tôi. Sẽ mất nhiều tháng để họ triển khai các mô hình này từ đầu", Huffman giải thích. "Bằng cách phát triển một quy trình thử nghiệm dịch vụ được quản lý dễ dàng, chúng tôi có thể so sánh với các khả năng hiện có của mình và xác định những gì chúng tôi muốn đưa vào sản xuất. Đối với một công ty như chúng tôi, hiệu quả về chi phí mà điều này hỗ trợ cùng với độ chính xác, tốc độ xử lý và khả năng mã hóa chính xác bộ quy tắc ứng xử đó là vô cùng quan trọng."

Bất kể thử nghiệm nào trong tương lai, ToxMod vẫn tin tưởng rằng họ có thể thành công khi có đội ngũ AWS và người quản lý tài khoản sát cánh. Huffman kết luận: "AWS rất hữu ích. Họ đảm bảo rằng chúng tôi có thể đạt được quy mô và tính khả dụng mà chúng tôi cần để hỗ trợ khách hàng của mình và cuối cùng, chúng tôi đánh giá cao điều đó hơn bất kỳ điều gì khác ở một đối tác công nghệ."

Công nghệ AI giúp thanh lọc môi trường trò chuyện trực tuyến