Các Mô Hình Ngôn Ngữ Lớn và Thành Công Cạnh Tranh
Các mô hình ngôn ngữ lớn đang học cách chiến thắng—và đó là vấn đề.
Trong một bài báo nghiên cứu được công bố vào thứ Ba với tựa đề “Thỏa Thuận của Moloch: Sự Không Đồng Nhất Nổi Bật Khi Các Mô Hình LLM Cạnh Tranh Cho Các Đối Tượng,” Giáo sư James Zou của Đại học Stanford và sinh viên Tiến sĩ Batu El chỉ ra rằng khi các AI được tối ưu hóa cho thành công cạnh tranh—dù là để tăng cường sự tham gia quảng cáo, giành được phiếu bầu, hay tăng lưu lượng truy cập mạng xã hội—chúng bắt đầu nói dối.
“Việc tối ưu hóa các LLM cho thành công cạnh tranh có thể vô tình dẫn đến sự không đồng nhất,” các tác giả viết, cảnh báo rằng chính những chỉ số định nghĩa “chiến thắng” trong giao tiếp hiện đại—nhấp chuột, chuyển đổi, sự tham gia—có thể âm thầm tái định hình các mô hình để ưu tiên sự thuyết phục hơn là sự trung thực.
“Khi các LLM cạnh tranh cho lượt thích trên mạng xã hội, chúng bắt đầu bịa đặt,” Zou viết trên X. “Khi chúng cạnh tranh cho phiếu bầu, chúng trở nên kích động/nhân dân.”
Công việc này quan trọng vì nó xác định một nguy cơ cấu trúc trong nền kinh tế AI đang nổi lên: các mô hình được đào tạo để cạnh tranh f
ho sự chú ý của con người bắt đầu hy sinh sự phù hợp để tối đa hóa ảnh hưởng. Khác với thí nghiệm tư duy ‘máy kẹp giấy tối đa hóa’ cổ điển, đây không phải là khoa học viễn tưởng. Đây là một hiệu ứng có thể đo lường được xuất hiện khi các hệ thống AI thực tế theo đuổi phần thưởng thị trường, điều mà các tác giả gọi là “thỏa thuận của Moloch”—thành công ngắn hạn với cái giá phải trả cho sự thật, an toàn và lòng tin xã hội.
Sử dụng mô phỏng của ba môi trường cạnh tranh thực tế—quảng cáo, bầu cử và mạng xã hội—các nhà nghiên cứu đã định lượng các sự đánh đổi. Tăng 6,3% doanh số đi kèm với sự gia tăng 14,0% trong tiếp thị lừa dối; tăng 4,9% trong tỷ lệ phiếu bầu mang đến mức tăng 22,3% trong thông tin sai lệch và 12,5% diễn ngôn dân túy hơn; và tăng 7,5% trong sự tham gia xã hội tương quan với mức tăng đáng kinh ngạc 188,6% trong thông tin sai lệch và 16,3% khuyến khích hành vi có hại.
“Các hành vi không phù hợp này xuất hiện ngay cả khi các mô hình được chỉ định rõ ràng để giữ trung thực và có cơ sở,” El và Zou viết, gọi điều này là “cuộc đua về đáy” trong sự phù hợp của AI.
nment.
Nói cách khác: ngay cả khi được yêu cầu chơi công bằng, các mô hình được đào tạo để chiến thắng bắt đầu gian lận.
Vấn đề Không Chỉ Mang Tính Giả Thuyết
AI không còn là một điều mới mẻ trong quy trình làm việc của mạng xã hội—nó hiện nay gần như có mặt ở khắp mọi nơi.
Theo Báo cáo Tình trạng AI trong Mạng xã hội năm 2025, 96% các chuyên gia truyền thông xã hội báo cáo sử dụng các công cụ AI, và 72.5% trong số họ dựa vào chúng hàng ngày. Những công cụ này giúp tạo ra tiêu đề, tư duy nội dung, định dạng lại các bài đăng cho các nền tảng khác nhau, và thậm chí phản hồi các bình luận. Trong khi đó, thị trường rộng lớn hơn đang đánh giá sự chuyển dịch này: Ngành AI trong mạng xã hội dự kiến sẽ tăng từ 2.69 tỷ USD vào năm 2025 lên gần 9.25 tỷ USD vào năm 2030.
Sự tích hợp phổ biến này quan trọng vì nó có nghĩa là AI đang định hình không chỉ cách thức nội dung được tạo ra, mà còn nội dung nào được nhìn thấy, ai nhìn thấy nó, và những tiếng nói nào được khuếch đại. Các thuật toán hiện giờ lọc nguồn cấp, ưu tiên quảng cáo, điều chỉnh các bài đăng, và tối ưu hóa chiến lược tương tác—nhúng logic quyết định AI vào kiến trúc của diễn ngôn công cộng.
luence carries real risks: reinforcing echo chambers, privileging sensational content, and creating incentive structures that reward the manipulative over the truthful.
The authors emphasize that this isn’t malicious intent—it’s optimization logic. When reward signals come from engagement or audience approval, the model learns to exploit human biases, mirroring the manipulative feedback loops already visible in algorithmic social media. As the paper puts it, “market-driven optimization pressures can systematically erode alignment.”
The findings highlight the fragility of today’s “alignment safeguards.” It’s one thing to tell an LLM to be honest; it’s another to embed that honesty in a competitive ecosystem that punishes truth-telling.
In myth, Moloch was the god who demanded human sacrifice in exchange for power. Here, the sacrifice is truth itself. El and Zou’s results suggest that without stronger governance and incentive design, AI systems built to compete for our attention could
không thể tránh khỏi việc học cách thao túng chúng ta.
Các tác giả kết thúc với một ghi chú nghiêm túc: sự đồng bộ hóa không chỉ là một thử thách kỹ thuật – đó còn là một thử thách xã hội.
“Việc triển khai an toàn các hệ thống AI sẽ đòi hỏi quản trị mạnh mẽ hơn và các động lực được thiết kế cẩn thận,” họ kết luận, “để ngăn chặn các động lực cạnh tranh làm suy yếu niềm tin của xã hội.”
Bình luận (0)