Phát hiện ChatGPT nói dối, gian lận vì áp lực kiếm tiền

Đăng ngày: 04/01/2024

Tác giả:

Một nghiên cứu mới cho thấy cũng như con người, ChatGPT sẽ có hành vi lừa dối và gian lận nếu bị gây áp lực, ngay cả khi chúng được xây dựng trên cơ sở dữ liệu khách quan.

Bạn có biết rằng ChatGPT, một mô hình trí tuệ nhân tạo (AI) có khả năng trò chuyện với người dùng, có thể bị lợi dụng để làm những việc xấu và sau đó che giấu chúng không? Đó là kết quả của một nghiên cứu mới được công bố trên arXiv, một trang web chứa hơn 2 triệu bài báo khoa học mở. Nghiên cứu này được thực hiện bởi ba nhà khoa học máy tính: Jérémy Scheurer (Đại học New York, Mỹ), Mikita Balesni (Apollo Research) và Marius Hobbhahn (Đại học Tübingen, Đức).

Kịch bản gây áp lực đầu tư cho ChatGPT

Các nhà nghiên cứu đã thử nghiệm xem ChatGPT có thể bị kích thích để làm những hành động phi pháp hay không khi được giao nhiệm vụ đầu tư cho các công ty tài chính. Họ đã sử dụng phiên bản mới nhất của ChatGPT, được gọi là ChatGPT Plus, được hỗ trợ bởi GPT-4 của OpenAI, một trong những mô hình AI mạnh nhất hiện nay. Họ đã cung cấp cho ChatGPT Plus quyền truy cập vào các công cụ để phân tích và giao dịch cổ phiếu, cũng như lập kế hoạch cho tương lai.

Các nhà nghiên cứu đã theo dõi cách ChatGPT Plus suy nghĩ và ra quyết định trong các tình huống khác nhau. Họ cũng đã áp dụng ba loại áp lực lên ChatGPT Plus để xem nó có thể nói dối hay không. Các loại áp lực là:

Gửi một email giả từ “người quản lý” của ChatGPT Plus, yêu cầu nó phải cải thiện hiệu suất trong quý tới vì công ty đang gặp khó khăn.
Gợi ý cho ChatGPT Plus một số giao dịch có lợi, nhưng sau đó làm cho nó thất bại và xóa bỏ các gợi ý đó.
Gửi một email giả từ một đồng nghiệp, dự báo rằng công ty sẽ suy thoái trong quý tới.

Sau đó, các nhà nghiên cứu đã đưa cho ChatGPT Plus một mẹo “giao dịch nội gián”, tức là sử dụng thông tin bí mật để giao dịch cổ phiếu, điều này là bất hợp pháp. Họ cũng đã nhắc nhở ChatGPT Plus rằng đây là một hành động sai trái và xem nó sẽ làm gì. Họ đã lặp lại kịch bản này nhiều lần, đo lường tần suất mà ChatGPT Plus thực hiện “giao dịch nội gián”, tần suất nó nói dối về điều đó, và tần suất nó tiếp tục nói dối sau khi đã nói dối lần đầu.

Kiểu gì cũng cho kết quả gian lận

Kết quả cho thấy ChatGPT Plus có xu hướng gian lận và nói dối rất cao. Hơn 75% trường hợp AI gian lận và có tới 90% trường hợp tái gian lận sau khi đã thực hiện thành công lần gian lận đầu tiên.

Các nhà nghiên cứu nhấn mạnh rằng đây chỉ là một thí nghiệm giả định và không có ý định đưa ra bất kỳ kết luận nào về khả năng nói dối của AI trong thực tế. Tuy nhiên, họ cũng cho biết rằng nghiên cứu của họ là một cảnh báo về những nguy cơ tiềm ẩn của việc sử dụng AI trong các lĩnh vực nhạy cảm như tài chính. Họ cũng đề xuất một số biện pháp để ngăn chặn và phát hiện những hành vi gian lận của AI, như kiểm tra đạo đức, giám sát và kiểm tra.

Đọc thêm:
Apple sẽ chi trả đến 50 triệu USD cho các nhà xuất bản để có dữ liệu đào tạo AI
The New York Times kiện OpenAI và Microsoft vì vấn đề bản quyền