ChatGPT-5: Khi "internet hết sạch dữ liệu" và OpenAI phải thuê người nuôi AI bằng… code thủ công

Thanh Thúy

Well-known member
Khi tưởng chừng Internet là một nguồn tài nguyên vô tận, OpenAI đã chứng minh điều ngược lại. Theo đó, họ phải đối mặt với một cuộc khủng hoảng chưa từng có: dữ liệu công khai trên mạng không đủ "chất lượng" để giúp ChatGPT-5 trở nên thông minh hơn GPT-4. Và giải pháp nghe như đùa: thuê người viết code và giải toán để "nuôi sống" dự án.


GPT-5-Is-Now-In-Training_jpg_75.jpg

ChatGPT-5: Giấc mơ Project Orion và hành trình gian nan

Dưới tên mã Project Orion, ChatGPT-5 đã được OpenAI âm thầm phát triển suốt 18 tháng qua. Microsoft, nhà tài trợ “rủng rỉnh” của OpenAI, từng háo hức mong chờ phiên bản này sẽ xuất hiện vào giữa năm 2024. Tuy nhiên, đến gần cuối năm 2025, ChatGPT-5 vẫn là một lời hứa đầy xa xỉ.

Các cuộc thử nghiệm ban đầu của GPT-5 đã khiến OpenAI thất vọng tràn trề. Hai đợt huấn luyện quy mô lớn ngốn hàng đống thời gian và tiền bạc, nhưng kết quả thu về chẳng khá khẩm hơn GPT-4. Thêm vào đó, nguồn dữ liệu từ internet được đánh giá là quá nghèo nàn và thiếu độ sâu để đưa AI này lên một tầm cao mới.


chat-gpt-5-la-gi_jpg_75(1).jpg

Để khắc phục, OpenAI đã đi nước cờ đầy bất ngờ: thuê hàng trăm người viết code, giải toán, tạo ra dữ liệu hoàn toàn mới. Nhưng tính sơ sơ, với tốc độ viết 5.000 từ/người/ngày, nhóm này cũng chỉ tạo ra được 1 tỷ token trong vài tháng, trong khi GPT-4 đã tiêu thụ tới 13 nghìn tỷ token để học.

Ngoài ra, OpenAI còn cân nhắc tạo dữ liệu tổng hợp từ chính các mô hình AI hiện có. Nghe có vẻ hợp lý, nhưng phương pháp này lại tiềm ẩn nguy cơ cao: các vòng lặp dữ liệu "tự cung tự cấp" dễ sinh ra "rác dữ liệu" và lỗi logic. Dù vậy, OpenAI vẫn lạc quan tin rằng họ có thể tránh được vấn đề này bằng cách tận dụng chính mô hình hiện tại (o1).

Khi nội bộ lộn xộn và thị trường thúc ép

Không chỉ gặp khó khăn kỹ thuật, OpenAI còn lâm vào cảnh "nội bộ lắm chuyện". Năm 2023, CEO Sam Altman bị sa thải, sau đó quay trở lại vị trí như một màn kịch đầy kịch tính. Hơn 20 giám đốc cấp cao đã rời công ty trong năm, trong khi Altman không ngần ngại chỉ ra rằng việc ra mắt mô hình Orion đầu tiên (o1) là lý do GPT-5 bị trì hoãn.


chat-gpt-5-la-gi_jpg_75.jpg

Tài chính cũng là một bài toán đau đầu. Chi phí phát triển AI ngày càng cao trong khi lợi nhuận chưa thể bù đắp. ChatGPT-5 phải thực sự "thay da đổi thịt" để thuyết phục các nhà đầu tư rằng khoản tiền họ rót vào không phải là vô nghĩa.


Với loạt thách thức này, OpenAI dự kiến sẽ không thể tung ra GPT-5 trước giữa năm 2025. Để biến giấc mơ thành hiện thực, họ phải vừa cải thiện chất lượng dữ liệu, vừa giảm chi phí và xử lý các vấn đề nội bộ. Nếu không, ChatGPT-5 có nguy cơ trở thành "siêu phẩm" chỉ nằm trên giấy.
 
Bên trên