Thanh Thúy
Well-known member
Phiên bản 'mini mới' của GPT-4o của OpenAI tập trung vào khía cạnh kinh tế của các ứng dụng AI phức tạp hơn.
OpenAI đã công bố GPT-4o mini vào thứ Năm tuần này (18/7/2024), một phiên bản nhỏ hơn và ít tốn kém hơn của mô hình AI GPT-4o. OpenAI là một trong số nhiều công ty AI phát triển phiên bản mô hình "nền tảng" tốt nhất, đánh đổi một số trí thông minh để lấy tốc độ và khả năng chi trả. Sự đánh đổi như vậy có thể cho phép nhiều nhà phát triển hơn cung cấp sức mạnh cho các ứng dụng của họ bằng AI và có thể mở ra cánh cửa cho các ứng dụng phức tạp hơn như các tác nhân tự động trong tương lai.
Các mô hình ngôn ngữ lớn (LLM) lớn nhất sử dụng hàng tỷ hoặc hàng nghìn tỷ tham số (hoặc các điểm kết nối giống như khớp thần kinh nơi mạng nơ-ron thực hiện các phép tính) để thực hiện một loạt các tác vụ liên quan đến lý luận và truy vấn. Chúng cũng được đào tạo trên lượng dữ liệu khổng lồ bao gồm nhiều chủ đề khác nhau. Mặt khác, "các mô hình ngôn ngữ nhỏ" hay SLM chỉ sử dụng hàng triệu hoặc hàng chục triệu tham số để thực hiện một tập hợp các tác vụ hẹp hơn và yêu cầu ít sức mạnh tính toán hơn và một tập hợp nhỏ hơn dữ liệu đào tạo tập trung hơn.
Đối với các nhà phát triển có ứng dụng đơn giản hơn (và có lẽ ít lợi nhuận hơn), SLM có thể là lựa chọn khả thi duy nhất. OpenAI cho biết GPT-4o mini rẻ hơn 60% so với GPT-3.5 Turbo, trước đây là mô hình OpenAI tiết kiệm nhất dành cho các nhà phát triển.
Hoặc, đó có thể là vấn đề về tốc độ. Nhiều ứng dụng AI không yêu cầu kiến thức chung sâu rộng về một mô hình AI lớn. Chúng có thể cần câu trả lời nhanh hơn cho những câu hỏi dễ hơn. Mike Intrator, CEO của CoreWeave, nơi lưu trữ các mô hình AI trên đám mây, cho biết: "Nếu con tôi viết bài luận học kỳ [với sự trợ giúp của một công cụ AI], thì độ trễ không phải là vấn đề lớn". Độ trễ ở đây là thời gian cần thiết để một ứng dụng AI nhận được câu trả lời từ một mô hình trên đám mây. "Nhưng nếu bạn sử dụng nó để phẫu thuật hoặc lái xe tự động hoặc thứ gì đó tương tự, thì độ trễ bắt đầu tạo ra tác động lớn hơn nhiều đến trải nghiệm". Intrator chỉ ra rằng các mô hình được sử dụng trong xe tự lái phải đủ nhỏ để chạy trên chip máy tính trong xe, chứ không phải trên máy chủ đám mây.
GPT-4o mini nhỏ hơn các mẫu khác, nhưng vẫn chưa đủ nhỏ để chạy trên thiết bị như điện thoại hoặc máy chơi game. Vì vậy, nó phải chạy trên máy chủ trên đám mây giống như tất cả các mẫu khác của OpenAI. Công ty không nói liệu nó có hoạt động trên các mẫu trên thiết bị hay không (mặc dù Apple đã xác nhận là có).
Các mô hình nhanh hơn, rẻ hơn có thể “khai hoả” bùng nổ ứng dụng AI
Ngày nay, hầu hết các ứng dụng chạy bằng AI đều liên quan đến một truy vấn duy nhất hoặc một vài truy vấn đến một mô hình chạy trên đám mây. Nhưng các ứng dụng tiên tiến đòi hỏi nhiều truy vấn đến nhiều mô hình khác nhau, Robert Nishihara, đồng sáng lập kiêm giám đốc điều hành của Anyscale, cho biết, công ty cung cấp nền tảng để đưa các mô hình và khối lượng công việc AI vào sản xuất. Ví dụ, một ứng dụng giúp bạn chọn nơi cho thuê nhà nghỉ có thể sử dụng một mô hình để tạo tiêu chí lựa chọn, một mô hình khác để chọn một số tùy chọn cho thuê và một mô hình khác nữa để chấm điểm từng tùy chọn đó theo tiêu chí, v.v. Và việc chỉ đạo và điều phối tất cả các truy vấn này là một công việc phức tạp.
Nishihara cho biết: "Khi quá nhiều lệnh gọi mô hình được kết hợp lại với nhau, chi phí và độ trễ sẽ tăng vọt". "Việc tìm cách giảm chi phí và độ trễ là bước thiết yếu để đưa các ứng dụng này vào sản xuất".
Hiệu suất của các mô hình là quan trọng, nhưng tốc độ và chi phí của chúng cũng quan trọng không kém. OpenAI biết điều này, cũng như các công ty như Meta và Google, cả hai đều đang tạo ra các mô hình nguồn mở nhỏ hơn và nhanh hơn. Nỗ lực thu nhỏ mô hình của các công ty này rất quan trọng đối với việc sử dụng các mô hình AI cho các ứng dụng phức tạp hơn, chẳng hạn như trợ lý cá nhân thực hiện các tác vụ đầu cuối thay mặt cho người dùng, Nishihara nói.
OpenAI không tiết lộ kích thước tham số của các mô hình, nhưng mô hình mini có thể có kích thước tương đương với Claude 3 Haiku của Anthropic và Gemini 1.5 Flash của Google. OpenAI cho biết mini hoạt động tốt hơn các mô hình tương đương đó trong các bài kiểm tra chuẩn.
OpenAI cho biết các nhà phát triển ứng dụng - những người hưởng lợi lớn nhất từ những cải tiến về tốc độ và chi phí - sẽ có thể truy cập mini thông qua API bắt đầu từ hôm nay và các mô hình mới cũng sẽ bắt đầu hỗ trợ các truy vấn từ ứng dụng ChatGPT ngay hôm nay.
Chữ “o” trong GPT-4o là viết tắt của “omni” hoặc “multimodal”, nghĩa là khả năng xử lý và lý luận trên hình ảnh và âm thanh, không chỉ văn bản. Mô hình mini hỗ trợ văn bản và tầm nhìn trong API, và OpenAI cho biết mô hình sẽ hỗ trợ khả năng video và âm thanh trong tương lai.
OpenAI đã công bố GPT-4o mini vào thứ Năm tuần này (18/7/2024), một phiên bản nhỏ hơn và ít tốn kém hơn của mô hình AI GPT-4o. OpenAI là một trong số nhiều công ty AI phát triển phiên bản mô hình "nền tảng" tốt nhất, đánh đổi một số trí thông minh để lấy tốc độ và khả năng chi trả. Sự đánh đổi như vậy có thể cho phép nhiều nhà phát triển hơn cung cấp sức mạnh cho các ứng dụng của họ bằng AI và có thể mở ra cánh cửa cho các ứng dụng phức tạp hơn như các tác nhân tự động trong tương lai.
Các mô hình ngôn ngữ lớn (LLM) lớn nhất sử dụng hàng tỷ hoặc hàng nghìn tỷ tham số (hoặc các điểm kết nối giống như khớp thần kinh nơi mạng nơ-ron thực hiện các phép tính) để thực hiện một loạt các tác vụ liên quan đến lý luận và truy vấn. Chúng cũng được đào tạo trên lượng dữ liệu khổng lồ bao gồm nhiều chủ đề khác nhau. Mặt khác, "các mô hình ngôn ngữ nhỏ" hay SLM chỉ sử dụng hàng triệu hoặc hàng chục triệu tham số để thực hiện một tập hợp các tác vụ hẹp hơn và yêu cầu ít sức mạnh tính toán hơn và một tập hợp nhỏ hơn dữ liệu đào tạo tập trung hơn.
Đối với các nhà phát triển có ứng dụng đơn giản hơn (và có lẽ ít lợi nhuận hơn), SLM có thể là lựa chọn khả thi duy nhất. OpenAI cho biết GPT-4o mini rẻ hơn 60% so với GPT-3.5 Turbo, trước đây là mô hình OpenAI tiết kiệm nhất dành cho các nhà phát triển.
Hoặc, đó có thể là vấn đề về tốc độ. Nhiều ứng dụng AI không yêu cầu kiến thức chung sâu rộng về một mô hình AI lớn. Chúng có thể cần câu trả lời nhanh hơn cho những câu hỏi dễ hơn. Mike Intrator, CEO của CoreWeave, nơi lưu trữ các mô hình AI trên đám mây, cho biết: "Nếu con tôi viết bài luận học kỳ [với sự trợ giúp của một công cụ AI], thì độ trễ không phải là vấn đề lớn". Độ trễ ở đây là thời gian cần thiết để một ứng dụng AI nhận được câu trả lời từ một mô hình trên đám mây. "Nhưng nếu bạn sử dụng nó để phẫu thuật hoặc lái xe tự động hoặc thứ gì đó tương tự, thì độ trễ bắt đầu tạo ra tác động lớn hơn nhiều đến trải nghiệm". Intrator chỉ ra rằng các mô hình được sử dụng trong xe tự lái phải đủ nhỏ để chạy trên chip máy tính trong xe, chứ không phải trên máy chủ đám mây.
GPT-4o mini nhỏ hơn các mẫu khác, nhưng vẫn chưa đủ nhỏ để chạy trên thiết bị như điện thoại hoặc máy chơi game. Vì vậy, nó phải chạy trên máy chủ trên đám mây giống như tất cả các mẫu khác của OpenAI. Công ty không nói liệu nó có hoạt động trên các mẫu trên thiết bị hay không (mặc dù Apple đã xác nhận là có).
Các mô hình nhanh hơn, rẻ hơn có thể “khai hoả” bùng nổ ứng dụng AI
Ngày nay, hầu hết các ứng dụng chạy bằng AI đều liên quan đến một truy vấn duy nhất hoặc một vài truy vấn đến một mô hình chạy trên đám mây. Nhưng các ứng dụng tiên tiến đòi hỏi nhiều truy vấn đến nhiều mô hình khác nhau, Robert Nishihara, đồng sáng lập kiêm giám đốc điều hành của Anyscale, cho biết, công ty cung cấp nền tảng để đưa các mô hình và khối lượng công việc AI vào sản xuất. Ví dụ, một ứng dụng giúp bạn chọn nơi cho thuê nhà nghỉ có thể sử dụng một mô hình để tạo tiêu chí lựa chọn, một mô hình khác để chọn một số tùy chọn cho thuê và một mô hình khác nữa để chấm điểm từng tùy chọn đó theo tiêu chí, v.v. Và việc chỉ đạo và điều phối tất cả các truy vấn này là một công việc phức tạp.
Nishihara cho biết: "Khi quá nhiều lệnh gọi mô hình được kết hợp lại với nhau, chi phí và độ trễ sẽ tăng vọt". "Việc tìm cách giảm chi phí và độ trễ là bước thiết yếu để đưa các ứng dụng này vào sản xuất".
Hiệu suất của các mô hình là quan trọng, nhưng tốc độ và chi phí của chúng cũng quan trọng không kém. OpenAI biết điều này, cũng như các công ty như Meta và Google, cả hai đều đang tạo ra các mô hình nguồn mở nhỏ hơn và nhanh hơn. Nỗ lực thu nhỏ mô hình của các công ty này rất quan trọng đối với việc sử dụng các mô hình AI cho các ứng dụng phức tạp hơn, chẳng hạn như trợ lý cá nhân thực hiện các tác vụ đầu cuối thay mặt cho người dùng, Nishihara nói.
OpenAI không tiết lộ kích thước tham số của các mô hình, nhưng mô hình mini có thể có kích thước tương đương với Claude 3 Haiku của Anthropic và Gemini 1.5 Flash của Google. OpenAI cho biết mini hoạt động tốt hơn các mô hình tương đương đó trong các bài kiểm tra chuẩn.
OpenAI cho biết các nhà phát triển ứng dụng - những người hưởng lợi lớn nhất từ những cải tiến về tốc độ và chi phí - sẽ có thể truy cập mini thông qua API bắt đầu từ hôm nay và các mô hình mới cũng sẽ bắt đầu hỗ trợ các truy vấn từ ứng dụng ChatGPT ngay hôm nay.
Chữ “o” trong GPT-4o là viết tắt của “omni” hoặc “multimodal”, nghĩa là khả năng xử lý và lý luận trên hình ảnh và âm thanh, không chỉ văn bản. Mô hình mini hỗ trợ văn bản và tầm nhìn trong API, và OpenAI cho biết mô hình sẽ hỗ trợ khả năng video và âm thanh trong tương lai.