Khám phá phương pháp huấn luyện Apple Intelligence độc đáo của Táo Khuyết

Thanh Thúy · Thứ năm lúc 10:31

Để đưa ‌Apple Intelligence‌ lên một tầm cao mới, Apple đang tích cực tìm kiếm và triển khai các giải pháp huấn luyện trí tuệ nhân tạo (AI) tiên tiến, đặt biệt chú trọng đến việc bảo vệ quyền riêng tư của người dùng. Những nỗ lực này được hé lộ trong một bài đăng gần đây trên blog Machine Learning Research của hãng, cho thấy một hướng đi đầy hứa hẹn trong việc cân bằng giữa cải tiến công nghệ và tôn trọng thông tin cá nhân.
Bài toán đặt ra cho Apple là làm thế nào để thu thập đủ dữ liệu cần thiết nhằm nâng cao chất lượng các tính năng thông minh như tóm tắt văn bản, hỗ trợ viết và nhiều ứng dụng khác của ‌Apple Intelligence‌, mà vẫn đảm bảo không xâm phạm đến quyền riêng tư của từng người dùng. Thay vì thu thập dữ liệu cá nhân trực tiếp, Apple đã phát triển một phương pháp độc đáo dựa trên quyền riêng tư vi phân và việc phân tích các xu hướng sử dụng tổng hợp.
Điểm mấu chốt trong cách tiếp cận của Apple là tạo ra dữ liệu tổng hợp, một bản sao “ảo” phản ánh các xu hướng chung trong cách người dùng thực tế tương tác với thiết bị. Bên cạnh đó, công ty tận dụng khả năng xử lý mạnh mẽ trên chính thiết bị của người dùng để thực hiện các so sánh cục bộ. Điều này cho phép Apple thu thập thông tin giá trị mà không cần truy cập vào bất kỳ dữ liệu nhạy cảm nào của cá nhân.

Cụ thể, quy trình này diễn ra như sau: Apple tạo ra nhiều email tổng hợp với các chủ đề phổ biến, ví dụ như một lời mời chơi thể thao. Từ mỗi email này, một “embedding” được tạo ra, mã hóa các đặc điểm quan trọng như ngôn ngữ, chủ đề và độ dài. Apple có thể tạo ra nhiều embedding khác nhau cho cùng một chủ đề, với sự thay đổi về độ dài và thông tin chi tiết.
Các embedding tổng hợp này sau đó được gửi đến một số lượng giới hạn người dùng ‌iPhone‌ đã kích hoạt tính năng Phân tích Thiết bị. Thiết bị của người dùng sẽ chọn ngẫu nhiên một số email thực tế và tạo embedding tương ứng. Tiếp theo, các embedding tổng hợp từ Apple sẽ được so sánh với embedding của email thực tế, và ‌iPhone‌ sẽ xác định embedding tổng hợp nào có độ tương đồng cao nhất.
Cuối cùng, Apple sử dụng kỹ thuật quyền riêng tư vi phân để phân tích tần suất lựa chọn của từng embedding tổng hợp trên toàn bộ các thiết bị tham gia. Nhờ đó, Apple có thể nắm bắt được cách diễn đạt email phổ biến mà không cần biết nội dung email thực tế của bất kỳ ai hoặc thiết bị cụ thể nào đã chọn embedding nào.

Tạo ra các biến thể khác nhau của tin nhắn tổng hợp. Ảnh: Apple
Apple khẳng định rằng những embedding tổng hợp được lựa chọn nhiều nhất sẽ trở thành nguồn dữ liệu quý giá cho việc huấn luyện và kiểm thử các mô hình AI, hoặc được sử dụng để tinh chỉnh dữ liệu hiện có. Quá trình này mang lại cho Apple một phương pháp hiệu quả để cải thiện chủ đề và ngôn ngữ của các email tổng hợp, từ đó nâng cao khả năng tạo văn bản của AI trong các tính năng như tóm tắt email, mà vẫn tuân thủ nghiêm ngặt các nguyên tắc bảo vệ quyền riêng tư của người dùng.
Không chỉ dừng lại ở việc xử lý văn bản, Apple còn áp dụng các kỹ thuật tương tự cho ‌Genmoji‌, tính năng tạo biểu tượng cảm xúc bằng AI. Bằng cách sử dụng quyền riêng tư vi phân, Apple có thể xác định các gợi ý và cấu trúc gợi ý phổ biến mà người dùng hay sử dụng, từ đó cải thiện khả năng tạo ảnh của tính năng này. Một cơ chế đặc biệt được áp dụng để đảm bảo rằng Apple chỉ thu thập các gợi ý ‌Genmoji‌ đã được sử dụng bởi hàng trăm người, loại bỏ mọi thông tin cá nhân hoặc duy nhất có thể dẫn đến việc nhận dạng một cá nhân cụ thể.
Apple hoàn toàn không thể truy cập vào bất kỳ ‌Genmoji‌ nào được liên kết với thiết bị cá nhân. Mọi tín hiệu được truyền đi đều được ẩn danh hóa và thêm vào nhiễu ngẫu nhiên để che giấu danh tính người dùng. Hơn nữa, Apple không liên kết bất kỳ dữ liệu nào với địa chỉ IP hoặc ID có thể liên quan đến Tài khoản Apple.
Điều quan trọng cần lưu ý là cả hai phương pháp này chỉ được triển khai trên những người dùng đã chủ động đồng ý chia sẻ dữ liệu Phân tích Thiết bị với Apple. Người dùng hoàn toàn có quyền tắt tùy chọn này nếu không muốn dữ liệu của mình được sử dụng cho mục đích này.
Trong tương lai gần, Apple có kế hoạch mở rộng việc ứng dụng các kỹ thuật quyền riêng tư vi phân để nâng cao chất lượng của ‌Image Playground‌, Tạo Kỷ niệm, Công cụ Viết và ‌Visual Intelligence‌ trong các phiên bản hệ điều hành sắp tới là iOS 18.5, iPadOS 18.5 và ‌macOS Sequoia‌ 15.5. Điều này cho thấy cam kết mạnh mẽ của Apple trong việc phát triển các tính năng AI mạnh mẽ, đồng thời đặt quyền riêng tư của người dùng lên hàng đầu.

Khám phá phương pháp huấn luyện Apple Intelligence độc đáo của Táo Khuyết

Thanh Thúy

Well-known member