Thanh Thúy
Well-known member
Thành công phi thường của TikTok (và phiên bản Trung Quốc là Douyin) không thể tách rời khỏi "vũ khí bí mật": thuật toán đề xuất nội dung được cá nhân hóa đến mức gần như vô tận, khiến hàng trăm triệu người dùng mỗi ngày khó lòng rời mắt khỏi màn hình. Nhưng sức mạnh "thôi miên" đó hoạt động như thế nào và tiềm ẩn những góc khuất ra sao? Những tiết lộ gần đây từ ByteDance (dưới sức ép của cơ quan quản lý Trung Quốc) và các nghiên cứu độc lập đang dần hé lộ phần nào công thức đằng sau thuật toán gây nghiện này.
"Công thức" đề xuất nội dung của TikTok/Douyin
Để tạo ra dòng chảy video dường như đọc được suy nghĩ của bạn, thuật toán của TikTok/Douyin xử lý một lượng tín hiệu dữ liệu khổng lồ và sử dụng các kiến trúc học máy phức tạp. Theo công bố của Douyin, hai mô hình chính được sử dụng là Wide&Deep, một cấu trúc lai kết hợp khả năng "ghi nhớ" các tương tác trực tiếp (bạn bè bạn thích gì) và "khái quát hóa" để khám phá sở thích mới lạ nhưng vẫn phù hợp; và mô hình Two-Tower Retrieval, tập trung vào việc tạo "dấu vân tay kỹ thuật số" cho cả người dùng và video để tìm kiếm sự tương đồng và khớp nối hiệu quả.
Để xây dựng "dấu vân tay" người dùng chi tiết, thuật toán phân tích mọi thứ: từ lượt thích, bình luận, chia sẻ, theo dõi, đến thời gian xem, tỷ lệ xem hết, lượt xem lại, nội dung video (caption, hashtag, âm thanh, nhãn phân loại theo cây sở thích phức tạp), và cả thông tin thiết bị (ngôn ngữ, vị trí, loại máy...). Nội dung mới được phân phối qua các "phễu" thử nghiệm, chỉ video có tương tác tốt mới được lan tỏa rộng hơn. Kỹ thuật Lọc Cộng tác (Collaborative Filtering) cũng được dùng để gợi ý dựa trên sự tương đồng giữa người dùng hoặc nội dung.
Mặc dù dùng chung mã nguồn gốc, TikTok và Douyin là hai hệ sinh thái riêng biệt. Douyin có xu hướng thu thập nhiều loại dữ liệu hơn một chút, tích hợp sâu hơn về thương mại điện tử và chịu kiểm duyệt nội dung chặt chẽ hơn theo luật Trung Quốc. TikTok được cho là ưu tiên khả năng lan truyền (viral) và yếu tố địa lý hơn.
Mặt trái của thuật toán gây nghiện
Sức mạnh cá nhân hóa của thuật toán chính là con dao hai lưỡi. Nó giữ chân người dùng cực kỳ hiệu quả, nhưng cũng dễ dàng tạo ra "bong bóng lọc" (filter bubble). Người dùng có thể bị giới hạn trong một luồng nội dung chỉ củng cố quan điểm, định kiến sẵn có của họ thay vì tiếp cận những góc nhìn đa chiều. Dù TikTok phủ nhận, lo ngại về sự đơn điệu và phân cực thông tin do thuật toán gây ra vẫn hiện hữu.
Nghiêm trọng hơn, thuật toán có thể vô tình tạo ra "bất bình đẳng kỹ thuật số kiểu mới". Một nghiên cứu đã chỉ ra rằng, khi mô phỏng, những người dùng sử dụng điện thoại cấu hình thấp, giá rẻ nhận được ít đề xuất về các video thông tin sức khỏe đáng tin cậy hơn so với người dùng điện thoại đắt tiền. Điều này cho thấy thuật toán có thể đang phân phối thông tin quan trọng một cách không công bằng dựa trên các yếu tố kinh tế xã hội mà nó thu thập được từ dữ liệu thiết bị. Bên cạnh đó, việc tối ưu hóa theo tương tác (like, share, comment) cũng khiến nền tảng trở thành mảnh đất màu mỡ cho tin giả, tin giật gân lan truyền nhanh chóng nếu chúng thu hút được nhiều sự chú ý hơn thông tin xác thực.
Minh bạch nửa vời?
Trước áp lực pháp lý, ByteDance đã có những động thái tăng cường minh bạch như ra mắt "Trung tâm An toàn và Tin cậy" hay công bố tên các mô hình thuật toán chính (Wide&Deep, Two-Tower). Tuy nhiên, các chuyên gia cho rằng mức độ minh bạch này vẫn rất hạn chế. Việc chỉ mô tả kiến trúc tổng quan là chưa đủ, người dùng và các nhà quản lý cần biết rõ hơn về cách các yếu tố đầu vào được cân nhắc trọng số ra sao, dữ liệu nào được ưu tiên, và cơ chế kiểm duyệt, quản lý nội dung thực sự vận hành như thế nào để chống lại các hành vi thao túng.
Advertisements
X
Rõ ràng, thuật toán đề xuất của TikTok là một thành tựu công nghệ đáng nể, là động cơ chính đằng sau sự thành công toàn cầu. Nhưng sức mạnh to lớn đó đi kèm với trách nhiệm giải trình và những hệ lụy xã hội phức tạp. Việc tìm kiếm sự cân bằng giữa trải nghiệm người dùng được cá nhân hóa, lợi ích kinh doanh và các tác động tiêu cực tiềm ẩn đòi hỏi sự giám sát chặt chẽ hơn và các giải pháp quản trị minh bạch, hiệu quả hơn từ cả ByteDance lẫn các nhà hoạch định chính sách trong tương lai.

"Công thức" đề xuất nội dung của TikTok/Douyin
Để tạo ra dòng chảy video dường như đọc được suy nghĩ của bạn, thuật toán của TikTok/Douyin xử lý một lượng tín hiệu dữ liệu khổng lồ và sử dụng các kiến trúc học máy phức tạp. Theo công bố của Douyin, hai mô hình chính được sử dụng là Wide&Deep, một cấu trúc lai kết hợp khả năng "ghi nhớ" các tương tác trực tiếp (bạn bè bạn thích gì) và "khái quát hóa" để khám phá sở thích mới lạ nhưng vẫn phù hợp; và mô hình Two-Tower Retrieval, tập trung vào việc tạo "dấu vân tay kỹ thuật số" cho cả người dùng và video để tìm kiếm sự tương đồng và khớp nối hiệu quả.
Để xây dựng "dấu vân tay" người dùng chi tiết, thuật toán phân tích mọi thứ: từ lượt thích, bình luận, chia sẻ, theo dõi, đến thời gian xem, tỷ lệ xem hết, lượt xem lại, nội dung video (caption, hashtag, âm thanh, nhãn phân loại theo cây sở thích phức tạp), và cả thông tin thiết bị (ngôn ngữ, vị trí, loại máy...). Nội dung mới được phân phối qua các "phễu" thử nghiệm, chỉ video có tương tác tốt mới được lan tỏa rộng hơn. Kỹ thuật Lọc Cộng tác (Collaborative Filtering) cũng được dùng để gợi ý dựa trên sự tương đồng giữa người dùng hoặc nội dung.
Mặc dù dùng chung mã nguồn gốc, TikTok và Douyin là hai hệ sinh thái riêng biệt. Douyin có xu hướng thu thập nhiều loại dữ liệu hơn một chút, tích hợp sâu hơn về thương mại điện tử và chịu kiểm duyệt nội dung chặt chẽ hơn theo luật Trung Quốc. TikTok được cho là ưu tiên khả năng lan truyền (viral) và yếu tố địa lý hơn.

Mặt trái của thuật toán gây nghiện
Sức mạnh cá nhân hóa của thuật toán chính là con dao hai lưỡi. Nó giữ chân người dùng cực kỳ hiệu quả, nhưng cũng dễ dàng tạo ra "bong bóng lọc" (filter bubble). Người dùng có thể bị giới hạn trong một luồng nội dung chỉ củng cố quan điểm, định kiến sẵn có của họ thay vì tiếp cận những góc nhìn đa chiều. Dù TikTok phủ nhận, lo ngại về sự đơn điệu và phân cực thông tin do thuật toán gây ra vẫn hiện hữu.
Nghiêm trọng hơn, thuật toán có thể vô tình tạo ra "bất bình đẳng kỹ thuật số kiểu mới". Một nghiên cứu đã chỉ ra rằng, khi mô phỏng, những người dùng sử dụng điện thoại cấu hình thấp, giá rẻ nhận được ít đề xuất về các video thông tin sức khỏe đáng tin cậy hơn so với người dùng điện thoại đắt tiền. Điều này cho thấy thuật toán có thể đang phân phối thông tin quan trọng một cách không công bằng dựa trên các yếu tố kinh tế xã hội mà nó thu thập được từ dữ liệu thiết bị. Bên cạnh đó, việc tối ưu hóa theo tương tác (like, share, comment) cũng khiến nền tảng trở thành mảnh đất màu mỡ cho tin giả, tin giật gân lan truyền nhanh chóng nếu chúng thu hút được nhiều sự chú ý hơn thông tin xác thực.

Minh bạch nửa vời?
Trước áp lực pháp lý, ByteDance đã có những động thái tăng cường minh bạch như ra mắt "Trung tâm An toàn và Tin cậy" hay công bố tên các mô hình thuật toán chính (Wide&Deep, Two-Tower). Tuy nhiên, các chuyên gia cho rằng mức độ minh bạch này vẫn rất hạn chế. Việc chỉ mô tả kiến trúc tổng quan là chưa đủ, người dùng và các nhà quản lý cần biết rõ hơn về cách các yếu tố đầu vào được cân nhắc trọng số ra sao, dữ liệu nào được ưu tiên, và cơ chế kiểm duyệt, quản lý nội dung thực sự vận hành như thế nào để chống lại các hành vi thao túng.
Advertisements
X

Rõ ràng, thuật toán đề xuất của TikTok là một thành tựu công nghệ đáng nể, là động cơ chính đằng sau sự thành công toàn cầu. Nhưng sức mạnh to lớn đó đi kèm với trách nhiệm giải trình và những hệ lụy xã hội phức tạp. Việc tìm kiếm sự cân bằng giữa trải nghiệm người dùng được cá nhân hóa, lợi ích kinh doanh và các tác động tiêu cực tiềm ẩn đòi hỏi sự giám sát chặt chẽ hơn và các giải pháp quản trị minh bạch, hiệu quả hơn từ cả ByteDance lẫn các nhà hoạch định chính sách trong tương lai.