Thanh Thúy
Well-known member
Meta vừa giới thiệu mô hình AI mã nguồn mở Llama 3.2 tại sự kiện Meta Connect 2024, với khả năng hỗ trợ tạo văn bản đa ngôn ngữ và các ứng dụng thị giác như nhận dạng hình ảnh. “Đây là mô hình đa phương thức, mã nguồn mở đầu tiên của chúng tôi và nó sẽ cho phép rất nhiều ứng dụng thú vị yêu cầu hiểu biết trực quan”, Mark Zuckerberg, Giám đốc điều hành của Meta, cho biết.
Llama 3.2: Nhiều kích thước, nhiều khả năng
Llama 3.2 là phiên bản tiếp theo của mô hình Llama 3.1, mô hình mã nguồn mở khổng lồ được phát hành vào cuối tháng 7.
Mô hình Llama trước đó là mô hình AI mã nguồn mở lớn nhất trong lịch sử, với 405 tỷ tham số - tham số là các biến có thể điều chỉnh trong mô hình AI giúp nó học các mẫu từ dữ liệu. Kích thước phản ánh độ phức tạp và khả năng của AI trong việc hiểu và tạo ra văn bản giống con người.
Các mô hình Llama mới được giới thiệu tại Meta Connect 2024 có kích thước nhỏ hơn nhiều. Meta tuyên bố rằng họ chọn thiết kế các mô hình nhỏ hơn vì không phải tất cả các nhà nghiên cứu đều có nguồn lực điện toán và chuyên môn đáng kể cần thiết để chạy một mô hình khổng lồ như Llama 3.1. LLama 3.2 có nhiều kích thước khác nhau, từ 1 tỷ tham số đến 90 tỷ tham số.
Chúng được chia thành hai phân khúc:
Xét về hiệu suất, các mô hình Llama 3.2 mới của Meta có khả năng cạnh tranh với các hệ thống hàng đầu trong ngành từ Anthropic và OpenAI. Mô hình 3B vượt trội hơn Gemma 2 2.6B của Google và Phi 3.5-mini của Microsoft trong các nhiệm vụ như tuân theo hướng dẫn và tóm tắt nội dung.
Mô hình lớn nhất, phiên bản 90B, vượt trội hơn cả Claude 3-Haiku và GPT-4o-mini trên nhiều tiêu chuẩn đánh giá, bao gồm cả bài kiểm tra MMLU phổ biến, một công cụ đánh giá hàng đầu trong ngành dành cho các mô hình AI. Vì các mô hình LLama của Meta có thể truy cập được bởi bất cứ ai, nên Meta đã hành động để đảm bảo các mô hình an toàn và bảo mật.
Dựa trên các biện pháp bảo vệ trước đây, Meta đã giới thiệu tính năng Guard mới để hỗ trợ khả năng hiểu hình ảnh cho các mô hình kích thước trung bình. Cũng được giới thiệu là một loạt bộ lọc, ngăn chặn một số đầu ra văn bản và tác động xảy ra đối với các lời nhắc cụ thể.
Các mô hình Llama 3.2 quy mô nhỏ hơn có tính năng Llama Guard được tối ưu hóa giúp giảm kích thước hơn nữa. Llama Guard 3 1B về cơ bản là một phiên bản “được cắt giảm” của phiên bản 3.2 một tỷ nhưng được thu nhỏ để cơ bản hơn về chức năng nhưng cũng nhỏ hơn về kích thước - từ 2.858 MB xuống chỉ còn 438 MB, cho phép nó phù hợp với USB dành cho người tiêu dùng.
Cách truy cập các mô hình Llama 3.2
Các mô hình Llama 3.2 mới là mã nguồn mở, có nghĩa là bất cứ ai cũng có thể tải xuống và sử dụng chúng để cung cấp năng lượng cho các ứng dụng AI. Các mô hình có thể được tải xuống trực tiếp từ llama.com và Hugging Face, nền tảng kho lưu trữ mã nguồn mở phổ biến.
Mô hình Llama 3.2 cũng có thể được truy cập thông qua nhiều đối tác đám mây khác nhau, bao gồm Google Cloud, AWS, Nvidia, Microsoft Azure và Grow. Các con số được công bố vào đầu tháng 9 cho thấy nhu cầu đối với các mô hình Llama của Meta từ người dùng đám mây đã tăng gấp 10 lần từ tháng 1 đến tháng 7 - điều này có thể sẽ tăng thêm nữa sau khi dòng mô hình 3.2 mới ra mắt.
Hợp tác để thúc đẩy AI mã nguồn mở
Đối tác của Meta, Together AI, đang cung cấp quyền truy cập miễn phí vào phiên bản thị giác của Llama 3.2 11B trên nền tảng của họ cho đến cuối năm. Vipul Ved Prakash, người sáng lập và Giám đốc điều hành của Together AI, cho biết các mô hình đa phương thức mới sẽ tiếp tục thúc đẩy sự phát triển của AI mã nguồn mở trong giới nhà phát triển và doanh nghiệp.
"Chúng tôi rất vui mừng được hợp tác với Meta để cung cấp cho các nhà phát triển quyền truy cập miễn phí vào mô hình thị giác Llama 3.2 và là một trong những nhà cung cấp API đầu tiên cho Llama Stack", Prakash nói. "Với sự hỗ trợ của Together AI cho các mô hình Llama và Llama Stack, các nhà phát triển và doanh nghiệp có thể thử nghiệm, xây dựng và mở rộng quy mô các ứng dụng đa phương thức với hiệu suất, độ chính xác và chi phí tốt nhất."
Llama 3.2: Nhiều kích thước, nhiều khả năng
Llama 3.2 là phiên bản tiếp theo của mô hình Llama 3.1, mô hình mã nguồn mở khổng lồ được phát hành vào cuối tháng 7.
Mô hình Llama trước đó là mô hình AI mã nguồn mở lớn nhất trong lịch sử, với 405 tỷ tham số - tham số là các biến có thể điều chỉnh trong mô hình AI giúp nó học các mẫu từ dữ liệu. Kích thước phản ánh độ phức tạp và khả năng của AI trong việc hiểu và tạo ra văn bản giống con người.
Các mô hình Llama mới được giới thiệu tại Meta Connect 2024 có kích thước nhỏ hơn nhiều. Meta tuyên bố rằng họ chọn thiết kế các mô hình nhỏ hơn vì không phải tất cả các nhà nghiên cứu đều có nguồn lực điện toán và chuyên môn đáng kể cần thiết để chạy một mô hình khổng lồ như Llama 3.1. LLama 3.2 có nhiều kích thước khác nhau, từ 1 tỷ tham số đến 90 tỷ tham số.
Chúng được chia thành hai phân khúc:
- Kích thước nhỏ (1B và 3B): Được thiết kế nhẹ và chỉ có thể xử lý đầu vào văn bản. Chúng có thể phù hợp với thiết bị di động và cạnh, cho phép chúng xử lý đầu vào trên thiết bị.
- Kích thước trung bình (11 và 90 tỷ tham số): Là đa phương thức, có nghĩa là chúng có khả năng xử lý đầu vào ngoài văn bản, chẳng hạn như đầu vào trực quan như hình ảnh.
Xét về hiệu suất, các mô hình Llama 3.2 mới của Meta có khả năng cạnh tranh với các hệ thống hàng đầu trong ngành từ Anthropic và OpenAI. Mô hình 3B vượt trội hơn Gemma 2 2.6B của Google và Phi 3.5-mini của Microsoft trong các nhiệm vụ như tuân theo hướng dẫn và tóm tắt nội dung.
Mô hình lớn nhất, phiên bản 90B, vượt trội hơn cả Claude 3-Haiku và GPT-4o-mini trên nhiều tiêu chuẩn đánh giá, bao gồm cả bài kiểm tra MMLU phổ biến, một công cụ đánh giá hàng đầu trong ngành dành cho các mô hình AI. Vì các mô hình LLama của Meta có thể truy cập được bởi bất cứ ai, nên Meta đã hành động để đảm bảo các mô hình an toàn và bảo mật.
Dựa trên các biện pháp bảo vệ trước đây, Meta đã giới thiệu tính năng Guard mới để hỗ trợ khả năng hiểu hình ảnh cho các mô hình kích thước trung bình. Cũng được giới thiệu là một loạt bộ lọc, ngăn chặn một số đầu ra văn bản và tác động xảy ra đối với các lời nhắc cụ thể.
Các mô hình Llama 3.2 quy mô nhỏ hơn có tính năng Llama Guard được tối ưu hóa giúp giảm kích thước hơn nữa. Llama Guard 3 1B về cơ bản là một phiên bản “được cắt giảm” của phiên bản 3.2 một tỷ nhưng được thu nhỏ để cơ bản hơn về chức năng nhưng cũng nhỏ hơn về kích thước - từ 2.858 MB xuống chỉ còn 438 MB, cho phép nó phù hợp với USB dành cho người tiêu dùng.
Cách truy cập các mô hình Llama 3.2
Các mô hình Llama 3.2 mới là mã nguồn mở, có nghĩa là bất cứ ai cũng có thể tải xuống và sử dụng chúng để cung cấp năng lượng cho các ứng dụng AI. Các mô hình có thể được tải xuống trực tiếp từ llama.com và Hugging Face, nền tảng kho lưu trữ mã nguồn mở phổ biến.
Mô hình Llama 3.2 cũng có thể được truy cập thông qua nhiều đối tác đám mây khác nhau, bao gồm Google Cloud, AWS, Nvidia, Microsoft Azure và Grow. Các con số được công bố vào đầu tháng 9 cho thấy nhu cầu đối với các mô hình Llama của Meta từ người dùng đám mây đã tăng gấp 10 lần từ tháng 1 đến tháng 7 - điều này có thể sẽ tăng thêm nữa sau khi dòng mô hình 3.2 mới ra mắt.
Hợp tác để thúc đẩy AI mã nguồn mở
Đối tác của Meta, Together AI, đang cung cấp quyền truy cập miễn phí vào phiên bản thị giác của Llama 3.2 11B trên nền tảng của họ cho đến cuối năm. Vipul Ved Prakash, người sáng lập và Giám đốc điều hành của Together AI, cho biết các mô hình đa phương thức mới sẽ tiếp tục thúc đẩy sự phát triển của AI mã nguồn mở trong giới nhà phát triển và doanh nghiệp.
"Chúng tôi rất vui mừng được hợp tác với Meta để cung cấp cho các nhà phát triển quyền truy cập miễn phí vào mô hình thị giác Llama 3.2 và là một trong những nhà cung cấp API đầu tiên cho Llama Stack", Prakash nói. "Với sự hỗ trợ của Together AI cho các mô hình Llama và Llama Stack, các nhà phát triển và doanh nghiệp có thể thử nghiệm, xây dựng và mở rộng quy mô các ứng dụng đa phương thức với hiệu suất, độ chính xác và chi phí tốt nhất."