Thanh Thúy
Well-known member
Một bài báo y khoa của Microsoft và Đại học Washington đã vô tình tiết lộ thông số kỹ thuật của các mô hình AI do OpenAI phát triển, bao gồm GPT-4, GPT-4o, và o1.
Thông số kỹ thuật được tiết lộ
Tiêu chuẩn đánh giá MEDEC và ứng dụng y khoa
Bài báo tiết lộ nhóm nghiên cứu từ Microsoft và Đại học Washington đã phát triển tiêu chuẩn MEDEC (Medical Error Detection and Correction), được thiết kế để phát hiện và sửa lỗi trong các ghi chú lâm sàng.
Thông tin về dữ liệu MEDEC
MEDEC được dùng để đánh giá hiệu suất của nhiều mô hình AI, bao gồm:
Tác giả của nghiên cứu của Microsoft gồm:
Thông số kỹ thuật được tiết lộ
- GPT-4: 1,76 nghìn tỷ tham số.
- GPT-4o: 200 tỷ tham số.
- GPT-4o mini: 8 tỷ tham số.
- o1-preview: 300 tỷ tham số.
- o1-mini: 100 tỷ tham số.
- Claude 3.5 Sonnet: 175 tỷ tham số.
Tiêu chuẩn đánh giá MEDEC và ứng dụng y khoa
Bài báo tiết lộ nhóm nghiên cứu từ Microsoft và Đại học Washington đã phát triển tiêu chuẩn MEDEC (Medical Error Detection and Correction), được thiết kế để phát hiện và sửa lỗi trong các ghi chú lâm sàng.
Thông tin về dữ liệu MEDEC
- Gồm 3.848 văn bản lâm sàng từ 488 ghi chú tại 3 hệ thống bệnh viện Mỹ.
- Chia thành 5 loại lỗi y khoa chính:
- Chẩn đoán: Sai về chẩn đoán.
- Quản lý: Sai trong các bước quản lý bệnh.
- Điều trị: Sai trong phương pháp điều trị.
- Thuốc: Khuyến nghị dùng thuốc sai.
- Tác nhân gây bệnh: Nhầm lẫn về sinh vật gây bệnh.
MEDEC được dùng để đánh giá hiệu suất của nhiều mô hình AI, bao gồm:
- GPT-4, GPT-4o, o1-preview, Claude 3.5 Sonnet, Gemini 2.0 Flash.
- Xác định lỗi có tồn tại hay không.
- Xác định câu có lỗi.
- Đưa ra bản sửa lỗi.
- LLM (mô hình ngôn ngữ lớn) hoạt động tốt trong việc phát hiện và sửa lỗi, nhưng vẫn kém bác sĩ con người.
- o1-preview vượt trội về sửa lỗi, trong khi Claude 3.5 Sonnet có độ chính xác cao nhất trong phát hiện lỗi.
- LLM thường tạo ra "ảo giác", đưa ra thông tin không chính xác hoặc hư cấu, gây nguy cơ trong ra quyết định lâm sàng.
- Việc phát hiện lỗi trong văn bản lâm sàng yêu cầu không chỉ chuyên môn y tế mà còn kinh nghiệm thực tế.
Tác giả của nghiên cứu của Microsoft gồm:
- Wen-wai Yim: Nhà khoa học ứng dụng cao cấp tại Microsoft, có nền tảng trong kỹ thuật sinh học, tin học y sinh và y tế. Lĩnh vực nghiên cứu chính của cô bao gồm trích xuất thông tin từ ghi chú lâm sàng và dữ liệu y khoa.
- Yujuan Fu: Nghiên cứu sinh tiến sĩ tại Đại học Washington, chuyên về xử lý ngôn ngữ tự nhiên trong y tế, đặc biệt là tinh chỉnh các mô hình ngôn ngữ lớn.
- Zhaoyi Sun: Nghiên cứu sinh tiến sĩ tại Đại học Washington, tập trung vào việc áp dụng mô hình ngôn ngữ lớn (LLM) để cải thiện ứng dụng trong lâm sàng và nghiên cứu học sâu đa phương thức.
- Fei Xia: Giáo sư tại Khoa Ngôn ngữ học, Đại học Washington, với kinh nghiệm trong xử lý ngôn ngữ tự nhiên, đặc biệt là trong các dự án về ngữ pháp cây và học ngôn ngữ.