Góc nhìn Anderson

Sử dụng chương trình truyền hình ‘House’ để phát triển khả năng chẩn đoán của Trí tuệ nhân tạo

Published November 17, 2025

Updated April 1, 2026

Martin Anderson

A screen capture from the NBC TV show 'House, S04E02., 'The Right Stuff'

Mặc dù chẩn đoán bệnh hiếm gặp là một thách thức đặc biệt khó khăn đối với Trí tuệ nhân tạo (giống như đối với con người), các mô hình ngôn ngữ phổ biến như ChatGPT và Gemini đã thể hiện hiệu suất hứa hẹn khi được đào tạo trên các trường hợp chẩn đoán từ bộ phim truyền hình y khoa nổi tiếng ‘House’.

Gần một nửa số sinh viên khoa học sức khỏe thường xuyên xem các bộ phim truyền hình y khoa như House, Grey’s Anatomy, và Scrubs. Mặc dù loại vật liệu này chỉ có thể được sử dụng cho mục đích giáo dục với rất nhiều bộ lọc và khung, do rủi ro lan truyền thông tin sai lệch nguy hiểm, tiêu chuẩn nghiên cứu cho các bộ phim truyền hình có tính năng về tình trạng sức khỏe thường khá cao (mặc dù độ chính xác khác nhau trên các sản phẩm).

Không ngạc nhiên, các bác sĩ thường xuất xứ, tư vấn về và/hoặc viết các bộ phim truyền hình y khoa. Trong những trường hợp như vậy, kiến thức lĩnh vực y tế rộng lớn là có lợi không chỉ để thể hiện chính xác các vấn đề y tế, mà còn để đưa ra đề xuất cho các ý tưởng cốt truyện mới và thú vị.

Một trong những bộ phim truyền hình y khoa được nghiên cứu kỹ lưỡng nhất trong ‘thời đại vàng’ gần đây của truyền hình là House (còn được gọi là House MD), trong đó những đặc điểm kỳ lạ của nhân vật chính và sự thay đổi lớn trong dàn diễn viên phụ, mặc dù thú vị, nhưng đứng sau ‘bệnh của tuần’.

Thực tế, trong số 177 tập đã phát sóng trong tám mùa, House đã cung cấp 176 nghiên cứu trường hợp chẩn đoán tận tâm. Mặc dù chương trình kết thúc vào năm 2012, nhưng đến năm 2015, nó đã được sử dụng như một công cụ giảng dạy, với một buổi семинар đặc biệt Dr. House cung cấp kết quả tốt hơn so với các buổi семинаr tiêu chuẩn, ngay cả khi tham dự không mang lại điểm tín chỉ cho sinh viên:

Từ một nghiên cứu năm 2015, những lý do đa dạng mà sinh viên y muốn tham dự một buổi семинаr chẩn đoán tận dụng thông tin từ chương trình truyền hình ‘House’. Các buổi семинаr được lên lịch vào một thời điểm thách thức có chủ ý, và không cấp tín chỉ học tập; mặc dù những yếu tố này, sáng kiến đã thành công. Nguồn

House và Trí tuệ nhân tạo

Mặc dù việc sử dụng House và các bộ phim truyền hình đa dạng khác đã được chứng minh trong nhiều nghiên cứu là một công cụ hỗ trợ hiệu quả cho việc học, đối với sinh viên y, rất ít trong số những cách tiếp cận này đã được thực hiện cho đến nay trong bối cảnh học máy.

Bây giờ, một bài báo mới từ Đại học Bang Pennsylvania đã thực hiện một bước đầu tiên trong hướng này, bằng cách phát triển một tập dữ liệu có tính năng tất cả 176 nghiên cứu trường hợp House có thể sử dụng, được xây dựng thành một cấu trúc chẩn đoán dựa trên câu chuyện, sau đó được đánh giá trên các mô hình ngôn ngữ lớn phổ biến từ OpenAI và Google.

Mặc dù đây là một thách thức khó khăn (đặc trưng bởi một trong những lĩnh vực khó khăn nhất trong khoa học sinh học), các nhà nghiên cứu đã tìm thấy rằng các phiên bản mới hơn của ChatGPT và Gemini đã thể hiện sự cải thiện so với các phiên bản cũ hơn, cho thấy rằng xu hướng phát triển của mô hình có thể sẽ phát triển hiệu quả vào các quá trình chẩn đoán theo thời gian.

Bài báo cho biết:

‘Kết quả cho thấy sự thay đổi đáng kể về hiệu suất, dao động từ 16,48% đến 38,64% độ chính xác, với các thế hệ mô hình mới hơn thể hiện sự cải thiện 2,3 lần. Mặc dù tất cả các mô hình đều phải đối mặt với những thách thức đáng kể về chẩn đoán bệnh hiếm gặp, sự cải thiện được quan sát thấy trên các kiến trúc cho thấy những hướng đi hứa hẹn cho sự phát triển trong tương lai.

‘Chúng tôi đã thiết lập một điểm chuẩn giáo dục được xác thực để đánh giá hiệu suất cơ bản cho lý lẽ y khoa dựa trên câu chuyện và cung cấp một khuôn khổ đánh giá công khai cho việc nghiên cứu chẩn đoán hỗ trợ Trí tuệ nhân tạo.’

Ngoài việc thiết lập các điểm chuẩn hiệu suất để đánh giá các nỗ lực trong tương lai, các tác giả lưu ý rằng tập dữ liệu mới – mà họ đang làm công khai – giải quyết sự thiếu quá trình câu chuyện trong các tập dữ liệu y tế hiện có, và dễ dàng tiếp cận, trái với văn hóa cổng thông tin của các tập dữ liệu y tế tiêu chuẩn.

Công việc mới này có tiêu đề Đánh giá các Mô hình Ngôn ngữ Lớn trên Chẩn đoán Bệnh Hiếm gặp: Một Nghiên cứu Trường hợp sử dụng House M.D, và đến từ bốn nhà nghiên cứu tại Penn State*.

Dữ liệu

Để tạo ra tập dữ liệu của họ, các tác giả đã sử dụng tài liệu công khai từ trang web fandom House Wiki đã thành lập. Nội dung câu chuyện được trích xuất và cô đọng lại bằng cách sử dụng khuôn khổ Beautiful Soup phổ biến, có thể trích xuất dữ liệu cấu trúc từ mã nguồn HTML của các trang web.

Sau khi các câu chuyện cơ bản được thu thập theo cách này, bốn mô hình ngôn ngữ lớn đã được sử dụng để chuyển đổi đầu ra thành định dạng trường hợp tiêu chuẩn. Các mô hình được sử dụng là GPT-4o mini; GPT-5 Mini; Gemini 2.5 Flash; và Gemini 2.5 Pro. Cuối cùng, bộ lọc chất lượng đã được áp dụng để đảm bảo rằng tập dữ liệu có đủ chi tiết lâm sàng và phù hợp với tình trạng hiện tại của nghệ thuật trong lý lẽ y khoa.

Các tác giả quan sát thấy rằng ‘bệnh mồ côi’ (tức là bệnh hiếm gặp) bị thiếu đại diện trong các cơ sở dữ liệu y tế tiêu chuẩn; trong một số trường hợp, phạm vi của chúng trong chương trình ‘House’ có thể đại diện cho một tỷ lệ bất thường của phạm vi hiện có của chúng.

Các tác giả thừa nhận rằng tính hữu ích của một nguồn dữ liệu như thế này phải được điều chỉnh với sự thận trọng liên quan đến giấy phép nghệ thuật có thể được ưu tiên tại một số thời điểm trong quá trình phát triển của kịch bản y khoa:

‘Mặc dù tập dữ liệu của chúng tôi phản ánh những hạn chế của nội dung hư cấu, bao gồm sự phóng đại kịch tính và tập trung vào các trường hợp phức tạp, những đặc điểm này có thể có lợi cho việc đánh giá bằng cách cung cấp các trường hợp biên giới thách thức kiểm tra độ bền của mô hình.

‘Sự xác thực giáo dục của House M.D. bởi các chuyên gia y tế cung cấp sự tự tin rằng các kịch bản được trích xuất chứa thông tin lâm sàng có ý nghĩa phù hợp cho đánh giá Trí tuệ nhân tạo.’

Ví dụ từ tập dữ liệu được tạo cho dự án. Nguồn

Thử nghiệm

Để đánh giá độ chính xác của mô hình trên các nhiệm vụ chẩn đoán dựa trên câu chuyện, các tác giả đã thiết kế một pipeline đơn giản kết hợp việc tạo lời nhắc, suy luận mô hình và đánh giá.

Bốn mô hình ngôn ngữ lớn đã được thử nghiệm, với mỗi mô hình được cấu hình với nhiệt độ được đặt thành không (đảm bảo đầu ra nhất quán thay vì ‘sáng tạo’), và với chiều dài token tối đa là 1.500 – một khoản cho phép được thiết kế để chứa đựng lý lẽ chẩn đoán phức tạp. Không có lời nhắc hệ thống bổ sung nào được sử dụng để định khung các truy vấn thêm.

Các lời nhắc tuân theo một định dạng trình bày trường hợp y khoa tiêu chuẩn – loại mà người xem sẽ quen thuộc nhất với các bộ phim truyền hình y khoa khi một bệnh nhân mới / bệnh được giới thiệu, và một bác sĩ tóm tắt một cái nhìn tổng quan cho lợi ích của các bác sĩ khác hiện diện (hiệu quả, mặc dù, cho lợi ích của người xem).

Mỗi lời nhắc trình bày một câu chuyện lâm sàng bao gồm chi tiết nhân khẩu học; một dòng thời gian của các triệu chứng; lịch sử y tế liên quan; và các phát hiện chẩn đoán sớm. Mô hình được hướng dẫn để xác định một chẩn đoán chính và để biện minh cho kết luận của nó với lý lẽ.

Mỗi mô hình tạo ra phản hồi chẩn đoán của nó trong một lần đi, mà không có bất kỳ tinh chỉnh lặp lại nào; và các phản hồi được thu thập trong điều kiện nhất quán trên tất cả 176 trường hợp:

Một ví dụ minh họa cho thấy một lời nhắc lâm sàng dựa trên câu chuyện và chẩn đoán thực tế tương ứng, như được sử dụng để thử nghiệm Gemini 2.5 Pro. Nguồn

Related Topics:Large Language Models (LLMs)LLMs medical medicine

Martin Anderson

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]