Trí tuệ nhân tạo

Làm thế nào một công cụ trí tuệ nhân tạo về sức khỏe tâm thần vô tình phát hiện ra phương pháp phát hiện Deepfake chính xác

Published January 14, 2026

Updated April 25, 2026

Salomé Beyer Velez

Khi gã khổng lồ công nghệ Open AI ra mắt mô hình video và audio thế hệ mới Sora 2 vào tháng 9 năm 2025, các video Deepfake đã lấp đầy các nền tảng truyền thông xã hội, khiến khán giả ngày càng quen thuộc với nội dung siêu thực có khả năng gây hại.

Mặc dù Open AI coi việc ra mắt có trách nhiệm của Sora 2 là ưu tiên hàng đầu, khẳng định nó sẽ cung cấp cho người dùng “công cụ và tùy chọn để kiểm soát những gì họ xem trong nguồn cấp dữ liệu của mình” và kiểm soát hình ảnh của họ từ đầu đến cuối, một nghiên cứu vào tháng 10 năm 2025 cho thấy mô hình này tạo ra các video khiếu nại sai 80% thời gian.

Từ các video mô phỏng các bản tin về một quan chức bầu cử Moldova phá hủy lá phiếu đến các cảnh giả mạo về một đứa trẻ bị lực lượng nhập cư giam giữ hoặc một người phát ngôn của Coca-Cola tuyên bố rằng công ty sẽ không tài trợ cho Super Bowl, những rủi ro khi tạo ra thông tin sai lệch trong một thế giới kết nối không thể cao hơn.

Beyond Sora: Vishing

Ngay cả trước khi công cụ của Open AI được ra mắt, việc tạo và phân phối tệp Deepfake trực tuyến đã tăng lên. Theo một báo cáo tháng 9 năm 2025 của công ty an ninh mạng DeepStrike, nội dung Deepfake đã tăng từ 500.000 vào năm 2023 lên 8 triệu vào năm 2025, phần lớn trong số đó được sử dụng cho mục đích gian lận.

Xu hướng này không có dấu hiệu dừng lại; gian lận AI ở Mỹ alone được dự kiến sẽ đạt 40 tỷ USD vào năm 2027.

Sự gia tăng này không chỉ giới hạn ở số lượng. Với các công cụ như Sora 2 và Veo 3 của Google, nội dung của khuôn mặt, giọng nói và hiệu suất toàn thân được tạo ra bởi AI hiện thực hơn bao giờ hết. Khi được báo hiệu bởi nhà khoa học máy tính và nhà nghiên cứu Deepfake Siwei Luy, các mô hình đương đại có khả năng tạo ra khuôn mặt ổn định mà không bị biến dạng hoặc méo mó, trong khi việc nhân bản giọng nói đã vượt qua “ngưỡng không thể phân biệt”.

Sự thật là, Deepfakes đang vượt qua khả năng phát hiện. Những gì các công ty công nghệ bán dưới dạng công cụ thú vị để tạo ra mọi thứ từ các động tác thể dục dụng cụ Olympic đến các âm thanh nền tinh vi, cũng đã được các tội phạm sử dụng để nhắm vào các doanh nghiệp và cá nhân. Chỉ trong nửa đầu năm 2025, các sự cố Deepfake đã gây ra thiệt hại 356 triệu USD cho các công ty và 541 triệu USD cho các cá nhân.

Phát hiện Deepfake truyền thống – bao gồm việc xác định các dấu hiệu nước, khuôn mặt được chỉnh sửa và kiểm tra siêu dữ liệu – đang thất bại. Và, khi các Deepfake giọng nói còn lại là hình thức gian lận được hỗ trợ bởi AI phổ biến thứ hai và việc giả mạo giọng nói (vishing) tăng vọt 442% vào năm 2025, hậu quả đã được cảm nhận.

“Một vài giây âm thanh đủ để tạo ra một bản sao thuyết phục – hoàn chỉnh với ngữ điệu tự nhiên, nhịp điệu, nhấn mạnh, cảm xúc, khoảng dừng và tiếng thở,” Lyu viết.

Khoa học của việc lắng nghe con người

Kintsugi, một công ty khởi nghiệp về sức khỏe đang phát triển công nghệ sinh trắc học giọng nói AI để phát hiện dấu hiệu trầm cảm lâm sàng và lo lắng. Công việc của họ bắt đầu từ một tiền đề đơn giản: chúng ta phải lắng nghe con người.

“Tôi bắt đầu Kintsugi vì một vấn đề tôi đã trải qua cá nhân. Tôi đã dành gần năm tháng gọi cho nhà cung cấp chỉ để đặt lịch hẹn liệu pháp ban đầu, và không ai từng trả lời cuộc gọi của tôi. Tôi tiếp tục cố gắng – nhưng tôi nhớ rất rõ rằng nếu đó là cha hoặc anh trai của tôi, họ đã ngừng trước khi tôi làm,” CEO Grace Chang nói trong khi trò chuyện với Unite.AI.

Công ty có trụ sở tại California này được thành lập vào năm 2019 như một giải pháp cho những gì Chang mô tả là một “bottleneck phân loại”. Người sáng lập tin rằng việc phát hiện mức độ nghiêm trọng sớm hơn và thụ động có thể giúp mọi người đến được mức chăm sóc phù hợp nhanh hơn. Và, thông qua Kintsugi Voice, các dấu hiệu sinh trắc học giọng nói xác định trầm cảm lâm sàng và lo lắng.

Nghiên cứu cho thấy việc sử dụng thành công phân tích giọng nói và lời nói được hỗ trợ bởi AI như một dấu hiệu sinh trắc học cho các tình trạng sức khỏe tâm thần. Một bài báo vào tháng 5 năm 2025, ví dụ, tìm thấy rằng các dấu hiệu sinh trắc học âm thanh có thể phát hiện sớm dấu hiệu của sức khỏe tâm thần và sự đa dạng thần kinh, và lập luận cho việc tích hợp phân tích hát trong các môi trường lâm sàng để đánh giá sự suy giảm nhận thức tiềm năng của bệnh nhân.

Các biện pháp giọng nói, trên thực tế, có tỷ lệ chính xác từ 78% đến 96% trong việc xác định những người bị trầm cảm so với những người không bị, theo Hiệp hội Tâm thần học Mỹ. Một nghiên cứu khác sử dụng một bài kiểm tra khả năng ngôn ngữ bằng lời nói trong một phút, trong đó một cá nhân đặt tên càng nhiều từ càng tốt trong một danh mục nhất định – tìm thấy độ chính xác từ 70% đến 83% trong việc phát hiện khi một đối tượng bị trầm cảm và lo lắng.

Để đánh giá sức khỏe tâm thần của người dùng, Kintsugi yêu cầu một đoạn clip giọng nói ngắn, sau đó công nghệ dấu hiệu sinh trắc học giọng nói của họ phân tích cao độ, ngữ điệu, âm điệu và khoảng dừng – các dấu hiệu được tìm thấy liên quan đến các tình trạng như trầm cảm, lo lắng, rối loạn lưỡng cực và sa sút thần kinh.

Tuy nhiên, Chang không nhận ra ban đầu rằng công nghệ đã mở khóa một trong những thách thức an ninh lớn nhất hiện nay: xác định điều gì làm cho giọng nói của con người trở nên con người.

Từ chăm sóc sức khỏe tâm thần đến an ninh mạng

Trong khi tham dự một hội nghị thượng đỉnh tại New York vào cuối năm 2025, Chang đã đề cập với một người bạn trong lĩnh vực an ninh mạng rằng nhóm của cô đã thử nghiệm với các giọng nói tổng hợp.

“Chúng tôi đang khám phá dữ liệu tổng hợp để tăng cường đào tạo cho các mô hình chăm sóc sức khỏe tâm thần của chúng tôi, nhưng các giọng nói được tạo ra quá khác so với giọng nói của con người thực sự, vì vậy chúng tôi có thể phân biệt gần 100% thời gian,” cô nói.

“Anh ấy đã dừng tôi lại và nói: ‘Grace – đó không phải là một vấn đề đã được giải quyết trong an ninh.’ Đó là khoảnh khắc mọi thứ trở nên rõ ràng. Kể từ đó, các cuộc trò chuyện với các công ty an ninh, dịch vụ tài chính và viễn thông đã xác nhận mức độ nhanh chóng của các cuộc tấn công giọng nói Deepfake đang gia tăng – và nhu cầu phân biệt giọng nói của con người với giọng nói tổng hợp trong các cuộc gọi trực tiếp là rất thực,” CEO bổ sung.

Vào tháng 4 năm ngoái, FBI cảnh báo về một chiến dịch tin nhắn và giọng nói độc hại giả mạo là các cuộc liên lạc từ các quan chức cấp cao của Mỹ và nhắm vào các cựu nhân viên chính phủ và các liên hệ của họ. Các ngân hàng quốc gia lớn ở Mỹ cũng được nhắm đến với 5,5 lần gian lận giả mạo giọng nói trung bình mỗi ngày, và nhân viên bệnh viện tại Trung tâm Y tế Đại học Vanderbilt báo cáo các cuộc tấn công vishing từ những kẻ giả mạo đóng vai bạn bè, giám sát và đồng nghiệp.

Bất kể, Deepfake không ban đầu là yếu tố trong công việc của Kintsugi. Trong khi nhóm của công ty đã sử dụng các mô hình sẵn có như Cartesia, Sesame và ElevenLabs để thử nghiệm với các giọng nói tổng hợp cho các đại lý trung tâm cuộc gọi hành chính và các luồng công việc hướng ra ngoài, gian lận Deepfake không phải là焦 điểm của họ trong một thị trường đông đúc và dễ tiếp cận với các mô hình như Sora.

Các tín hiệu của con người cho thấy tính xác thực của giọng nói là cùng các dấu hiệu sinh trắc học làm cho ai đó trở nên con người. Bất kể ngôn ngữ hay ngữ nghĩa, Kintsugi Voice hoạt động với xử lý tín hiệu và độ trễ vật lý của lời nói, thu thập thời gian tinh tế, biến đổi ngữ điệu, tải nhận thức và dấu hiệu sinh lý phản ánh cách lời nói được tạo ra… không phải là những gì được nói.

“Các giọng nói tổng hợp có thể nghe có vẻ trôi chảy, nhưng chúng không mang cùng các dấu hiệu sinh trắc học và nhận thức,” Chang nói. Mô hình của công ty liên tục là một trong những người biểu diễn hàng đầu về độ chính xác của phát hiện, sử dụng chỉ 3 đến 5 giây âm thanh.

Kintsugi có thể là một cuộc cách mạng cho những người đấu tranh với sức khỏe tâm thần, đặc biệt là trong các khu vực nơi việc điều trị với chuyên gia mất thời gian và tài nguyên. Đồng thời, công nghệ của họ cũng là một cuộc cách mạng cho việc phát hiện Deepfake và an ninh mạng nói chung: phát hiện tính xác thực thay vì nhận dạng Deepfake.

Tương lai nằm ở công nghệ lấy con người làm trung tâm

An ninh mạng đã tập trung vào việc sử dụng độc hại của công nghệ hoặc chính những kẻ tấn công. Tuy nhiên, việc phát hiện tình cờ của Kintsugi đặt cược vào bản thân nhân loại.

“Chúng tôi đang hoạt động trên một bề mặt hoàn toàn khác: tính xác thực của con người. Các mô hình ngôn ngữ lớn không thể đáng tin cậy để phát hiện nội dung được tạo ra bởi các mô hình ngôn ngữ lớn, và các phương pháp dựa trên dấu hiệu là dễ bị tấn công. Việc thu thập các tập dữ liệu lớn được gắn nhãn lâm sàng mã hóa sự đa dạng của con người thực sự là tốn kém, chậm và nằm ngoài chuyên môn cốt lõi của hầu hết các công ty an ninh – điều này khiến việc tiếp cận này khó được nhân rộng,” Chang lưu ý.

Cách tiếp cận của công ty khởi nghiệp cũng gợi ý một sự thay đổi lớn hơn: đổi mới xuyên lĩnh vực. Những người đi đầu trong chăm sóc sức khỏe có thể dẫn đầu cuộc tấn công vào việc phát hiện vishing được hỗ trợ bởi AI, giống như những nhà đổi mới trong công nghệ không gian có thể hỗ trợ các cơ chế ứng phó khẩn cấp mới, hoặc kiến trúc của các trò chơi có thể hỗ trợ quy hoạch đô thị.

Về phần Chang, cô dự định sẽ trở thành một tiêu chuẩn để xác minh con người thực sự và, cuối cùng, ý định thực sự thông qua các tương tác bằng giọng nói.

“Giống như HTTPS đã trở thành một lớp tin cậy mặc định cho web, chúng tôi tin rằng ‘bằng chứng của con người’ sẽ trở thành một lớp cơ sở cho các hệ thống dựa trên giọng nói,” cô nói.

Khi AI tạo ra tiếp tục tăng tốc, những biện pháp bảo vệ hiệu quả nhất có thể đến từ việc hiểu những gì làm cho con người… trở nên con người.

Salomé Beyer Velez

Salomé là một nhà báo sinh tại Medellín và là Senior Reporter tại Espacio Media Incubator. Với nền tảng về Lịch sử và Chính trị, công việc của Salomé nhấn mạnh sự liên quan xã hội của các công nghệ mới nổi. Cô đã được giới thiệu trên Al Jazeera, Latin America Reports, và The Sociable, cùng với một số khác