زاوية Anderson
زيادةً, لا يمكن لHIPAA منع الذكاء الاصطناعي من إلغاء 匿名ية بيانات المرضى

حتى بعد أن تقوم المستشفيات بإزالة الأسماء والرموز البريدية، يمكن للذكاء الاصطناعي الحديث في بعض الأحيان معرفة من هم المرضى. هذا خبر جيد لشركات التأمين؛ وليس جيدًا لمن يتلقون الرعاية الصحية.
تشير الأبحاث الجديدة من جامعة نيويورك إلى أن ملاحظات المرضى الطبية في الولايات المتحدة، التي تم إزالة الأسماء والمعرفات الأخرى منها، يمكن أن تعرض المرضى لخطر إعادة التعريف. من خلال تدريب نماذج لغة الذكاء الاصطناعي على مجموعة كبيرة من سجلات المرضى الحقيقية غير المحمية، تظل تفاصيل تحديد الهوية – في بعض الحالات، مما يسمح بتحديد حي المريض من التشخيص وحده.
تضع الدراسة الجديدة هذا الخطر في سياق سوق مربح في بيانات الصحة المجهولة، حيث تقوم المستشفيات ووسطاء البيانات ببيع أو ترخيص الملاحظات السريرية المنقحة لشركات الأدوية وشركات التأمين ومطوري الذكاء الاصطناعي.
يتحدى مؤلفو الدراسة الجديدة حتى مفهوم “إزالة التعريف”، الذي تم تشريعه في حماية المرضى التي أنشأتها HIPAA بعد أن تم إزالة بيانات الحاكم ويليام ويلد في عام 1997:
‘[حتى] في حالة الامتثال الكامل لمنفذ الميناء الآمن، تظل الملاحظات “المجهولة” مرتبطة إحصائيًا بالهوية من خلال الارتباطات التي تؤكد منفعةها السريرية. النزاع هو هيكلي وليس تقنيًا.’
يؤكد الباحثون أن الإطارات الحالية لHIPAA المتوافقة مع إزالة التعريف تترك两个 باب خلفي متاحين للهجمات على الارتباط:

من الورقة الجديدة، مخطط سببي يُظهر كيف تُزيل إزالة التعريف من نمط HIPAA الخصائص الحساسة الصريحة بينما تظل الارتباطات المرتبطة بالهوية سليمة، مما يسمح بتحديد هوية المريض من خلال المعلومات غير الحساسة والطبية. المصدر
في المثال أعلاه، نرى ليس فقط أن المريض حامل – الثمرة الواقعة في إزالة التعريف، لأنها تحدد الجنس البيولوجي بشكل قاطع – ولكن أيضًا أنها تحب هواية لا ترتبط بمجموعات الدخل المنخفض، وفقًا للباحثين:
‘على الرغم من أن السمات المحمية (تاريخ الميلاد ورمز البريد) محذوفة، يمكننا仍ًا استنتاج أن المريض هو أنثى بالغة بناءً على الحمل، ويعيش في حي رقيق نظرًا للهواية التي تمارين الفروسية.’
في تجربة واحدة، حتى بعد إزالة معرّفات المرضى، ظلت أكثر من 220,000 ملاحظة سريرية من 170,000 مريض في NYU Langone تحمل إشارات كافية لتحديد السمات السكانية.
التحليل العميق
تم تحسين نموذج BERT لتنبؤ بست سمات من السجلات المجهولة، ويشيرPaper إلى أن النموذج تجاوز التخمين العشوائي مع عدد قليل من الأمثلة على التدريب. تم استعادة الجنس البيولوجي بدقة تزيد عن 99.7٪، وحتى الإشارات الأضعف مثل شهر الملاحظات تمت تنبؤها بدقة أفضل من العشوائية.
لأغراض تجريبية، تم استخدام السمات المستنفدة بعد ذلك في هجوم ارتباط ضد قاعدة بيانات Langone، مما أدى إلى حد أقصى لمخاطر إعادة التعريف الفريدة من نوعها بنسبة 0.34٪ – أي ما يعادل 37 مرة أكثر من قاعدة معيارية بسيطة.
يطرح المؤلفون المشكلة على أنها “متناقضة”، لأن ما يبقى في سجلات المرضى المجهولة التي تتوافق مع HIPAA هو في الواقع أساس قابل للهجوم على إعادة التعريف:
‘[الغالبية العظمى من مخاطر إعادة التعريف تنشأ ليس من المعلومات الصحية المحمية، ولكن من المحتوى غير الحساس والطبي الذي نعتبره آمنًا للمشاركة.’

خرائط على مستوى الحي من معدل الوفيات في المستشفى ومتوسط مدة الإقامة في المستشفى والدخل للفرد عبر مدينة نيويورك، تُظهر كيف تتشكل النتائج السريرية والمتغيرات الاجتماعية الاقتصادية بشكل جغرافي وتخلق أنماطًا مرتبطة بالهوية داخل الملاحظات المجهولة. المصدر
يجادل المؤلفون بأن قواعد الميناء الآمن في HIPAA لا تعمل كما يعتقد صانعو السياسات:
‘إزالة 18 معرّفًا قد ت满ي حرف القانون، ولكن وفقًا للمؤلفين، لا تمنع الهوية من أن تُستنفد بواسطة نماذج اللغة الحالية.’
‘النظام نفسه مبني على افتراضات قديمة بشأن ما يمكن أن يفهمه نماذج اللغة من النص الطبي العادي.’
‘الملاحظات السريرية مرتبطة بشكل nội بالهوية. تشخيص المريض وسرد غير المحذوف هو منتج مباشر لمسار حياته الفريد، مما يخلق توقيعًا ذا أبعاد عالية يمكن ربطه بالفرد.’
الطريقة
لاختبار نظريةهم، طور المؤلفون هجومًا على الارتباط في مرحلتين باستخدام 222,949 ملاحظة سريرية معرّفة من 170,283 مريضًا عولجوا في NYU Langone، مع جميع الملاحظات مقسمة حسب المريض إلى 80٪ تدريب و 10٪ التحقق و 10٪ اختبار، لمنع التلوث العرضي.
تم تدريب نموذج BERT على النص العام لتفادي التعرض السابق للبيانات السريرية، وتم تحسينه بشكل منفصل لكل سمة، باستخدام ثمانية معالجات رسومات NVIDIA A100 مع 40 جيجابايت من الذاكرة، أو معالجات رسومات H100 مع 80 جيجابايت من الذاكرة، لمدة تصل إلى عشرة دورات.
تقييم المخاطر
تم حساب مخاطر إعادة التعريف في مرحلتين: قياس كيف часто يظهر المريض الحقيقي داخل المجموعة القصيرة؛ وتقدير فرصة اختيار الشخص الصحيح من داخل تلك المجموعة.
النتائج
تم قياس المخاطر على ثلاثة مستويات: معدل نجاح إعادة التعريف الجماعي؛ وفرصة إعادة التعريف الفردية من داخل المجموعة؛ وفرصة إعادة التعريف الفريدة.
تم تحقيق دقة تزيد عن 99.7٪ لجنس المريض البيولوجي، وحتى الإشارات الأضعف مثل شهر الملاحظات تمت تنبؤها بدقة أفضل من العشوائية.
الاستنتاج
نظرًا لأن “البوابات الخلفية” من هذا النوع هي الأكثر فائدة للمنظمات الكبيرة، مثل شركات التأمين – التي من المحتمل أن تستخدمها بطريقة سرية، وبدون إفصاح – فإن نهجًا مشابهًا لDMCA (حيث يتم حظر عمل حماية-التجاوز نفسه، بغض النظر عن التكنولوجيا المستخدمة) هو نهج غير فعال.
من المعروف جيدًا أن شركات التأمين ترغب في الحصول على وصول إلى معلومات من هذا القبيل، وأنها، بشكل مباشر أو من خلال الوسطاء، لديها مستوى استثنائي من الوصول إلى السجلات الصحية الخاصة؛ وأكبر الشركة، يكون قاعدة بيانات العملاء الأصلي أكبر.
لذلك، إذا كانت قواعد وضمانات HIPAA تتحول إلى أكثر من اتفاقية بين السادة من حاجز فعال للاستغلال الشركات، فإن المراجعة يبدو أنها ضرورية.
* تحويلي لمراجع المؤلفين إلى روابط.
نشر لأول مرة يوم الأربعاء، 11 فبراير 2026












