زاوية أندرسون

يتزايد عجز قانون HIPAA عن منع الذكاء الاصطناعي من كشف هوية بيانات المرضى.

تم النشر ٥ فبراير، ٢٠٢٤

مارتن أندرسون

صورة مُولّدة بالذكاء الاصطناعي تُظهر حشدًا من رجال الأعمال مُلتفين حول سرير مريض مُلثم في المستشفى، يُحاولون نزع كمامته. Z-Image Turbo + Qwen Edit V1، عبر Krita AI Diffusion.

حتى بعد أن تحذف المستشفيات الأسماء والرموز البريدية، قد تتمكن تقنيات الذكاء الاصطناعي الحديثة أحيانًا من تحديد هوية المرضى. خبر سار لشركات التأمين، لكنه ليس كذلك بالنسبة للمستفيدين من الرعاية الصحية.

توصلت دراسة جديدة أجرتها جامعة نيويورك إلى أن السجلات الطبية للمرضى الأمريكيين، بعد إزالة الأسماء وغيرها من المعلومات، قد تكون غير دقيقة. معرّفات قانون HIPAA، مما قد يعرض المرضى لـ إعادة تحديد الهويةمن خلال تدريب نماذج اللغة للذكاء الاصطناعي على مجموعة كبيرة من سجلات المرضى الحقيقية غير الخاضعة للرقابة، تبقى التفاصيل التي تحدد الهوية - مما يسمح في بعض الحالات باستنتاج الحي الذي يسكنه المريض. التشخيص وحده.

تضع الدراسة الجديدة هذا الخطر في سياق سوق مربحة في البيانات الصحية غير المحددة للهوية، حيث تقوم المستشفيات ووسطاء البيانات بشكل روتيني ببيع أو ترخيص الملاحظات السريرية المنقحة لشركات الأدوية وشركات التأمين ومطوري الذكاء الاصطناعي.

يتحدى مؤلفو الدراسة الجديدة حتى مفهوم "إخفاء الهوية" نفسه، وهو المفهوم المكرس في حماية المرضى التي وضعتها (HIPAA) بعد أن حصل حاكم ولاية ماساتشوستس ويليام ويلد على بياناته الطبية تم الكشف عن هوية الأشخاص في عام 1997:

«حتى في ظل الامتثال التام لقواعد الملاذ الآمن، تظل الملاحظات "المجهولة الهوية" مرتبطة إحصائياً بالهوية من خلال الارتباطات نفسها التي تؤكد فائدتها السريرية. إن التضارب هيكلي وليس تقنياً.»

يؤكد الباحثون أن أطر إخفاء الهوية الحالية المتوافقة مع قانون HIPAA تترك بابين خلفيين متاحين لـ "هجمات الربط":

يُظهر الرسم البياني السببي في الورقة البحثية الجديدة كيف تُزيل عملية إخفاء الهوية، على غرار قانون HIPAA، السمات الحساسة الصريحة مع الحفاظ على الارتباطات المرتبطة بالهوية، مما يسمح باستنتاج هوية المريض من خلال المعلومات الطبية وغير الحساسة. المصدر: https://arxiv.org/pdf/2602.08997

من الورقة البحثية الجديدة، رسم بياني سببي يوضح كيف أن إخفاء الهوية على غرار قانون HIPAA يزيل السمات الحساسة الصريحة مع الحفاظ على الارتباطات المرتبطة بالهوية سليمة، مما يسمح باستنتاج هوية المريض من خلال المعلومات غير الحساسة والطبية. مصدر

في المثال أعلاه، نرى ليس فقط أن المريضة حامل - وهي أسهل طريقة لإخفاء الهوية، لأنها تحدد الجنس البيولوجي بشكل قاطع - ولكن أيضًا أنها تحب هواية لا ترتبط بالفئات ذات الدخل المنخفض، وفقًا للباحثين:

"على الرغم من حجب السمات المحمية (تاريخ الميلاد والرمز البريدي)، إلا أنه لا يزال بإمكاننا استنتاج أن المريضة أنثى بالغة بناءً على الحمل، وتقيم في حي ثري نظراً لهوايتها في رياضة الترويض."

في إحدى التجارب، حتى بعد إزالة بيانات تعريف المرضى، لا تزال أكثر من 220,000 ملاحظة سريرية من 170,000 مريض في مركز لانغون الطبي بجامعة نيويورك تحمل إشارة كافية للسماح باستنتاج السمات الديموغرافية.

اثقب نحو الاسفل

A بيرتكان النموذج القائم على - صقل للتنبؤ بست سمات من السجلات التي تم إخفاء هوية أصحابها، وكما تشير الورقة البحثية، فقد تجاوزت دقة التخمينات العشوائية باستخدام 1,000 مثال تدريبي فقط. تم تحديد الجنس البيولوجي بدقة تزيد عن 99.7%، وحتى المؤشرات الأقل وضوحًا، مثل شهر تدوين الملاحظات، تم التنبؤ بها بمستويات أعلى من الصدفة.

لأغراض تجريبية، استُخدمت هذه السمات المستنتجة في هجوم ربط على قاعدة بيانات لانغون، مما أدى إلى خطر إعادة تحديد هوية فريد بنسبة 0.34% كحد أقصى - أي ما يقارب 37 ضعفًا مقارنةً بخط الأساس البسيط للفئة الأغلبية. وإذا طُبّق هذا الهجوم وحده على سكان الولايات المتحدة، فإنه سيؤدي إلى إخفاء هوية 800,000 مريض.

يصف المؤلفون المشكلة بأنها "مفارقة"، لأن ما يتبقى في سجلات المرضى غير المحددة الهوية والمتوافقة مع قانون HIPAA يشكل أساسًا قابلاً للتطبيق لهجمات إخفاء الهوية:

"إن الغالبية العظمى من مخاطر إعادة تحديد الهوية لا تنبع من المعلومات الصحية المحمية، بل من المحتوى الطبي وغير الحساس الذي نعتبره آمناً للمشاركة."

خرائط على مستوى الأحياء لمعدل الوفيات داخل المستشفى، ومتوسط مدة الإقامة في المستشفى، ودخل الفرد في جميع أنحاء مدينة نيويورك، توضح كيف تتجمع النتائج السريرية والمتغيرات الاجتماعية والاقتصادية جغرافيا وتخلق أنماطًا مرتبطة بالهوية داخل الملاحظات التي تم إخفاء هوية أصحابها.

خرائط لأحياء مدينة نيويورك تُظهر اختلافات في معدلات الوفيات في المستشفيات، ومتوسط مدة الإقامة، ومستويات الدخل، مما يُوضح كيف تختلف النتائج الصحية والثروة باختلاف المنطقة، وكيف يُمكن أن تُخلّف أدلةً مرتبطةً بالموقع حتى في السجلات الطبية التي تم إخفاء هوية المرضى فيها. يُرجى الرجوع إلى الورقة البحثية الأصلية للاطلاع على أمثلة إضافية.

وتجادل الورقة البحثية بأن قواعد الملاذ الآمن لقانون HIPAA لم تعد تعمل بالطريقة التي قصدها واضعو السياسات: إزالة 18 مُعرّفًا قد يفي ذلك بنص القانون، لكن وفقًا للمؤلفين، فإنه لا يمنع استنتاج الهوية بواسطة نماذج اللغة الحالية. فهم يصوغون النظام نفسه على أنه مبني على افتراضات قديمة بشأن ما يمكن لنماذج اللغة استنتاجه وما لا يمكنها استنتاجه من النصوص الطبية العادية.

ويشير العمل أيضًا إلى أن أولئك الذين من المحتمل أن يستفيدوا من نقاط الضعف المذكورة هم الشركات الكبيرة المرتبطة بالتأمين الطبي، وليس الكيانات الإجرامية المحددة تقليديًا (مثل المتسللين أو المبتزين أو المهندسين الاجتماعيين)*:

إن استمرار تطبيق مبدأ الملاذ الآمن رغم القيود المعروفة ليس سهوًا، بل هو سمة من سمات نظام...مُحسَّن لسيولة البيانات بدلاً من حماية المرضىتمثل الملاحظات السريرية التي تم إخفاء هوية أصحابها سوق بمليارات الدولاراتمما يخلق عوائق هيكلية أمام مؤسسات الرعاية الصحية لتبني بدائل تحافظ على الخصوصية والتي قد تقلل من فائدة البيانات أو تتطلب استثمارات مكلفة في البنية التحتية.

"هناك ضرورة ملحة للتحقيق بعناية في هذا العامل المثبط وفهمه ومعالجته."

هذه ورقة موقف، لا تقدم إجابات واضحة؛ ومع ذلك، يقترح المؤلفون أن يتجه البحث في مجال إخفاء الهوية نحو العقود الاجتماعية والعواقب القانونية المترتبة على انتهاكها، بدلاً من الحلول التقنية (ويمكن القول إن نفس النهج يستخدم قانون الألفية الرقمية لحقوق المؤلف (DMCA) لتقييد نسخ الأعمال المحمية بحقوق الملكية الفكرية، عند وجود حلول تقنية فشل).

استخدم ورقة جديدة بعنوان مفارقة إخفاء الهوية: نقدٌ لقانون HIPAA Safe Harbour في عصر الماجستير في القانونويأتي هذا البحث من أربعة باحثين في جامعة نيويورك، بالتعاون مع مستشفى لانغون التابع لجامعة نيويورك.

الأسلوب

ولاختبار نظريتهم، قام المؤلفون بتطوير نموذج من مرحلتين هجوم الربط باستخدام 222,949 ملاحظة سريرية محددة من 170,283 مريضًا عولجوا في مركز لانغون الطبي بجامعة نيويورك، مع جميع الملاحظات تقسيم يتم تقسيم المرضى إلى 80% للتدريب، و10% للتحقق، و10% للاختبار، وذلك لمنع التلوث المتبادل.

وللتوضيح، فإن هذه المجموعة أكبر بمقدار 3.34 مرة من المجموعة الأخرى. مجموعة بيانات MIMIC-IVتُعدّ مجموعة لانغون أكبر مجموعة متاحة للجمهور من السجلات الصحية الإلكترونية. ولأسباب تتعلق بالخصوصية، لن تُتاح مجموعة بيانات لانغون بأي شكل من الأشكال، مع إمكانية تجربة المستخدمين لمبادئ المشروع. عبر مستودع GitHub وهذا يُولّد بيانات اصطناعية.

تم اختيار ست سمات ديموغرافية لتقريبها من ثلاثية إعادة تحديد الهوية الكلاسيكية المحددة في أعمال سابقة مؤثرة: الجنس البيولوجي; حي; ملاحظة السنة; ملاحظة الشهر; دخل المنطقة، و نوع التأمين:

تم استنتاج السمات الديموغرافية من الملاحظات السريرية لمركز لانغون الطبي بجامعة نيويورك (NYU Langone) بعد إزالة بيانات التعريف الشخصية منها، وتشمل الجنس البيولوجي، والحي، وسنة الملاحظة، وشهر الملاحظة، ودخل المنطقة، ونوع التأمين، وقد تم اختيارها لتقريب مجموعة المعرفات الفريدة الموضحة في "البيانات الديموغرافية البسيطة غالباً ما تحدد هوية الأشخاص بشكل فريد" - https://dataprivacylab.org/projects/identifiability/paper1.pdf

السمات الديموغرافية المستنتجة من الملاحظات السريرية لمركز لانغون الطبي بجامعة نيويورك بعد إزالة بيانات التعريف الشخصية، والتي تشمل الجنس البيولوجي، والحي، وسنة الملاحظة، وشهر الملاحظة، ودخل المنطقة، ونوع التأمين، تم اختيارها لتقريب مجموعة المعرفات الفريدة الموصوفة في "غالباً ما تحدد البيانات الديموغرافية البسيطة هوية الأشخاص بشكل فريد".

تم إخفاء هوية الأوراق النقدية باستخدام فلتر جامعة كاليفورنيا في سان فرانسيسكو قبل النمذجة.

A بيرت-قاعدة-بدون غلاف تم ضبط نموذج يحتوي على 110 مليون مُعامل، تم تدريبه مسبقًا على نصوص عامة لتجنب التعرض المسبق للبيانات السريرية، بشكل منفصل لكل سمة، باستخدام ثمانية وحدات معالجة رسومية NVIDIA A100 بذاكرة 40 جيجابايت، أو وحدات معالجة رسومية H100 بذاكرة 80 جيجابايت، لما يصل إلى عشرة عهود. تم استخدام التحسين آدم دبليو، مع معدل التعليم بقيمة 2×10−5، وفعالية حجم الدفعة من 256

تعميم تم تقييم مجموعة الاختبار المحجوزة باستخدام الدقة والمرجح جمهورية الصين-الجامعة الأمريكية بالقاهرةوقد تم اختيار الأخير لمراعاة الطبقة الاجتماعية عدم التوازن عبر السمات.

لجعل الهجوم أكثر واقعية، لم تُعامل تنبؤات النموذج على أنها إجابات نهائية قاطعة. بدلاً من ذلك، بالنسبة لكل سمة، تيشرت k تم الاحتفاظ بالقيم الأكثر ترجيحًا، وتم تصفية قاعدة بيانات المرضى لتشمل أي شخص يتطابق مع تلك السمات المتوقعة. وقد نتج عن ذلك قائمة مختصرة بالهويات المحتملة لكل ملاحظة، بدلاً من تخمين واحد.

تقييم المخاطر

ثم تم حساب خطر إعادة تحديد الهوية على مرحلتين: قياس عدد مرات ظهور المريض الحقيقي داخل تلك المجموعة المختارة؛ وتقدير فرصة اختيار الشخص الصحيح من داخل تلك المجموعة.

لأن الخطوة الأخيرة افترضت أن شخصًا ما اختار اسمًا عشوائيًا من بين التطابقات المحتملة، فإن الرقم المبلغ عنه هو تقدير متحفظ، ومن المحتمل أن يتمكن مهاجم مصمم من تحقيق نتائج أفضل.

افترضت التجربة إمكانية الوصول إلى جميع بيانات المرضى في قاعدة البيانات الخارجية. وهذا يعكس أسوأ سيناريو ممكن ولكنه واقعي، حيث تحاول مؤسسة كبيرة أو وسيط بيانات، يمتلك تغطية واسعة لسجلات المرضى، إجراء الربط، بدلاً من فرد يتصرف بمعلومات محدودة، مما يعزز طبيعة التهديد الذي يتناوله الباحثون في هذه الدراسة.

النتائج

تم قياس المخاطر على ثلاثة مستويات: معدل نجاح إعادة تحديد هوية المجموعة تم رصد عدد مرات ظهور المريض الحقيقي ضمن مجموعة المرشحين المختارين للنموذج، بناءً على أعلى مستوى صحيح k التنبؤات عبر جميع السمات؛ إعادة تحديد هوية الأفراد من المجموعة تم قياس احتمالية اختيار الشخص الصحيح بمجرد تحديد تلك المجموعة؛ و احتمالية إعادة تحديد الهوية الفريدة ضربت القيمتين، مما أدى إلى حساب الاحتمالية الإجمالية لتحديد هوية المريض بشكل فريد من خلال الملاحظات التي تم إخفاء هويته:

دقة التنبؤ للجنس البيولوجي، والحي، والسنة، والشهر، والدخل، ونوع التأمين، مما يدل على أن BERT-base-uncase المدرب على ملاحظات UCSF philter-de-identified NYU Langone يتجاوز التخمين العشوائي حتى مع 1,000 مثال تدريبي، مع تحسن الدقة بشكل مطرد مع نمو مجموعة البيانات إلى 178,000 عينة.

ويشير المؤلفون إلى ما يلي بخصوص هذه النتائج الأولية:

كما هو موضح [أعلاه]، تظل الملاحظات السريرية غير المحددة للهوية عرضة للتنبؤ بالسمات. عبر جميع السمات الست وجميع أنظمة البيانات (من 1 ألف إلى 177 ألف مثال)، يتفوق نموذج اللغة (باللون الأحمر) باستمرار على الخطوط الأساسية العشوائية (باللون الرمادي).

"هذه النتائج تدعم تجريبياً أن عملية إخفاء الهوية تحتفظ بإشارات قابلة للاستغلال في مساري الباب الخلفي."

"إن خطر انتهاك الخصوصية فوري: تحقق النماذج أداءً يفوق العشوائية باستخدام 1,000 مثال تدريبي فقط. في حين أن الجنس البيولوجي هو السمة الأكثر عرضة للخطر (يتم استعادتها بدقة تزيد عن 99.7٪)، حتى أدق الإشارات (شهر الشهر) يتم التنبؤ بها بدقة أفضل من العشوائية."

في الرسم البياني الثاني للنتائج أدناه، يوضح أحد الاتجاهين عدد مرات تضمين النموذج للمريض الحقيقي في قائمته المختصرة، بينما يوضح الاتجاه الآخر مدى صغر حجم تلك القائمة المختصرة.

عدد مرات احتواء القائمة المختصرة للنموذج على المريض الحقيقي، مقارنة بمدى سهولة اختيار الشخص المناسب من تلك القائمة المختصرة - مما يدل على أن نموذج اللغة يخلق مخاطر إعادة تحديد هوية أعلى بشكل عام من التخمين البسيط، حيث تصل إلى 0.34٪، مقارنة بـ 0.0091٪ لأقوى خط أساس.

كلما زاد ظهور المريض الحقيقي، وقلّت قائمة الحالات المختارة، ارتفع مستوى الخطر. وقد تفوّق نموذج اللغة الذي وضعه الباحثون على التخمين البسيط للفئة الأكثر شيوعًا في كلا الجانبين، حيث بلغت ذروة أدائه فرصة 0.34% لتحديد هوية المريض بشكل فريد - أي ما يقارب 37 ضعفًا مقارنةً بأقوى نموذج أساسي.

ويشير المؤلفون إلى أن مخاطر إخفاء الهوية تكون أعلى بالنسبة للمرضى الذين لديهم تاريخ طبي غير شائع أو هويات مهمشة، ويختتمون بتوصية لإعادة تقييم جادة لمعيار الملاذ الآمن لقانون HIPAA:

يعتمد معيار الملاذ الآمن لقانون HIPAA على تعريف ثنائي للخصوصية: إما أن تكون البيانات "محددة الهوية" أو "غير محددة الهوية". يفترض قانون HIPAA أن إزالة قائمة ثابتة من الرموز تجعل البيانات "آمنة"، مما يؤدي فعليًا إلى فصل السرد السريري عن هوية المريض.

ومع ذلك، فإن تحليل الرسم البياني السببي والنتائج التجريبية تشير إلى أن هذا الانفصال هو سراب.

"إن الملاحظات السريرية متشابكة بطبيعتها مع الهوية. فالتشخيص الطبي للمريض وسردياته غير المنقحة هي نتاج مباشر لمسار حياته الفريد، مما يخلق بصمة متعددة الأبعاد يمكن ربطها بالفرد."

ويؤكد المؤلفون كذلك أن قواعد إخفاء الهوية الحالية تركز على إزالة قائمة ثابتة من المعرفات، متجاهلةً الأنماط المتبقية في النص. ويشيرون إلى أن نماذج اللغة الكبيرة مصممة لاكتشاف هذه الأنماط ودمجها، مما يعني أن التفاصيل السريرية العادية يمكن أن تبدأ في العمل كـ"معرفات غير مباشرة".

تختتم الورقة البحثية بعدد من التوصيات، بما في ذلك دعوة إلى التوقف عن ضبط النماذج بدقة على البيانات الاصطناعيةأو البيانات "التي تم رفع السرية عنها"، منذ الأول يحتفظ بمخاطر الخصوصية فيما يتعلق بالبيانات الحقيقية المستخدمة لإبلاغها؛ ويفترض الثاني أن المعيار السابق للحماية في عصر قانون HIPAA لا يزال فعالاً.

خاتمة

لأن "الأبواب الخلفية" من هذا النوع تُفيد بشكل واضح المؤسسات الكبيرة، مثل شركات التأمين - التي من المفترض أن تستخدمها بطريقة سرية ودون إفصاح - فإن "حظرًا قانونيًا" على غرار قانون إدارة العقود الرقمية (حيث عمل إن التحايل على الحماية بحد ذاته محظور، بغض النظر عن التقنيات المستخدمة، هو نهج غير فعال.

أنه معروف أن شركات التأمين ترغب في الوصول إلى هذا النوع من المعلومات، وأن لديها، بشكل مباشر أو من خلال الارتباط بوسطاء البيانات، مستوى استثنائياً من الوصول إلى سجلات الرعاية الصحية الخاصة؛ وكلما كبرت الشركة، زادت قاعدة بيانات عملائها الأصلية.

لذلك، إذا أصبحت قيود وتدابير الحماية الخاصة بقانون HIPAA أشبه بـ "اتفاق شرف" بدلاً من كونها حاجزًا فعالًا للاستغلال المؤسسي، فإن إجراء مراجعة يبدو بالتأكيد في الوقت المناسب.

* تحويلي لاقتباسات المؤلفين المضمنة إلى روابط تشعبية.

نُشر لأول مرة يوم الأربعاء، 11 فبراير 2026

مارتن أندرسون

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai