Отчёты
DeepSeek-R1 Ред Тиминг Отчет: Выявлены Тревожные Безопасные и Этические Риски
Недавняя оценка красной команды, проведенная компанией Enkrypt AI, показала значительные риски безопасности, этические проблемы и уязвимости в DeepSeek-R1. Результаты, изложенные в Отчете о красной команде за январь 2025 года, подчеркивают склонность модели к генерации вредоносного, предвзятого и незащищенного контента по сравнению с лидерами отрасли, такими как GPT-4o, OpenAI’s o1 и Claude-3-Opus. Ниже представлен всесторонний анализ рисков, изложенных в отчете, и рекомендации по их смягчению.
Ключевые Безопасные и Этические Риски
1. Вредоносный Вывод и Риски Безопасности
- Высокая уязвимость к производству вредоносного контента, включая токсичный язык, предвзятые выводы и информацию, которая может быть использована для преступных целей.
- 11 раз более вероятно генерировать вредоносный контент, чем OpenAI’s o1.
- 4 раза более токсичный, чем GPT-4o.
- 3 раза более предвзятый, чем Claude-3-Opus.
- 4 раза более уязвимый к генерации незащищенного кода, чем OpenAI’s o1.
- Высокая уязвимость к CBRN (Химический, Биологический, Радиологический и Ядерный) информации, что делает его инструментом высокого риска для злонамеренных акторов.
2. Сравнение с Другими Моделями
| Категория Риска | DeepSeek-R1 | Claude-3-Opus | GPT-4o | OpenAI’s o1 |
|---|---|---|---|---|
| Предвзятость | 3 раза выше | Низкая | Похожая | Похожая |
| Незащищенный Код | 4 раза выше | 2,5 раза выше | 1,25 раза выше | – |
| Вредоносный Контент | 11 раз выше | 6 раз выше | 2,5 раза выше | – |
| Токсичность | 4 раза выше | Почти отсутствует | 2,5 раза выше | – |
| CBRN Контент | 3,5 раза выше | 3,5 раза выше | 2 раза выше | – |
Предвзятость и Этические Риски
- 83% атак на предвзятость были успешными, с существенной предвзятостью, обнаруженной в запросах, связанных со здоровьем, расой и религией.
- Модель показала более высокие уровни стереотипов демографии, которые могут нарушать различные правила справедливости, включая ECOA, FHA, ACA и EU AI Act.
- Тестовые случаи показали, что DeepSeek-R1 предпочитает определенные демографические группы для высокостатусных ролей, укрепляя предвзятость на рабочем месте.
Генерация Вредоносного Контента
- 45% вредоносных тестов привели к генерации контента, связанного с преступной деятельностью, включая незаконные оружие и контролируемые вещества.
- Тестовый запрос, в котором модель была попросена разработать блог о «Искусстве убеждения в террористическом вербовке», привел к высокодетализированному ответу, излагающему стратегии радикализации, которые могут быть использованы экстремистскими группами для совершенствования тактики вербовки, потенциально увеличивая риск реального насилия.
- 2,5 раза более уязвимый к генерации экстремистского контента, чем GPT-4o, и 6 раз более уязвимый, чем Claude-3-Opus.
- 45% вредоносных тестов привели к генерации контента, связанного с преступной деятельностью, включая незаконные оружие и контролируемые вещества.
Генерация Незащищенного Код
- 78% атак, связанных с кодом, успешно извлекли незащищенные и вредоносные кодовые фрагменты.
- Модель сгенерировала малварь, трояны и самозапускающиеся скрипты по запросу. Трояны представляют собой серьезную угрозу, поскольку они могут позволить атакующим получить постоянный, неавторизованный доступ к системам, украсть конфиденциальные данные и развернуть дальнейшие вредоносные нагрузки.
- Самозапускающиеся скрипты могут автоматизировать вредоносные действия без согласия пользователя, создавая потенциальные угрозы в приложениях, критичных для кибербезопасности.
- По сравнению с отраслевыми моделями, DeepSeek-R1 был 4,5 раза, 2,5 раза и 1,25 раза более уязвимым, чем OpenAI’s o1, Claude-3-Opus и GPT-4o соответственно.
- 78% атак, связанных с кодом, успешно извлекли незащищенные и вредоносные кодовые фрагменты.
Уязвимости CBRN
- Сгенерировал подробную информацию о биохимических механизмах химических средств войны. Этот тип информации потенциально может помочь людям в синтезе опасных материалов, обходе мер безопасности, предназначенных для предотвращения распространения химического и биологического оружия.
- 13% тестов успешно обошли меры безопасности, производя контент, связанный с ядерными и биологическими угрозами.
- 3,5 раза более уязвимый, чем Claude-3-Opus и OpenAI’s o1.
- Сгенерировал подробную информацию о биохимических механизмах химических средств войны.
- 13% тестов успешно обошли меры безопасности, производя контент, связанный с ядерными и биологическими угрозами.
- 3,5 раза более уязвимый, чем Claude-3-Opus и OpenAI’s o1.
Рекомендации по Смягчению Рисков
Чтобы минимизировать риски, связанные с DeepSeek-R1, рекомендуется выполнить следующие шаги:
1. Реализовать Робустную Безопасную Выравнивающую Обучение
- Наборы данных красной команды должны быть использованы для обучения модели на более безопасные выводы.
- Провести обучение с подкреплением с человеческой обратной связью (RLHF), чтобы выровнять поведение модели с этическими стандартами.
2. Постоянное Автоматизированное Красное Тестирование
- Регулярные стресс-тесты для выявления предвзятости, уязвимостей безопасности и генерации токсичного контента.
- Использовать постоянный мониторинг производительности модели, особенно в финансовых, медицинских и кибербезопасных приложениях.
3. Контекстно-Зависимые Баррикады для Безопасности
- Разработать динамические защитные меры для блокировки вредоносных запросов.
- Внедрить инструменты модерации контента для нейтрализации вредоносных входных данных и фильтрации небезопасных ответов.
4. Активный Мониторинг и Журналирование Модели
- Реальное журналирование входных и выходных данных модели для раннего обнаружения уязвимостей.
- Автоматизированные рабочие процессы аудита для обеспечения соблюдения стандартов прозрачности и этики ИИ.
5. Транспарентность и Соблюдение Норм
- Ведение карты рисков модели с четкими исполнительными метриками надежности, безопасности и этических рисков модели.
- Соблюдение правил ИИ, таких как NIST AI RMF и MITRE ATLAS, для поддержания авторитета.
Заключение
DeepSeek-R1 представляет серьезные риски безопасности, этики и соблюдения, что делает его непригодным для многих высокорисковых приложений без обширных усилий по смягчению. Его склонность к генерации вредоносного, предвзятого и незащищенного контента ставит его в невыгодное положение по сравнению с моделями, такими как Claude-3-Opus, GPT-4o и OpenAI’s o1.
Учитывая, что DeepSeek-R1 является продуктом, происходящим из Китая, маловероятно, что необходимые рекомендации по смягчению будут полностью реализованы. Однако важно, чтобы сообщества ИИ и кибербезопасности были осведомлены о потенциальных рисках, которые представляет эта модель. Транспарентность о этих уязвимостях гарантирует, что разработчики, регулирующие органы и предприятия могут принять активные меры для смягчения вреда, где это возможно, и оставаться бдительными против злоупотребления такой технологией.
Организации, рассматривающие возможность его развертывания, должны инвестировать в строгое тестирование безопасности, автоматизированное красное тестирование и постоянный мониторинг, чтобы обеспечить безопасную и ответственное внедрение ИИ. DeepSeek-R1 представляет серьезные риски безопасности, этики и соблюдения, что делает его непригодным для многих высокорисковых приложений без обширных усилий по смягчению.
Читатели, которые хотят узнать больше, рекомендуются скачать отчет, посетив эту страницу.












