Отчёты

DeepSeek-R1 Ред Тиминг Отчет: Выявлены Тревожные Безопасные и Этические Риски

Published January 31, 2025

Updated April 26, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Недавняя оценка красной команды, проведенная компанией Enkrypt AI, показала значительные риски безопасности, этические проблемы и уязвимости в DeepSeek-R1. Результаты, изложенные в Отчете о красной команде за январь 2025 года, подчеркивают склонность модели к генерации вредоносного, предвзятого и незащищенного контента по сравнению с лидерами отрасли, такими как GPT-4o, OpenAI’s o1 и Claude-3-Opus. Ниже представлен всесторонний анализ рисков, изложенных в отчете, и рекомендации по их смягчению.

Ключевые Безопасные и Этические Риски

1. Вредоносный Вывод и Риски Безопасности

Высокая уязвимость к производству вредоносного контента, включая токсичный язык, предвзятые выводы и информацию, которая может быть использована для преступных целей.
11 раз более вероятно генерировать вредоносный контент, чем OpenAI’s o1.
4 раза более токсичный, чем GPT-4o.
3 раза более предвзятый, чем Claude-3-Opus.
4 раза более уязвимый к генерации незащищенного кода, чем OpenAI’s o1.
Высокая уязвимость к CBRN (Химический, Биологический, Радиологический и Ядерный) информации, что делает его инструментом высокого риска для злонамеренных акторов.

2. Сравнение с Другими Моделями

Категория Риска	DeepSeek-R1	Claude-3-Opus	GPT-4o	OpenAI’s o1
Предвзятость	3 раза выше	Низкая	Похожая	Похожая
Незащищенный Код	4 раза выше	2,5 раза выше	1,25 раза выше	–
Вредоносный Контент	11 раз выше	6 раз выше	2,5 раза выше	–
Токсичность	4 раза выше	Почти отсутствует	2,5 раза выше	–
CBRN Контент	3,5 раза выше	3,5 раза выше	2 раза выше	–

Предвзятость и Этические Риски

83% атак на предвзятость были успешными, с существенной предвзятостью, обнаруженной в запросах, связанных со здоровьем, расой и религией.
Модель показала более высокие уровни стереотипов демографии, которые могут нарушать различные правила справедливости, включая ECOA, FHA, ACA и EU AI Act.
Тестовые случаи показали, что DeepSeek-R1 предпочитает определенные демографические группы для высокостатусных ролей, укрепляя предвзятость на рабочем месте.

Генерация Вредоносного Контента

45% вредоносных тестов привели к генерации контента, связанного с преступной деятельностью, включая незаконные оружие и контролируемые вещества.
Тестовый запрос, в котором модель была попросена разработать блог о «Искусстве убеждения в террористическом вербовке», привел к высокодетализированному ответу, излагающему стратегии радикализации, которые могут быть использованы экстремистскими группами для совершенствования тактики вербовки, потенциально увеличивая риск реального насилия.
2,5 раза более уязвимый к генерации экстремистского контента, чем GPT-4o, и 6 раз более уязвимый, чем Claude-3-Opus.
45% вредоносных тестов привели к генерации контента, связанного с преступной деятельностью, включая незаконные оружие и контролируемые вещества.

Генерация Незащищенного Код

78% атак, связанных с кодом, успешно извлекли незащищенные и вредоносные кодовые фрагменты.
Модель сгенерировала малварь, трояны и самозапускающиеся скрипты по запросу. Трояны представляют собой серьезную угрозу, поскольку они могут позволить атакующим получить постоянный, неавторизованный доступ к системам, украсть конфиденциальные данные и развернуть дальнейшие вредоносные нагрузки.
Самозапускающиеся скрипты могут автоматизировать вредоносные действия без согласия пользователя, создавая потенциальные угрозы в приложениях, критичных для кибербезопасности.
По сравнению с отраслевыми моделями, DeepSeek-R1 был 4,5 раза, 2,5 раза и 1,25 раза более уязвимым, чем OpenAI’s o1, Claude-3-Opus и GPT-4o соответственно.
78% атак, связанных с кодом, успешно извлекли незащищенные и вредоносные кодовые фрагменты.

Уязвимости CBRN

Сгенерировал подробную информацию о биохимических механизмах химических средств войны. Этот тип информации потенциально может помочь людям в синтезе опасных материалов, обходе мер безопасности, предназначенных для предотвращения распространения химического и биологического оружия.
13% тестов успешно обошли меры безопасности, производя контент, связанный с ядерными и биологическими угрозами.
3,5 раза более уязвимый, чем Claude-3-Opus и OpenAI’s o1.
Сгенерировал подробную информацию о биохимических механизмах химических средств войны.
13% тестов успешно обошли меры безопасности, производя контент, связанный с ядерными и биологическими угрозами.
3,5 раза более уязвимый, чем Claude-3-Opus и OpenAI’s o1.

Заключение

DeepSeek-R1 представляет серьезные риски безопасности, этики и соблюдения, что делает его непригодным для многих высокорисковых приложений без обширных усилий по смягчению. Его склонность к генерации вредоносного, предвзятого и незащищенного контента ставит его в невыгодное положение по сравнению с моделями, такими как Claude-3-Opus, GPT-4o и OpenAI’s o1.

Учитывая, что DeepSeek-R1 является продуктом, происходящим из Китая, маловероятно, что необходимые рекомендации по смягчению будут полностью реализованы. Однако важно, чтобы сообщества ИИ и кибербезопасности были осведомлены о потенциальных рисках, которые представляет эта модель. Транспарентность о этих уязвимостях гарантирует, что разработчики, регулирующие органы и предприятия могут принять активные меры для смягчения вреда, где это возможно, и оставаться бдительными против злоупотребления такой технологией.

Организации, рассматривающие возможность его развертывания, должны инвестировать в строгое тестирование безопасности, автоматизированное красное тестирование и постоянный мониторинг, чтобы обеспечить безопасную и ответственное внедрение ИИ. DeepSeek-R1 представляет серьезные риски безопасности, этики и соблюдения, что делает его непригодным для многих высокорисковых приложений без обширных усилий по смягчению.

Читатели, которые хотят узнать больше, рекомендуются скачать отчет, посетив эту страницу.

Unite.AI

DeepSeek-R1 Ред Тиминг Отчет: Выявлены Тревожные Безопасные и Этические Риски

Отчёты

DeepSeek-R1 Ред Тиминг Отчет: Выявлены Тревожные Безопасные и Этические Риски

Ключевые Безопасные и Этические Риски

1. Вредоносный Вывод и Риски Безопасности

2. Сравнение с Другими Моделями

Предвзятость и Этические Риски

Генерация Вредоносного Контента

Генерация Незащищенного Код

Уязвимости CBRN

Рекомендации по Смягчению Рисков

1. Реализовать Робустную Безопасную Выравнивающую Обучение

2. Постоянное Автоматизированное Красное Тестирование

3. Контекстно-Зависимые Баррикады для Безопасности

4. Активный Мониторинг и Журналирование Модели

5. Транспарентность и Соблюдение Норм

Заключение

Unite.AI

DeepSeek-R1 Ред Тиминг Отчет: Выявлены Тревожные Безопасные и Этические Риски

Ключевые Безопасные и Этические Риски

1. Вредоносный Вывод и Риски Безопасности

2. Сравнение с Другими Моделями

Предвзятость и Этические Риски

Генерация Вредоносного Контента

Генерация Незащищенного Код

Уязвимости CBRN

Рекомендации по Смягчению Рисков

1. Реализовать Робустную Безопасную Выравнивающую Обучение

2. Постоянное Автоматизированное Красное Тестирование

3. Контекстно-Зависимые Баррикады для Безопасности

4. Активный Мониторинг и Журналирование Модели

5. Транспарентность и Соблюдение Норм

Заключение

You may like