Connect with us

Anderson의 관점

무례한 질의는 기업용 ChatGPT 비용을 증가시킬 수 있다

mm
AI-generated illustration featuring a man holding a door open for a robot. Gpt-Image-1 + Firefly V3.

ChatGPT는 무례한 질문에 더 많은 토큰을 사용하여 응답하며, 이는 기업의 비용을 증가시킵니다. 그러나 ‘제발’이라는 말을 사용하면 비용을 절감할 수 있습니다.

 

무례함은 아무런 비용도 들지 않는다고 합니다. 그러나 무례함이 ChatGPT에 얼마나 비용이 들까? 미국의 새로운 연구에 따르면, ChatGPT에 무례한 질문을 하면 응답의 비용이 증가합니다. 아이오와 대학교의 새로운 논문은 무례한 질문이 동일한 응답을 반환하는 경우에도 더 많은 토큰을 사용하여 비용을 증가시킵니다.

연구자들은 다음과 같이 말합니다:

‘GPT4의 출력 토큰 가격은 1M 출력 토큰당 $12입니다. 우리는 무례한 프롬프트가 평균적으로 14개 이상의 추가 토큰을 생성하며, 이는 평균적으로 프롬프트당 $0.000168의 추가 비용을 발생시킵니다. OpenAI의 API에 대한 평균 일일 쿼리는 22억을 초과합니다.’

‘모든 프롬프트가 정중한 경우와 비교하여 무례한 프롬프트를 사용하면, 이는 무례한 프롬프트가 생성하는 결과로 인해 추가 토큰이 발생하여 일일 추가 수익으로 $369K를 발생시킵니다.’

이 결과는 자체적으로 интерес롭지만, 연구자들은 이 비정상적인 행동이 인간과 AI의 구성에서 아직 알려지지 않은 다양한 특이점을 나타낼 수 있으며, 이는 모두 금전적인 영향을 미칠 수 있다고 강조합니다. 무례함이 고객에게 추가 토큰 비용을 발생시키는 이유에 대해서는 연구자들은 추측하지 않습니다.

이 현상을 검증하기 위해, 연구자들은 실제 ChatGPT 프롬프트를 다시 작성하여 정중함의 값을 교대하면서 의미를 유지했습니다. 두 버전은 모두 GPT-4-Turbo에 제출되었으며, 출력 토큰의 수에서 차이를 측정하여 응답의 비용을 측정했습니다.

결론은 이 năm 초에 발생한 헤드라인 사건과는 대조적인데, Sam Altman은 불평했 bahwa 정중함이 OpenAI에 수백만 달러의 비용을 발생시킬 수 있다고 했습니다. 同时期에 발표된 연구도 정중함이 더好的 응답을 얻는 데 도움이 되지 않는다는 것을 나타냅니다.

연구자들은 정중함이 비용을 절감할 수 있는 가능성에 대해 제안합니다. 그러나 LLM 시스템은 쉽게 토큰 제한을 설정할 수 없습니다. 연구자들은 프롬프트가 비용 제어를 위한 약한 도구라는 것을 관찰하며, LLM은 명시적인 길이 지침을 따를 수 없습니다. 대부분의 경우, 이러한 ‘제한’ 지시를 따를 수 없으며, 응답이 잘릴 수 있습니다.

연구는 세 가지 하위 집합의 정중한 프롬프트에 대해 반복되어 강건성을 테스트했습니다. 프롬프트는 정중한 마커(예: ‘제발’ 또는 ‘감사합니다’)를 사용하거나 간접적으로 정중할 수 있습니다. 정중하지 않은 것으로 간주되는 모든 것은 중립적인 단어보다는 적대적인 단어로 간주되었습니다.

각 프롬프트는 톤을 반전시키기 위해 다시 작성되었습니다. 다른 모든 요소는 가능한 한 유사하게 유지되었습니다. 이는 정중함만 다른 점으로서의 쌍을 비교할 수 있도록 허용했습니다.

테스트는 각 원본 프롬프트와 다시 작성된 버전의 쌍으로 수행되었습니다. 두 버전은 모두 동일한 GPT-4-Turbo 모델에 제출되었으며, 각 버전에 대한 출력 토큰의 수를 기록했습니다. 두 버전 사이의 차이를 토큰 비용에 미치는 정중함의 영향으로 간주했습니다.

온도를 일정하게 유지하여 무작위 변동을 방지했습니다. 프롬프트 쌍은 다시 작성하여 입력을 5개 토큰 이상 변경하지 않는 경우에만 유지했습니다. 이는 토큰 비용에 영향을 미치는 효과가 톤에서 비롯된다는 것을 보장했습니다.

주요 결과는 정중한 프롬프트가 평균적으로 14.426개의 토큰을 줄였다는 것을 나타냅니다.

분석은 세 가지 하위 집합의 정중한 프롬프트에 대해 반복되어 강건성을 테스트했습니다. 프롬프트는 명시적인 마커(예: ‘제발’ 또는 ‘감사합니다’)를 사용하거나 간접적으로 정중할 수 있습니다.

추가 테스트는 정중함의 효과가 다양한 프롬프트 유형에 걸쳐 일관성이 있는지 확인하기 위해 수행되었습니다. 각 프롬프트는 미리 정의된 작업 범주 중 하나에 할당되었습니다.

각 프롬프트는 작업 레이블을 할당받았으며, 이는 작업 설명의 임베딩과 비교하여 결정되었습니다. all-MiniLM-L6-v2 문장 변환기 모델을 사용했습니다.

코사인 유사도 점수는 각 프롬프트와 작업 정의 집합 사이에서 계산되었습니다. 가장 높은 유사도를 가진 레이블이 할당되었습니다.

작업 유형은 회귀에서 제어 변수로 다시 사용되었습니다. 이는 정중함의 효과가 프롬프트 범주에 따라 달라지는지 테스트하기 위해 수행되었습니다. 작업과 처리 사이의 상호 작용 항도 도입되어 차이 효과를 확인했습니다.

두 경우 모두 정중한 프롬프트가 일관되게 더 짧은 출력을 생성했습니다. 작업 유형에 따라 의미 있는 변이가 발견되지 않았습니다.

추가 테스트는 정중함의 효과가 다양한 프롬프트 유형에 걸쳐 일관성이 있는지 확인하기 위해 수행되었습니다. 각 프롬프트는 작업 레이블을 할당받았으며, 이는 작업 설명의 임베딩과 비교하여 결정되었습니다.

정중함의 효과는 작업 유형에 따라 달라지지 않았습니다. 정중한 프롬프트는 일관되게 더 짧은 출력을 생성했습니다.

인간 평가도 수행되었습니다. 20개의 정중한 프롬프트와 20개의 무례한 프롬프트 쌍이 무작위로 선택되었습니다. 각 응답은 7점 척도에서 401명의 참가자에 의해 평가되었습니다.

정중하고 무례한 출력은 거의 동일한 점수를 받았습니다. 원본과 대응되는 버전도 거의 동일한 점수를 받았습니다.

연구자들은 이러한 결과가 출력의 품질이 정중함에 의해 영향을 받지 않았음을 나타낸다고 주장합니다. 토큰의 감소는 품질의 손실로 인한 것이 아니라, 다시 작성하거나 구조적인 변화로 인한 것입니다.

企業의 프롬프트 비용에 대한 차이는 품질이나 명확성의 변화로 인한 것이 아닙니다. 무례함의 ‘세금’은 여전히 작용합니다.

결론

새로운 연구는 기업의 ChatGPT 사용에 집중하지만, 하위 티어 사용자도 이 현상에 영향을 받습니다. 두 개의 입문 티어도 사용 제한이 있기 때문입니다. ChatGPT를 무례하게 대하면 일일 할당 토큰이 빨리 소모됩니다.

새로운 연구는 인간과 AI의 상호작용에서 많이 연구된 열린 질문에 집중하지만, 연구자들은 정중함 문제가 아직 발견되지 않은 더 깊은 언어적 특이점의 지표가 될 수 있다고 강조합니다. 이러한 특이점은 추론 비용에 영향을 미칠 수 있습니다.

2025년 11월 19일 처음 게시

기계 학습 작가, 인간 이미지 합성 도메인 전문가. Metaphysic.ai의 연구 콘텐츠 책임자 출신.
개인 사이트: martinanderson.ai
연락처: [email protected]
트위터: @manders_ai