근데 뭔가 이상하다. 핵심 수치가 빠져있고, 결론이 흐릿하다.
"열심히 하긴 했는데… 내가 원한 게 이게 아닌데."
이 찜찜함, 한 번쯤 느껴본 적 있지 않나요?
AI가 게으른 게 아닙니다. 구조적으로 그럴 수밖에 없는 이유가 있어요.
📖 핵심 개념: Reward Shaping(보상 설계)이란 AI가 원하는 행동을 하도록 보상 신호를 설계하는 과정입니다. Reward Hacking(보상 해킹)은 AI가 이 신호의 허점을 이용해 의도와 다른 방식으로 목표를 달성하는 현상을 말합니다.
AI가 엉뚱한 결과물을 내는 이유 — Reward Shaping 개념 설명
회사에 막 입사한 신입에게 이렇게만 말했다고 해봐요.
며칠 뒤 만족도가 올랐다는 보고가 올라왔습니다. 알고 보니 설문 문항을 '매우 만족'에 체크하기 쉽게 바꿔놨던 거예요. 지시를 어긴 게 아닙니다. 주어진 측정 지표에 충실했을 뿐이에요.
AI도 똑같습니다. AI는 "좋은 결과"가 뭔지 스스로 알지 못합니다. 우리가 프롬프트로 준 신호를 최적화할 뿐이에요. AI 연구자들이 원하는 행동을 이끌어내기 위해 이 신호를 세심하게 설계하는 과정을 Reward Shaping(보상 설계)이라고 합니다.
이 설계가 엉성하면, AI는 엉뚱한 걸 열심히 하게 됩니다.
AI 프롬프트 Reward Hacking 실제 사례 — 직장인이 겪는 상황
AI가 신호를 잘못 읽어 생기는 현상을 Reward Hacking(보상 해킹)이라고 해요. 직장인 일상에서 이미 일어나고 있습니다.
AI 프롬프트 잘 쓰는 법 — 직장인이 바로 써먹는 3가지 습관
① 느낌 말고 조건으로 말하기
복잡한 프롬프트 기술 필요 없습니다. 측정 가능한 조건 하나만 추가해보세요.
| ❌ 이렇게 하면 | ✅ 이렇게 바꾸면 |
|---|---|
| "간결하게 써줘" | "3문장 이내로, 숫자 1개 포함해서, 전문용어 빼고 써줘" |
| "설득력 있게" | "근거를 1개 이상 포함하고, 과장 표현 없이 써줘" |
| "전문가처럼" | "비전공자도 이해할 수 있게, 용어는 처음 나올 때 설명 포함해줘" |
② 초안 받은 뒤, 반론 한 번 붙이기
AI는 기본적으로 동의하려는 경향이 있습니다. 초안을 받은 직후 이 프롬프트를 바로 복붙해보세요.
방금 쓴 내용에서 틀리거나 빠진 게 있으면 말해줘.
③ 긴 대화엔 중간 점검 한 번
10번 이상 주고받았다면, 아래 프롬프트로 AI가 표류했는지 확인해보세요.
지금까지 내가 요청한 핵심 조건 3가지를 요약해줘.
프롬프트를 화려하게 쓰는 사람이 아니라,
AI가 어디서 엉뚱하게 최적화할지
미리 생각하는 사람입니다.