간단한 라틴어 문장으로 LLM 수학 추론이 +22% 좋아진다는 논문
지난주 (2026-05-07) arXiv 에 올라온 흥미로운 논문이 있습니다. Washington University in St. Louis 연구진이 낸 "Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration”, "무의미한 것이 도움이 된다: 프롬프트 공간 교란으로 추론 탐색의 폭을 넓히기” 입니다.
핵심 발견을 한 줄로: RL 학습 단계에서 어려운 수학 문제 앞에 Lorem Ipsum 라틴어 더미 텍스트를 prepend 하면 모델이 더 잘 풀게 된다(!?)
처음 보면 "이게 무슨 소리야?” 싶은데, 논문에 메커니즘을 보면 의외로 깔끔한 듯 해서 정리해봤습니다.
문제 - GRPO 의 "zero-advantage" 함정
요즘 LLM 은 pretraining 끝난 후 GRPO (Group Relative Policy Optimization) 같은 강화학습으로 추가 학습을 받습니다. DeepSeek-R1, Qwen3 같은 추론 특화 모델들이 이 방식을 사용한다고 알려져 있는데요
GRPO 동작 방식 단순화:
- 문제 하나에 대해 답을 n개 (예: 8개) 생성
- 맞은 답은 보상, 틀린 답은 패널티
- 상대 점수로 gradient 계산
여기에 함정이 있습니다. 어려운 문제는 LLM이 n개의 답을 모두 틀림 → 모든 후보가 같은 점수 → 상대 advantage 가 0 → gradient 없음 → 학습 신호 없음.
이게 "zero-advantage problem” 입니다. 문제 하나에 답 8개를 뽑아서, "이건 잘했네 / 못했네" 를 서로 비교해서 학습시키는 방식이에요. 상대 평가 라고 보시면 됩니다. 모델이 가장 학습해야 할 문제(모델 능력의 경계에 있는 문제들)입니다. 근데 8개 다 틀리면 비교할 게 없어요. 다 0점 이니까 "누가 더 잘했다" 가 없고, 모델은 "아 이 문제는 못풀겠네" 하고 넘어갑니다. 정작 학습이 되어야 할 곳에서는 학습이 안 되는 상황이죠.
기존 풀이 - 더 많이 샘플링하기
지금까지는 단순히 그러면 "답을 더 많이 뽑자" 가 풀이였어요. 어려운 문제는 24 개, 48 개씩 샘플링. 운 좋으면 하나 맞을 거라는 기대.
문제는 같은 정책으로 같은 문제 다시 풀게 하면 결과가 비슷하게 나온다는 점. 24 번 던져도 24 번 다 틀리는 패턴이 흔합니다.
LoPE 의 아이디어 - 의미 없는 노이즈로 출력 분포를 흔들기
논문의 핵심 가설: "prompt 에 task 와 무관한 perturbation(섭동)을 넣으면, 모델의 출력 분포가 충분히 흔들려서 직교 (orthogonal) 한 추론 경로가 열릴 수 있다."
이 가설을 검증하려면 "의미 있는 hint 가 아닌" 노이즈가 필요했다고 합니다. 그래서 Lorem Ipsum 을 선택. 라틴어처럼 보이는 placeholder 텍스트라 실제 아무 의미는 없는데 "언어처럼 보이는" 형태는 유지하는 특성(프론트엔드 하시는 분들은 자주 사용하시고 많이 보셨을 겁니다).
작동 방식
표준 GRPO 에서 어려운 문제가 들어와서 G 개 답이 다 틀리면:
원래:
[문제]: 0 부터 3 까지 x^2 의 적분을 계산하세요
→ 8 번 시도 → 모두 실패 → 학습 신호 없음 → 버림
LoPE 는 여기서 멈추지 않고:
[Lorem ipsum dolor sit amet, consectetur adipiscing elit.
sed do eiusmod tempor incididunt ut labore et dolore...
(중략, 100-300 토큰)]
[문제]: 0 부터 3 까지 x^2 의 적분을 계산하세요
→ 24 번 더 시도 (perturbed prompt 로)
→ 몇 개 맞는 답이 나옴
→ 학습 신호 회수
결과 - 진짜로 작동함(!?)
Qwen3-4B-Base 모델에서:
| 벤치마크 | 표준 GRPO | LoPE | 차이 |
|---|---|---|---|
| MATH-500 | 77.80 | 82.60 | +4.80 |
| GSM8K | 91.74 | 92.95 | +1.21 |
| AMC | 47.76 | 58.21 | +10.45 (상대 +22%) |
| AIME 2024 | 16.41 | 19.90 | +3.49 |
| AIME 2025 | 13.12 | 16.27 | +3.15 |
| 평균 | 49.37 | 53.99 | +4.62 |
3 개 모델 (1.7B, 4B, 7B) 전부에서 일관된 향상. 7B 모델 (Qwen2.5-Math-7B) 에서는 평균 +6.20 으로 더 큰 향상.
가장 강한 결과 - "LoPE 만 풀 수 있었던 50 문제"
논문이 짚는 핵심: 어려운 352 개 문제 셋에서 LoPE 만 풀 수 있었던 50 문제가 있었습니다. 다른 모든 방법 (표준 GRPO, naive resampling, 고온도 sampling) 은 0% 였는데 LoPE 는 풀었다는 결과.
이건 marginal 개선 이 아니라 "이전에는 절대 못 풀던 문제를 풀게 된" 결과입니다.
왜 Latin 만 작동하는가
논문이 8 가지 perturbation 종류를 체계적으로 비교했어요. Qwen3-1.7B-Base 평균 점수:
| Perturbation 종류 | Perplexity | 평균 점수 |
|---|---|---|
| Lorem Ipsum (LoPE) | 25.12 | 39.82 |
| Filtered Latin Natural Language | 46.09 | 39.85 |
| Latin Unigram Model | 51.32 | 39.67 |
| Latin 3-Gram Model | 91.45 | 38.88 |
| English Unigram Model | 85.30 | 38.52 |
| Random Fake English | 2,429.9 | 38.55 |
| Random ASCII | 492.93 | 38.19 |
| Random Token | 460,000 | 37.65 |
| (참고) 표준 GRPO | - | 37.03 |
핵심 패턴은 두 가지:
1. Latin 어휘 우월 - Latin 기반 perturbation 4 종이 상위권 차지. 영어 단어로 만든 perturbation 은 "모델의 영어 추론 컨텍스트와 간섭" 일으켜서 성능 떨어짐.
2. 낮은 perplexity 가 핵심 - perplexity 25-50 대가 sweet spot. 너무 높으면 (random token, perplexity 46만) 모델이 입력을 "이해할 수 없는 노이즈" 로 인식해서 오히려 성능 하락.
논문 표현으로:
"효과적 perturbation 의 두 가지 특성: (i) pseudo-Latin 어휘로 영어 추론 컨텍스트 간섭 방지, (ii) 낮은 perplexity 로 rollout 품질 유지."
직관적으로 이해하면
모델이 추론할 때 internal state 가 있어요. 같은 문제에 같은 internal state 면 비슷한 답이 나옵니다. Lorem Ipsum 을 앞에 붙이면:
- 모델 입장에서 "무슨 라틴어가 있네" 정도로 처리 (이해 가능한 언어처럼 보이니까)
- 다만 의미는 없으니까 추론 경로 에는 영향 안 줌
- 그런데 internal state 는 살짝 흔들림
- 그 흔들림이 다른 추론 경로 로 모델을 밀어줌
논문에서 비유는 "막힌 등산객한테 살짝 밀어주는 것. 어느 방향으로든 밀면 안 보이던 길이 보일 수 있다."
의미 있는 포인트 세 가지
1. Exploration 은 여전히 풀리지 않은 문제
LLM 학습 얘기할 때 "데이터 더 모으자", "모델 더 키우자" 가 주류인데, "어떻게 탐색하게 만들 것인가" 는 의외로 덜 연구된 영역. LoPE 는 "우리가 성능을 그냥 흘리고 있다" 의 증거입니다.
2. Prompt sensitivity 가 버그가 아니라 feature
같은 문제에 의미 없는 prefix 만 붙여도 완전히 다른 추론 경로 가 열린다는 건 모델이 latent space 를 navigate 하는 방식에 대한 깊은 단서. "정답이 도달 가능한 곳에 있는데, 시작점만 다르면 됨" 의 증거로도 볼 수 있겠네요.
3. 단순한 방법이 복잡한 방법을 이길 수 있음
LoPE 는 구현이 민망할 정도로 단순합니다. 아키텍처 변경 없음, reward model 수정 없음. 그냥 resampling 할 때 Lorem Ipsum 앞에 붙이기. 만약 RL(Reinforcement Learning) fine-tuning 하시는 분이라면 거의 zero-cost 실험 입니다.
신뢰도와 한계
신뢰도 측면
- arXiv preprint (2026-05-07 게재). 아직 peer review 통과 안 됨(제3자에 의해 제대로 검증 안됨)
- 다만 저자 중 Jiaxin Huang 은 Microsoft Research PhD Fellow + AAAI 2026 New Faculty Highlight 수상자. 평가 가벼운 연구진 아님
- 코드 공개됨: https://github.com/shrango/LoPE
- COLM 2026 (Conference on Language Modeling) 투고 형식. peer review 진행 중일 가능성
한계 측면
- 학습 시점만 다룸. inference 시점에 Lorem Ipsum 붙이면 효과 있는지는 논문이 다루지 않음 (별도 검증 필요)
- 수학 추론에 집중. 코드 생성, 일반 reasoning 에 일반화되는지 미검증
- 모델은 Qwen 계열만. Llama, GPT, Claude 계열 base model 에서도 같은 패턴 나오는지는 별개
- 윤리 statement 가 흥미로운데, 저자가 직접 "perturbation 이 너무 강하면 모델이 incoherent 또는 nonsensical 출력 생성 가능, 일부 경우 undesirable / harmful content 포함" 명시. 즉 언제 어떤 안전 위험 이 있는지는 아직 통제 안 된 부분
정리
논문 한 줄: "의미 없는 노이즈가 정확한 방식으로 들어가면, 정보를 추가하지 않으면서도 모델 성능을 개선할 수 있다."
이게 AI 학습 분야에서 의외로 자주 있는 패턴 같습니다. "덜 한 것이 더 한 것" 같은 역설. dropout 도 비슷한 직관이었고 (랜덤하게 뉴런을 꺼서 일반화 향상), data augmentation 의 일부 (랜덤 crop, 노이즈 추가) 도 비슷한 원리. LoPE 는 prompt 레벨에서 같은 원리를 적용한 사례로 볼 수 있어요.
저는 이 논문이 흥미로운 이유가 결과 자체보다 방법론의 단순함. 누군가가 "답이 다 틀려서 학습이 안 되네... 음... 그냥 의미 없는 라틴어를 앞에 붙여볼까?" 라고 생각해서 진짜 해봤다는 점입니다. 정말 "되니까 한다" 입니다 ㅎㅎ
원본 글 (좋은 요약 있음): https://dev.to/ww-w-ai/lorem-ipsum-makes-llms-smarter-no-seriously-1j8l
논문 원본: https://arxiv.org/abs/2605.05566
코드: https://github.com/shrango/LoPE
출처
- 논문: Huang, Huang, Li, Cai, Yang, Huang. "Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration" (arXiv:2605.05566, 2026-05-07)
- 본 글의 모든 수치 및 인용은 논문 본문 (sections 1-5) + 첨부 데이터에서 추출
- dev.to 원본 글은 논문 핵심을 정확하게 요약하고 있어서 참고