By d9ng in ai — 11 5월 2026

간단한 라틴어 문장으로 LLM 수학 추론이 +22% 좋아진다는 논문

지난주 (2026-05-07) arXiv 에 올라온 흥미로운 논문이 있습니다. Washington University in St. Louis 연구진이 낸 "Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration”, "무의미한 것이 도움이 된다: 프롬프트 공간 교란으로 추론 탐색의 폭을 넓히기” 입니다.

핵심 발견을 한 줄로: RL 학습 단계에서 어려운 수학 문제 앞에 Lorem Ipsum 라틴어 더미 텍스트를 prepend 하면 모델이 더 잘 풀게 된다(!?)

처음 보면 "이게 무슨 소리야?” 싶은데, 논문에 메커니즘을 보면 의외로 깔끔한 듯 해서 정리해봤습니다.

문제 - GRPO 의 "zero-advantage" 함정

요즘 LLM 은 pretraining 끝난 후 GRPO (Group Relative Policy Optimization) 같은 강화학습으로 추가 학습을 받습니다. DeepSeek-R1, Qwen3 같은 추론 특화 모델들이 이 방식을 사용한다고 알려져 있는데요

GRPO 동작 방식 단순화:

문제 하나에 대해 답을 n개 (예: 8개) 생성
맞은 답은 보상, 틀린 답은 패널티
상대 점수로 gradient 계산

여기에 함정이 있습니다. 어려운 문제는 LLM이 n개의 답을 모두 틀림 → 모든 후보가 같은 점수 → 상대 advantage 가 0 → gradient 없음 → 학습 신호 없음.

이게 "zero-advantage problem” 입니다. 문제 하나에 답 8개를 뽑아서, "이건 잘했네 / 못했네" 를 서로 비교해서 학습시키는 방식이에요. 상대 평가 라고 보시면 됩니다. 모델이 가장 학습해야 할 문제(모델 능력의 경계에 있는 문제들)입니다. 근데 8개 다 틀리면 비교할 게 없어요. 다 0점 이니까 "누가 더 잘했다" 가 없고, 모델은 "아 이 문제는 못풀겠네" 하고 넘어갑니다. 정작 학습이 되어야 할 곳에서는 학습이 안 되는 상황이죠.

기존 풀이 - 더 많이 샘플링하기

지금까지는 단순히 그러면 "답을 더 많이 뽑자" 가 풀이였어요. 어려운 문제는 24 개, 48 개씩 샘플링. 운 좋으면 하나 맞을 거라는 기대.

문제는 같은 정책으로 같은 문제 다시 풀게 하면 결과가 비슷하게 나온다는 점. 24 번 던져도 24 번 다 틀리는 패턴이 흔합니다.

LoPE 의 아이디어 - 의미 없는 노이즈로 출력 분포를 흔들기

논문의 핵심 가설: "prompt 에 task 와 무관한 perturbation(섭동)을 넣으면, 모델의 출력 분포가 충분히 흔들려서 직교 (orthogonal) 한 추론 경로가 열릴 수 있다."

이 가설을 검증하려면 "의미 있는 hint 가 아닌" 노이즈가 필요했다고 합니다. 그래서 Lorem Ipsum 을 선택. 라틴어처럼 보이는 placeholder 텍스트라 실제 아무 의미는 없는데 "언어처럼 보이는" 형태는 유지하는 특성(프론트엔드 하시는 분들은 자주 사용하시고 많이 보셨을 겁니다).

작동 방식

표준 GRPO 에서 어려운 문제가 들어와서 G 개 답이 다 틀리면:

원래: 
[문제]: 0 부터 3 까지 x^2 의 적분을 계산하세요

→ 8 번 시도 → 모두 실패 → 학습 신호 없음 → 버림

LoPE 는 여기서 멈추지 않고:

[Lorem ipsum dolor sit amet, consectetur adipiscing elit. 
sed do eiusmod tempor incididunt ut labore et dolore... 
(중략, 100-300 토큰)]
[문제]: 0 부터 3 까지 x^2 의 적분을 계산하세요

→ 24 번 더 시도 (perturbed prompt 로)
→ 몇 개 맞는 답이 나옴
→ 학습 신호 회수

결과 - 진짜로 작동함(!?)

Qwen3-4B-Base 모델에서:

벤치마크	표준 GRPO	LoPE	차이
MATH-500	77.80	82.60	+4.80
GSM8K	91.74	92.95	+1.21
AMC	47.76	58.21	+10.45 (상대 +22%)
AIME 2024	16.41	19.90	+3.49
AIME 2025	13.12	16.27	+3.15
평균	49.37	53.99	+4.62

3 개 모델 (1.7B, 4B, 7B) 전부에서 일관된 향상. 7B 모델 (Qwen2.5-Math-7B) 에서는 평균 +6.20 으로 더 큰 향상.

가장 강한 결과 - "LoPE 만 풀 수 있었던 50 문제"

논문이 짚는 핵심: 어려운 352 개 문제 셋에서 LoPE 만 풀 수 있었던 50 문제가 있었습니다. 다른 모든 방법 (표준 GRPO, naive resampling, 고온도 sampling) 은 0% 였는데 LoPE 는 풀었다는 결과.

이건 marginal 개선 이 아니라 "이전에는 절대 못 풀던 문제를 풀게 된" 결과입니다.

왜 Latin 만 작동하는가

논문이 8 가지 perturbation 종류를 체계적으로 비교했어요. Qwen3-1.7B-Base 평균 점수:

Perturbation 종류	Perplexity	평균 점수
Lorem Ipsum (LoPE)	25.12	39.82
Filtered Latin Natural Language	46.09	39.85
Latin Unigram Model	51.32	39.67
Latin 3-Gram Model	91.45	38.88
English Unigram Model	85.30	38.52
Random Fake English	2,429.9	38.55
Random ASCII	492.93	38.19
Random Token	460,000	37.65
(참고) 표준 GRPO	-	37.03

핵심 패턴은 두 가지:

1. Latin 어휘 우월 - Latin 기반 perturbation 4 종이 상위권 차지. 영어 단어로 만든 perturbation 은 "모델의 영어 추론 컨텍스트와 간섭" 일으켜서 성능 떨어짐.

2. 낮은 perplexity 가 핵심 - perplexity 25-50 대가 sweet spot. 너무 높으면 (random token, perplexity 46만) 모델이 입력을 "이해할 수 없는 노이즈" 로 인식해서 오히려 성능 하락.

논문 표현으로:

"효과적 perturbation 의 두 가지 특성: (i) pseudo-Latin 어휘로 영어 추론 컨텍스트 간섭 방지, (ii) 낮은 perplexity 로 rollout 품질 유지."

직관적으로 이해하면

모델이 추론할 때 internal state 가 있어요. 같은 문제에 같은 internal state 면 비슷한 답이 나옵니다. Lorem Ipsum 을 앞에 붙이면:

모델 입장에서 "무슨 라틴어가 있네" 정도로 처리 (이해 가능한 언어처럼 보이니까)
다만 의미는 없으니까 추론 경로 에는 영향 안 줌
그런데 internal state 는 살짝 흔들림
그 흔들림이 다른 추론 경로 로 모델을 밀어줌

논문에서 비유는 "막힌 등산객한테 살짝 밀어주는 것. 어느 방향으로든 밀면 안 보이던 길이 보일 수 있다."

의미 있는 포인트 세 가지

1. Exploration 은 여전히 풀리지 않은 문제

LLM 학습 얘기할 때 "데이터 더 모으자", "모델 더 키우자" 가 주류인데, "어떻게 탐색하게 만들 것인가" 는 의외로 덜 연구된 영역. LoPE 는 "우리가 성능을 그냥 흘리고 있다" 의 증거입니다.

2. Prompt sensitivity 가 버그가 아니라 feature

같은 문제에 의미 없는 prefix 만 붙여도 완전히 다른 추론 경로 가 열린다는 건 모델이 latent space 를 navigate 하는 방식에 대한 깊은 단서. "정답이 도달 가능한 곳에 있는데, 시작점만 다르면 됨" 의 증거로도 볼 수 있겠네요.

3. 단순한 방법이 복잡한 방법을 이길 수 있음

LoPE 는 구현이 민망할 정도로 단순합니다. 아키텍처 변경 없음, reward model 수정 없음. 그냥 resampling 할 때 Lorem Ipsum 앞에 붙이기. 만약 RL(Reinforcement Learning) fine-tuning 하시는 분이라면 거의 zero-cost 실험 입니다.

신뢰도와 한계

신뢰도 측면

arXiv preprint (2026-05-07 게재). 아직 peer review 통과 안 됨(제3자에 의해 제대로 검증 안됨)
다만 저자 중 Jiaxin Huang 은 Microsoft Research PhD Fellow + AAAI 2026 New Faculty Highlight 수상자. 평가 가벼운 연구진 아님
코드 공개됨: https://github.com/shrango/LoPE
COLM 2026 (Conference on Language Modeling) 투고 형식. peer review 진행 중일 가능성

한계 측면

학습 시점만 다룸. inference 시점에 Lorem Ipsum 붙이면 효과 있는지는 논문이 다루지 않음 (별도 검증 필요)
수학 추론에 집중. 코드 생성, 일반 reasoning 에 일반화되는지 미검증
모델은 Qwen 계열만. Llama, GPT, Claude 계열 base model 에서도 같은 패턴 나오는지는 별개
윤리 statement 가 흥미로운데, 저자가 직접 "perturbation 이 너무 강하면 모델이 incoherent 또는 nonsensical 출력 생성 가능, 일부 경우 undesirable / harmful content 포함" 명시. 즉 언제 어떤 안전 위험 이 있는지는 아직 통제 안 된 부분

정리

논문 한 줄: "의미 없는 노이즈가 정확한 방식으로 들어가면, 정보를 추가하지 않으면서도 모델 성능을 개선할 수 있다."

이게 AI 학습 분야에서 의외로 자주 있는 패턴 같습니다. "덜 한 것이 더 한 것" 같은 역설. dropout 도 비슷한 직관이었고 (랜덤하게 뉴런을 꺼서 일반화 향상), data augmentation 의 일부 (랜덤 crop, 노이즈 추가) 도 비슷한 원리. LoPE 는 prompt 레벨에서 같은 원리를 적용한 사례로 볼 수 있어요.

저는 이 논문이 흥미로운 이유가 결과 자체보다 방법론의 단순함. 누군가가 "답이 다 틀려서 학습이 안 되네... 음... 그냥 의미 없는 라틴어를 앞에 붙여볼까?" 라고 생각해서 진짜 해봤다는 점입니다. 정말 "되니까 한다" 입니다 ㅎㅎ

원본 글 (좋은 요약 있음): https://dev.to/ww-w-ai/lorem-ipsum-makes-llms-smarter-no-seriously-1j8l
논문 원본: https://arxiv.org/abs/2605.05566
코드: https://github.com/shrango/LoPE

출처

논문: Huang, Huang, Li, Cai, Yang, Huang. "Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration" (arXiv:2605.05566, 2026-05-07)
본 글의 모든 수치 및 인용은 논문 본문 (sections 1-5) + 첨부 데이터에서 추출
dev.to 원본 글은 논문 핵심을 정확하게 요약하고 있어서 참고

간단한 라틴어 문장으로 LLM 수학 추론이 +22% 좋아진다는 논문

문제 - GRPO 의 "zero-advantage" 함정

기존 풀이 - 더 많이 샘플링하기

LoPE 의 아이디어 - 의미 없는 노이즈로 출력 분포를 흔들기

작동 방식

결과 - 진짜로 작동함(!?)

가장 강한 결과 - "LoPE 만 풀 수 있었던 50 문제"

왜 Latin 만 작동하는가

직관적으로 이해하면

의미 있는 포인트 세 가지

신뢰도와 한계

정리

출처

왜 구글이 점점 더 싫어지는가 - 직관이 데이터로 확인된 영역

OpenClaw 토큰을 왜 그렇게 빨리 태우는지 - 안에서 뭘 하길래

문제 - GRPO 의 "zero-advantage" 함정

기존 풀이 - 더 많이 샘플링하기

LoPE 의 아이디어 - 의미 없는 노이즈로 출력 분포를 흔들기

작동 방식

결과 - 진짜로 작동함(!?)

가장 강한 결과 - "LoPE 만 풀 수 있었던 50 문제"

왜 Latin 만 작동하는가

직관적으로 이해하면

의미 있는 포인트 세 가지

신뢰도와 한계

정리

출처

왜 구글이 점점 더 싫어지는가 - 직관이 데이터로 확인된 영역

OpenClaw 토큰을 왜 그렇게 빨리 태우는지 - 안에서 뭘 하길래

You might also like...