[논문 리뷰] LIMO: Less is More for Reasoning (COLM 2025)

2025 딥러닝/논문 리뷰

딩딩딩2 2025. 8. 23. 21:47

방법론의 목적

복잡한 추론능력을 적은 양의 데이터로도 효과적으로 유도하기 위함
Contribution
- 사전 학습된 LLM의 지식 내재화 수준을 최대화
- 복잡한 문제 해결을 유도할 수 있는 고품질 reasoning 예시를 최소한으로 설계
- 대규모 데이터 없이도 경쟁력 있는 추론 성능을 실현할 수 있음을 보여줌

⇒ 기존의 “데이터 양 = 성능”이라는 등식을 깨고, ”모델이 이미 알고있는 지식을 효율적으로 끌어내는 방향”으로 학습 방법 재정의

주목해야할 점

고품질 데이터 구성 전략 (Curated Dataset Design)
- 817개의 문제만 사용했지만, 이 문제들은 모두 고도로 선별된 것
  - 다양한 사고 경로와 지식 통합을 유도할 수 있고,
  - 정확한 reasoning chain을 동반하며,
  - 교육적 가치와 일반화 가능성을 지닌 문제들임
- 선별 방식
  - 대량 문제 후보군에서 기초적인 필터링 → 상위 llm기반 난이도/다양성 평가→ 전문가 수기 선택
  - 결국 모델이 “복잡한 사고”를 유도받는 최적 문제 구조 학습
사고과정 중심의 학습 방식 (Chain-of-Thought 중심 학습)
- 문제 자체만 주는 것이 아니라, 정확하고 체계적인 해결과정 함께 제공
- chain-of-thought는 다음 특성을 충족
  - 논리적 일관성, 핵심 개념 명시, 개념 간 연결 메우기
  - 검증가능성과 정답 신뢰도 확보
- 이로써 모델은 정답만이 아니라 “생각하는 법”을 학습하게 됨
사전 학습된 LLM의 지식 활용 극대화
- 기존 llm(Qwen2.5-32B-Instruct)은 이미 수학 지식을 상당히 내재
- LIMO는 이 지식을 유도하는 데 집중
  - 모델이 문제를 마주했을때, 내부에 이미 학습된 구조화된 지식 활성화
최소 데이터 대비 최대 성능
- 817개 샘플만으로도 MATH, AIME등 복잡한 벤치마크에서 SOTA성능
- 100배 더 큰 데이터셋을 사용한 모델보다도 우수한 성과

방법론

Traninig protocol
- 모델: Qwen2.5-32B-Instruct (pretrain 모델)
- fine tuning전략
  - LIMO 817개 문제에만 fine tuning
  - DeepSpeed ZeRO-3: 메모리 효율성 강화
  - FlashAttention-2: 긴 시퀀스 처리 속도 및 정확도 향상
  - 최대 입력길이: 16,384 토큰
Evaluation Framework
- 평가목적: 내부 성능+분포 외 일반화 능력 동시 확인
- 벤치마크
  - 내부: AIME24, MATH500, AMC23
  - 외부: OlympiadBench, CHMath, GradeSchool, GPQA 등
- 언어 일반화 실험: ex. 중국어 수학 문제도 포함
- 평가지표 : pass@1 — 첫 시도에서 정답률
비교 실험 (Baselines)
- 모델 비교: OpenAI-o1-preview, QwQ-32B, Qwen2.5-32B (비 fine-tuned)
- 데이터셋 비교:
  - LIMO(817개) vs NuminaMath(100k), OpenThoughts(114k)
  - 실제 성능은 LIMO > 두 대규모 데이터셋
    - 이유: 정제된 데이터, 문제의 구조화, chain-of-thought 유도력 차이

결론

LIMO의 방법론은 단순한 "소량 학습"이 아니라, 다음과 같은 근본적 전환을 함

👉 결국 “적은 것이 더 많은 추론(Less-Is-More for Reasoning)” 이라는 원칙이 실험적으로 뒷받침

A Survey on Test-Time Scaling in Large Language Models: What, How, Where, and How Well (0)	2025.08.23
[논문 리뷰] AUGCO: Augmentation Consistency-guided Self-training for Source-free Domain Adaptive Semantic Segmentation (0)	2025.08.23
[논문 리뷰] Tent: Fully Test-time Adaptation by Entropy Minimization (ICLR 2021) (2)	2025.08.23
[논문 리뷰] s1: Simple test-time scaling (arXiv 2025) (0)	2025.05.17
[논문 리뷰] Parameter-free Online Test-time Adaptation (CVPR 2022) (0)	2025.03.12

test-time adaptation, test-time scaling, anomaly detection, forecasting, test time adaptation, time series forecasting, LLM, Sleep Quality, 딥러닝 개념, Time Series, time-series, distribution shift, unsupervised anomaly detection, multivariate, domain adaptation, 딥러닝, source-free, EECS 498-007 / 598-005, 시계열 이상탐지, Video,

딩딩딩2