2025 딥러닝/논문 리뷰

[논문 리뷰] LIMO: Less is More for Reasoning (COLM 2025)

딩딩딩2 2025. 8. 23. 21:47

방법론의 목적

  • 복잡한 추론능력을 적은 양의 데이터로도 효과적으로 유도하기 위함
  • Contribution
    • 사전 학습된 LLM의 지식 내재화 수준을 최대화
    • 복잡한 문제 해결을 유도할 수 있는 고품질 reasoning 예시를 최소한으로 설계
    • 대규모 데이터 없이도 경쟁력 있는 추론 성능을 실현할 수 있음을 보여줌

⇒ 기존의 “데이터 양 = 성능”이라는 등식을 깨고, ”모델이 이미 알고있는 지식을 효율적으로 끌어내는 방향”으로 학습 방법 재정의

 

 

주목해야할 점

  1. 고품질 데이터 구성 전략 (Curated Dataset Design)
    • 817개의 문제만 사용했지만, 이 문제들은 모두 고도로 선별된 것
      • 다양한 사고 경로와 지식 통합을 유도할 수 있고,
      • 정확한 reasoning chain을 동반하며,
      • 교육적 가치와 일반화 가능성을 지닌 문제들임
    • 선별 방식
      • 대량 문제 후보군에서 기초적인 필터링 → 상위 llm기반 난이도/다양성 평가→ 전문가 수기 선택
      • 결국 모델이 “복잡한 사고”를 유도받는 최적 문제 구조 학습
  2. 사고과정 중심의 학습 방식 (Chain-of-Thought 중심 학습)
    • 문제 자체만 주는 것이 아니라, 정확하고 체계적인 해결과정 함께 제공
    • chain-of-thought는 다음 특성을 충족
      • 논리적 일관성, 핵심 개념 명시, 개념 간 연결 메우기
      • 검증가능성과 정답 신뢰도 확보
    • 이로써 모델은 정답만이 아니라 “생각하는 법”을 학습하게 됨
  3. 사전 학습된 LLM의 지식 활용 극대화
    • 기존 llm(Qwen2.5-32B-Instruct)은 이미 수학 지식을 상당히 내재
    • LIMO는 이 지식을 유도하는 데 집중
      • 모델이 문제를 마주했을때, 내부에 이미 학습된 구조화된 지식 활성화
  4. 최소 데이터 대비 최대 성능
    • 817개 샘플만으로도 MATH, AIME등 복잡한 벤치마크에서 SOTA성능
    • 100배 더 큰 데이터셋을 사용한 모델보다도 우수한 성과

 

방법론

  • Traninig protocol
    • 모델: Qwen2.5-32B-Instruct (pretrain 모델)
    • fine tuning전략
      • LIMO 817개 문제에만 fine tuning
      • DeepSpeed ZeRO-3: 메모리 효율성 강화
      • FlashAttention-2: 긴 시퀀스 처리 속도 및 정확도 향상
      • 최대 입력길이: 16,384 토큰
  • Evaluation Framework
    • 평가목적: 내부 성능+분포 외 일반화 능력 동시 확인
    • 벤치마크
      • 내부: AIME24, MATH500, AMC23
      • 외부: OlympiadBench, CHMath, GradeSchool, GPQA 등
    • 언어 일반화 실험: ex. 중국어 수학 문제도 포함
    • 평가지표 : pass@1 — 첫 시도에서 정답률
  • 비교 실험 (Baselines)
    • 모델 비교: OpenAI-o1-preview, QwQ-32B, Qwen2.5-32B (비 fine-tuned)
    • 데이터셋 비교:
      • LIMO(817개) vs NuminaMath(100k), OpenThoughts(114k)
      • 실제 성능은 LIMO > 두 대규모 데이터셋
        • 이유: 정제된 데이터, 문제의 구조화, chain-of-thought 유도력 차이

 

결론

LIMO의 방법론은 단순한 "소량 학습"이 아니라, 다음과 같은 근본적 전환을 함

  • 학습량보다 지식 유도력 중심으로 모델 활용 구조를 바꿈
  • 복잡한 추론은 모델에 이미 존재하는 지식을 어떻게 활성화할 것인가의 문제임을 입증
  • 정제된 문제 + 일관된 추론 경로 + 계산 자원 확보 → 최소한의 fine-tuning으로 최대 성능 달성

👉 결국 “적은 것이 더 많은 추론(Less-Is-More for Reasoning)” 이라는 원칙이 실험적으로 뒷받침