May 03, 2025

Gemma 3 / Qwen 3

Gemma 3 Technical Report

모델 크기는 1B, 4B, 12B, 27B이고, 1B 제외한 나머지 모델은 SigLIP 비전 타워를 붙여서 VLM 형태로 공개
Gemma 2에 있던 Logit soft-capping을 제거하는 대신 QK-norm을 사용
- Gemma 2에서 추론 속도, 학습 속도 모두 손해본게 이만저만이 아니라 늦게라도 사라진게 다행
Local attention과 global attention을 5:1 비율로 섞어서 사용
토크나이저는 Gemini 2.0 토크나이저를 사용 (SentencePiece)
학습은 Gemini 2.0 모델을 teacher로 사용하는 knowledge distillation 방식
학습 데이터는 27B 모델에 14T 토큰 사용, 12B 모델에 12T 토큰 사용, 4B 모델에 4T 토큰 사용, 1B 모델에 2T 토큰 사용
학습 완료된 이후에 QAT (Quantization Aware Training) 적용한 체크포인트도 공개
- QAT는 5000 step 동안 진행하고, non-quantized와 quantized의 probability distribution을 맞추는 방식
Post-training은 knowledge distillation + RL 방식으로 진행
- Teacher 모델이 Gemini 2.0인지는 기재되어있진 않음 (a large IT teacher)
- RL objective는 helpfulness, math, coding, reasoning, instruction-following, multilingual abilities에 초점을 맞춤
  - Human feedback으로 학습한 reward model과 code execution을 사용

Qwen3: Think Deeper, Act Faster

Dense 모델은 0.6B, 1.7B, 4B, 8B, 14B, 32B / MoE 모델은 30B-A3B, 235B-A22B
- Dense 32B, MoE 235B-A22B는 pre-trained checkpoint 없이 instruct-tuned checkpoint만 공개
  - 비슷한 성능의 고급 모델 만들기 좋은 재료는 주지 않으려는 듯
여러 메트릭에서 굉장히 우수한 성능을 보임
- MoE 235B-A22B는 DeepSeek-R1 보다 낫고 Gemini 2.5 Pro에 살짝 밀리는 모습
- Dense 32B는 DeepSeek-R1과 메트릭마다 엎치락 뒤치락 하는 모습
- MoE 30B-A3B가 DeepSeek-V3과 Qwen2.5-72B-Instruct를 여러 메트릭에서 앞서는 결과를 보임
- 메트릭 해킹이 살짝 의심되는 부분도 있음 (Qwen 3 32B > Qwen 2.5 72B …?)
Hybrid Thinking 이란 이름으로 thinking process를 조절할 수 있는 기능을 제공
- Non-thinking 모드에서는 <think></think> 태그를 모델 응답 앞부분에 넣어서 thinking을 넘어가도록 세팅하는 구조
Qwen 2/2.5 대비 지원하는 언어가 매우 늘어남
- Cohere도 그렇고, 지나치게 multilingual한 모델은 체감 성능이 좋지 못했던 경우가 많았어서 실사용에 걱정이 되긴 함
학습은 3단계로 진행
- 1단계: 4K 길이 데이터를 30T 토큰 분량을 학습
- 2단계: Knowledge-intensive (STEM, coding, and reasoning) 데이터 비중을 늘려 학습 (5T 토큰)
- 3단계: 32K 길이 고퀄리티 데이터로 추가 학습
Post-training은 모델마다 다르게 진행
- MoE 235B-A22B와 Dense 32B는 4단계로 나눠 진행
  - Long-CoT Cold Start (SFT) → Reasoning RL → Thinking Mode Fusion → General RL
- 이외 모델은 MoE 235B-A22B, Dense 32B 모델을 teacher로 사용해서 knowledge distillation 방식으로 진행

단상

당연하지만 Google도 Alibaba도 자신들의 베스트 모델은 공개하지 않음
Logit distillation은 이제 sLM 만들 때 거의 표준처럼 사용되는 기법이 되었음
Gemma 3, Qwen 3 모두 RL에 reward model을 적극적으로 사용하고 의존해서 post-training을 진행
- 괜찮은 reward model을 갖는게 중요해진 것 같다. 리소스가 적은 상황에서는 어떻게 해야할까?