May 03, 2025
Gemma 3 / Qwen 3
Gemma 3 Technical Report
-
모델 크기는 1B, 4B, 12B, 27B이고, 1B 제외한 나머지 모델은 SigLIP 비전 타워를 붙여서 VLM 형태로 공개
-
Gemma 2에 있던 Logit soft-capping을 제거하는 대신 QK-norm을 사용
-
Gemma 2에서 추론 속도, 학습 속도 모두 손해본게 이만저만이 아니라 늦게라도 사라진게 다행
-
-
Local attention과 global attention을 5:1 비율로 섞어서 사용
-
토크나이저는 Gemini 2.0 토크나이저를 사용 (SentencePiece)
-
학습은 Gemini 2.0 모델을 teacher로 사용하는 knowledge distillation 방식
-
학습 데이터는 27B 모델에 14T 토큰 사용, 12B 모델에 12T 토큰 사용, 4B 모델에 4T 토큰 사용, 1B 모델에 2T 토큰 사용
-
학습 완료된 이후에 QAT (Quantization Aware Training) 적용한 체크포인트도 공개
-
QAT는 5000 step 동안 진행하고, non-quantized와 quantized의 probability distribution을 맞추는 방식
-
-
Post-training은 knowledge distillation + RL 방식으로 진행
-
Teacher 모델이 Gemini 2.0인지는 기재되어있진 않음 (a large IT teacher)
-
RL objective는 helpfulness, math, coding, reasoning, instruction-following, multilingual abilities에 초점을 맞춤
-
Human feedback으로 학습한 reward model과 code execution을 사용
-
-
Qwen3: Think Deeper, Act Faster
-
Dense 모델은 0.6B, 1.7B, 4B, 8B, 14B, 32B / MoE 모델은 30B-A3B, 235B-A22B
-
Dense 32B, MoE 235B-A22B는 pre-trained checkpoint 없이 instruct-tuned checkpoint만 공개
-
비슷한 성능의 고급 모델 만들기 좋은 재료는 주지 않으려는 듯
-
-
-
여러 메트릭에서 굉장히 우수한 성능을 보임
-
MoE 235B-A22B는 DeepSeek-R1 보다 낫고 Gemini 2.5 Pro에 살짝 밀리는 모습
-
Dense 32B는 DeepSeek-R1과 메트릭마다 엎치락 뒤치락 하는 모습
-
MoE 30B-A3B가 DeepSeek-V3과 Qwen2.5-72B-Instruct를 여러 메트릭에서 앞서는 결과를 보임
-
메트릭 해킹이 살짝 의심되는 부분도 있음 (Qwen 3 32B > Qwen 2.5 72B …?)
-
-
Hybrid Thinking 이란 이름으로 thinking process를 조절할 수 있는 기능을 제공
-
Non-thinking 모드에서는
<think></think>
태그를 모델 응답 앞부분에 넣어서 thinking을 넘어가도록 세팅하는 구조
-
-
Qwen 2/2.5 대비 지원하는 언어가 매우 늘어남
-
Cohere도 그렇고, 지나치게 multilingual한 모델은 체감 성능이 좋지 못했던 경우가 많았어서 실사용에 걱정이 되긴 함
-
-
학습은 3단계로 진행
-
1단계: 4K 길이 데이터를 30T 토큰 분량을 학습
-
2단계: Knowledge-intensive (STEM, coding, and reasoning) 데이터 비중을 늘려 학습 (5T 토큰)
-
3단계: 32K 길이 고퀄리티 데이터로 추가 학습
-
-
Post-training은 모델마다 다르게 진행
-
MoE 235B-A22B와 Dense 32B는 4단계로 나눠 진행
-
Long-CoT Cold Start (SFT) → Reasoning RL → Thinking Mode Fusion → General RL
-
-
이외 모델은 MoE 235B-A22B, Dense 32B 모델을 teacher로 사용해서 knowledge distillation 방식으로 진행
-
단상
-
당연하지만 Google도 Alibaba도 자신들의 베스트 모델은 공개하지 않음
-
Logit distillation은 이제 sLM 만들 때 거의 표준처럼 사용되는 기법이 되었음
-
Gemma 3, Qwen 3 모두 RL에 reward model을 적극적으로 사용하고 의존해서 post-training을 진행
-
괜찮은 reward model을 갖는게 중요해진 것 같다. 리소스가 적은 상황에서는 어떻게 해야할까?
-