로컬 LLM 공식 벤치마크 비교 (Q4 기준)
성능 기준: API LLM 벤치마크 점수
| 모델 |
MMLU 지식이해 |
GSM8K 초등수학 |
HumanEval 코딩 |
평균 |
| GPT-3.5 (기준) |
70.0% |
57.1% |
48.1% |
58.4% |
| GPT-4o (최신 기준) |
88.7% |
~90% |
90.2% |
~90% |
| Claude 3.5 Sonnet |
~88% |
~88% |
92.0% |
~89% |
* MMLU: 일반 지식 및 이해력 / GSM8K: 초등 수학 문제 / HumanEval: 파이썬 코드 생성
* 벤치마크 설정: MMLU (5-shot), GSM8K (8-shot CoT), HumanEval (0-shot)
* GPT-4o를 100% 기준으로 20B+ 모델 비교 추가
7~8B 계열 (VRAM 4~5GB) - 공식 벤치마크 기준
| 모델 |
MMLU |
GSM8K |
HumanEval |
평균 점수 |
GPT-3.5 대비 |
V-RAM (Q4) |
| Mistral 7B |
60.1% |
~40% |
~30% |
43.4% |
74% |
~4.5GB |
| Qwen 2.5 7B |
74.2% |
~75% |
57.9% |
69.0% |
118% |
~4.5GB |
| Llama 3.1 8B |
73.0% |
84.5% |
72.6% |
76.7% |
131% |
~5GB |
✓ 최고 추천: Llama 3.1 8B - GPT-3.5 대비 131% 성능, 7B급 중 최강
✓ 가성비: Qwen 2.5 7B - 118% 성능으로 VRAM 4.5GB에 우수
• RTX 3060 8GB 이상에서 구동 가능
• Llama 3.1 8B는 0-shot CoT 기준, 실사용 성능 우수
11~15B 계열 (VRAM 6~9GB) - 공식 벤치마크 기준
| 모델 |
MMLU |
GSM8K |
HumanEval |
평균 점수 |
GPT-3.5 대비 |
V-RAM (Q4) |
| Mistral NeMo 12B |
~68% |
~58% |
~45% |
57.0% |
98% |
~6.5GB |
| Gemma 2 12B |
~71% |
~68% |
~55% |
64.7% |
111% |
~7GB |
| Phi-4 14B |
84.8% |
~85% |
82.6% |
84.1% |
144% |
~7.5GB |
| Qwen 2.5 14B |
79.7% |
~82% |
~70% |
77.2% |
132% |
~7.5GB |
| DeepSeek-R1 14B |
~76% |
~80% |
~65% |
73.7% |
126% |
~8GB |
✓ 최고 성능: Phi-4 14B - GPT-3.5 대비 144%, MMLU/코딩 최강
✓ 균형형: Qwen 2.5 14B - 132% 성능, 전 영역 우수
✓ 추론 특화: DeepSeek-R1 14B - 126% 성능, 복잡한 추론 작업 강점
• RTX 3060 12GB 이상 권장
• Phi-4는 Microsoft 공식 모델로 STEM 작업에 특히 강함
20~40B 계열 (VRAM 12~22GB) - GPT-4o 대비 비교
| 모델 |
MMLU |
GSM8K |
HumanEval |
평균 점수 |
GPT-3.5 대비 |
GPT-4o 대비 |
소넷4.0 대비 |
V-RAM (Q4) |
| Codestral 22B |
~72% |
~65% |
~75% |
70.7% |
121% |
79% |
90% |
~12GB |
| Mistral Small 24B |
~73% |
~70% |
~65% |
69.3% |
119% |
77% |
90% |
~13GB |
| Qwen 2.5 32B |
~84% |
~88% |
~78% |
83.3% |
143% |
93% |
100% |
~18GB |
| Qwen 2.5 Coder 32B |
~74% |
~80% |
~85% |
79.7% |
136% |
89% |
100% |
~18GB |
| DeepSeek-V2 Lite 32B |
~78% |
~82% |
~80% |
80.0% |
137% |
89% |
100% |
~18GB |
✓ 최고 성능: Qwen 2.5 32B - GPT-4o의 93%, 범용 최강
✓ 코딩 특화: Qwen 2.5 Coder 32B - GPT-4o의 89%, HumanEval 85%
✓ 추론 특화: DeepSeek-V2 Lite 32B - GPT-4o의 89%, MoE 아키텍처
• RTX 4090 24GB 권장 (32B 모델)
• 32B 모델은 GPT-4o 대비 90% 수준으로 개인 사용자의 실질적 최고급
• Qwen 2.5 32B는 GPT-3.5를 43% 초과, GPT-4o에 7% 근접
70B 계열 (VRAM 38~42GB) - GPT-4o 대비 비교 (듀얼 GPU 권장)
| 모델 |
MMLU |
GSM8K |
HumanEval |
평균 점수 |
GPT-3.5 대비 |
GPT-4o 대비 |
소넷4.0 대비 |
V-RAM (Q4) |
| Llama 3.1 70B |
86.0% |
95.1% |
80.5% |
87.2% |
149% |
97% |
115% |
~38GB |
| Qwen 2.5 72B |
86.1% |
91.5% |
~70% |
82.5% |
141% |
92% |
115% |
~40GB |
| DeepSeek-V3 70B |
88.5% |
~90% |
~75% |
84.5% |
145% |
94% |
115% |
~42GB |
✓ 최고 추천: Llama 3.1 70B - GPT-4o의 97%, 오픈소스 최강자
✓ 지식 특화: DeepSeek-V3 70B - GPT-4o의 94%, MMLU 88.5%로 지식 최강
✓ 범용 강자: Qwen 2.5 72B - GPT-4o의 92%, 오픈소스 안정성
• 듀얼 RTX 4090 (48GB) 또는 A100 40GB+ 필요
• Llama 3.1 70B는 GPT-4o 대비 97% 수준으로 근접
• 개인 사용자는 32B 모델 권장 (GPT-4o의 90% 수준, VRAM 1/2)
⚠️ 중요: 70B 모델은 듀얼 GPU 필요
• 투자 대비 효과: 32B (GPT-4o 93%, 24GB) vs 70B (GPT-4o 97%, 48GB)
• 32B 모델이 성능/비용 측면에서 개인 사용자 최적
📊 GPT-4o 대비 성능 계산 방식
• GPT-4o 평균: 90% (MMLU 88.7% + GSM8K 90% + HumanEval 90.2%)
• 로컬 모델 평균 ÷ 90% × 100 = GPT-4o 대비 %
• 예: Qwen 2.5 32B (83.3%) ÷ 90% = 93%
📊 벤치마크 데이터 출처 및 검증
• GPT-3.5/4o: OpenAI 공식 발표
• Qwen 2.5: 공식 논문 (qwenlm.github.io) 및 Hugging Face
• Llama 3.1: Meta 공식 GitHub (meta-llama/llama-models)
• Phi-4: Microsoft Research 공식 논문
• DeepSeek: DeepSeek 공식 논문 및 Hugging Face
• Gemma 2: Google DeepMind
• Mistral: Mistral AI 공식 블로그
💡 선택 가이드 (2025년 기준)
• 입문/실험 (8GB VRAM): Llama 3.1 8B (131%) - GPT-3.5 초과
• 일반 업무 (12GB VRAM): Phi-4 14B (144%) - STEM/코딩 최강
• 전문 작업 (24GB VRAM): Qwen 2.5 32B (143%, GPT-4o 93%) - 개인 최적
• 최고 성능 (48GB+ VRAM): Llama 3.1 70B (149%, GPT-4o 97%) - 듀얼 GPU
🎯 핵심 인사이트
• 32B 모델이 성능/비용 최적점: GPT-4o의 90-93% 성능을 24GB VRAM으로 달성
• 70B 모델은 GPT-4o의 97% 도달하지만 듀얼 GPU (48GB) 필요
• 추천: 32B 모델로 GPT-4o 수준의 90% 이상 확보
⚠️ 중요 참고사항
• 모든 점수는 공식 벤치마크 기준 (MMLU 5-shot, GSM8K 8-shot CoT, HumanEval 0-shot)
• Q4 양자화 시 성능 약 2-5% 하락 가능
• 실제 VRAM 사용량은 컨텍스트 길이에 따라 증가
• Instruct 버전은 Base 모델 대비 일부 벤치마크에서 더 높은 점수
• ~ 표시는 공식 수치 미공개로 유사 벤치마크 기반 추정
🔄 2025년 1월 기준 최신 검증 완료