GLM-4-7B-Flash 모델 Context 설정 가이드 – My AI Smarteasy 사용자 정의 코파일럿 AI 에이전트 – 일타 저스틴
0 Comment
GLM-4-7B-Flash 모델 Context 설정 가이드
1. GLM-4-7B-Flash 기본 사양
|
1 2 3 4 |
모델 크기: 7B 파라미터 기본 Context: 128K 토큰 (131,072) 권장 RAM: 16GB+ (GPU 권장) |
2. Windows 콘솔 실행 명령어
|
1 2 3 4 5 6 7 8 9 |
# 1. 모델 다운로드 (최대 128K) ollama pull glm-4-7b-flash # 2. 권장 Context 설정 실행 ollama run glm-4-7b-flash --num_ctx 32768 # 3. 최대 Context (고사양 PC) ollama run glm-4-7b-flash --num_ctx 131072 |
3. Context 길이별 권장 설정
| Context 크기 | VRAM/RAM 요구 | 사용 사례 | 명령어 |
|---|---|---|---|
| 8K (8192) | 8GB | 빠른 응답, 일반 대화 | --num_ctx 8192 |
| 32K | 12GB | 긴 대화, 문서 분석 | --num_ctx 32768 🎯 최적 |
| 64K | 16GB | 코드베이스, 긴 문서 | --num_ctx 65536 |
| 128K | 24GB+ | 최대 컨텍스트 | --num_ctx 131072 |
4. 최적 실행 명령어 (권장)
|
1 2 3 4 5 6 |
# GPU 최적화 + 32K Context (대부분 PC 적합) ollama run glm-4-7b-flash --num_ctx 32768 --num_gpu 35 --batch_size 512 # CPU 전용 (느림) ollama run glm-4-7b-flash --num_ctx 8192 --num_gpu 0 |
5. Modelfile로 고정 설정
|
1 2 3 |
# 32K Context 고정 Modelfile notepad glm4-modelfile.txt |
|
1 2 3 4 5 |
FROM glm-4-7b-flash PARAMETER num_ctx 32768 PARAMETER num_predict 8192 PARAMETER temperature 0.7 |
|
1 2 3 |
ollama create glm4-32k -f glm4-modelfile.txt ollama run glm4-32k |
6. 성능 테스트
|
1 2 3 |
# Context 길이 테스트 ollama run glm-4-7b-flash --num_ctx 32768 "이 모델의 context 길이는 몇 토큰인가요?" |
7. 문제 해결
|
1 2 3 4 |
❌ "out of memory" → num_ctx 8192로 줄이기 ❌ 응답 느림 → num_ctx 8192 + batch_size 256 ✅ 목표: 32K context에서 5-10초 응답 |
🎯 최종 권장: --num_ctx 32768 (속도/용량 균형 완벽)
