Hugging Face SLM 모델 조사 보고서

HyperCLOVAX-SEED-Text-Instruct-1.5B · 기술 분석 리포트

Hugging Face에 공개된 1B~7B 규모 Small Language Model 중 HyperCLOVA X SEED 1.5B을(를) 선택해 모델 카드·설정 파일을 분석하고, 공공·행정 업무 활용 가능성을 검토함.

수강생 소속: 세종특별자치시교육청
수강생 이름: 고진영
선택 모델명: HyperCLOVAX-SEED-Text-Instruct-1.5B
Hugging Face: https://huggingface.co/naver-hyperclovax/HyperCLOVAX-SEED-Text-Instruct-1.5B

01모델 선택 이유

공공에서 추진 중인 AI 행정혁신·업무 자동화 과제는 한국어 행정문서·공문·민원의 처리 정확도가 핵심 요구사항이다. 이 관점에서 다음 세 가지 이유로 HyperCLOVA X SEED 1.5B Instruct를 선택하였다.

한국어 SOTA 수준의 성능 · KMMLU·HAE-RAE·CLiCK·KoBEST 등 주요 한국어 벤치마크에서 Qwen2.5-1.5B-Instruct, Gemma-3-1B-it 등 동급 글로벌 모델을 일관되게 상회한다.
공공기관 친화적 라이선스 · MAU 1천만 이하 서비스에서 상업적 이용이 허용된다. 교육청 단위의 내부 시스템·민원 챗봇·문서 자동화 모두 라이선스 충돌 없이 검토 가능하다.
망분리 환경 적합 크기 · 1.5B 파라미터(약 3GB)는 단일 GPU(예: NVIDIA L4, A10)에서도 추론이 가능하여 폐쇄망 온프레미스 도입 부담이 낮다.

02모델 기본 정보

모델명	HyperCLOVAX-SEED-Text-Instruct-1.5B
개발 주체	NAVER (HyperCLOVAX Team) · 대한민국
모델 규모	약 15억 (1.5B) 파라미터
라이선스	HyperCLOVA X SEED License (월간 활성 사용자(MAU) 1천만 이하 서비스에 한해 상업적 이용 가능, 그 외에는 별도 라이선스 필요)
모델 유형	Text Generation · Instruction-tuned (Chat)

03학습 데이터와 튜닝 방식

학습 데이터 · 사전학습은 2024년 8월 이전 공개 데이터를 기반으로 하며, 한국어·영어·일본어 등 다국어 고품질 텍스트와 코드를 포함한다. NAVER가 자체 보유한 한국 문화·언어 특화 데이터셋이 함께 사용되어 한국어 표현·관용 표현·문화 맥락 처리 능력이 강화되어 있다.

튜닝 방식 · Instruction-following 능력 확보를 위한 SFT(Supervised Fine-Tuning)를 중심으로, 사용자 선호 정렬을 위한 후처리(Preference Optimization 계열)가 적용되었다. 모델 카드의 사용 예시에서 JSON 출력·일상 대화체·번역 등 복합 지시를 처리하는 결과를 확인할 수 있다.

특징 · NAVER는 동일 시리즈 내에 0.5B / 1.5B / 3B(Vision 포함) 라인업을 함께 공개하여, 파인튜닝·도메인 특화 적용을 전제로 한 "기관 맞춤형 AI" 활용을 명시적 목표로 삼고 있다.

04파라미터 및 구조적 특징

Architecture	Transformer 기반 Dense Decoder-Only 모델 (Llama 계열)
Context Length	최대 16,384 tokens (16K)
Hidden Size	약 1,920 (config.json hidden_size 참조)
Layers	약 24개 Transformer Block
Attention Heads	약 16 (Multi-head Attention)
Tokenizer	HyperCLOVA X 전용 Tokenizer (한국어 최적화 어휘 구성)

05모델 파일 구성

Hugging Face Repository에 게시된 주요 파일과 그 의미는 다음과 같다.

config.json · 모델 아키텍처 정의 파일. hidden_size, num_hidden_layers, num_attention_heads, max_position_embeddings(16384) 등이 기록되어 있어 04 섹션 표의 근거가 된다.
tokenizer.json / tokenizer_config.json · HyperCLOVA X 전용 토크나이저 사양. 한국어 형태소·조사 결합 패턴에 최적화된 어휘 사전이 포함된다.
model.safetensors · 학습된 모델 가중치(Weight). 약 3GB 수준으로 BF16/FP16 정밀도에서 배포된다. safetensors 포맷은 메모리 매핑·보안성에서 기존 .bin 대비 유리하다.
generation_config.json · 추론 시 기본 생성 파라미터(temperature, top_p, repetition_penalty 등).
special_tokens_map.json · <|endofturn|>, <|stop|> 등 대화 흐름 제어 토큰 정의.
LICENSE · HyperCLOVA X SEED 라이선스 본문(MAU 조항 포함).

06활용 가능 업무

세종시교육청을 비롯한 시·도 교육청 단위에서 즉시 검토 가능한 활용 시나리오는 다음과 같다.

공문·민원 자동 분류 및 요약 · 16K 컨텍스트 길이로 일반 공문(평균 5~10페이지) 전체 입력이 가능하다.
학교 행정 챗봇 · 학사 일정·복무·계약 규정 Q&A. 한국어 성능이 강해 질문-답변 자연스러움 확보.
RAG 기반 내부 문서 검색 · Embedding 모델과 결합해 학교운영 매뉴얼·지침 검색 자동화.
일상감사 보조 · 계약·물품 구매 문서의 검토 포인트 추출, 누락 항목 점검.
도메인 파인튜닝의 베이스 모델 · NAVER가 명시적으로 fine-tuning 목적의 SEED 모델을 표방하므로, "세종시교육청 행정 LLM"과 같은 기관 특화 모델 구축의 출발점으로 적합하다.

07한계와 주의사항

지식 기준일 · 2024년 8월 이전 데이터 기반으로 학습되어, 그 이후의 최신 정책·법령·사건은 RAG로 보완해야 한다.
라이선스 조건부 상업 이용 · MAU 1천만 이하 조건은 교육청 단위 서비스에서는 충분하나, 외부 공개 서비스로 확장 시 NAVER로부터 별도 라이선스 협의가 필요하다.
1.5B 모델의 한계 · 복잡한 다단계 추론·고난도 수학·전문 법률 해석에서는 7B 이상 모델 대비 품질 저하가 명확하다. 의사결정 지원이 아닌 보조 도구로 포지셔닝해야 한다.
환각(Hallucination) 위험 · 사실 확인이 필요한 행정 문서 생성에는 RAG·검증 절차를 반드시 결합해야 한다.

08종합 의견

HyperCLOVA X SEED 1.5B Instruct는 세종시교육청과 같은 한국 공공기관이 첫 SLM 도입을 검토할 때 가장 균형 잡힌 선택지이다. 한국어 성능·라이선스 자유도·하드웨어 요구사항의 세 축이 모두 공공 도입 기준선을 통과하는 거의 유일한 1.5B급 모델이라는 점에서 차별성이 있다.

다만 모델 자체로 완성된 솔루션은 아니며, RAG 파이프라인 + 도메인 파인튜닝과 결합해야 실질 가치가 나온다. AI 전문인재 과정에서 학습할 RAG·파인튜닝 기법을 이 모델에 적용해보는 것이 이후 회차 과제에서 자연스러운 연결고리가 된다.