GPT-5.2 기술 백서: 성능, 안전성 및 선제적 대비 프레임워크 종합 분석 | Notion

OpenAI의 최신 모델 제품군 GPT-5.2(gpt-5.2-instant, gpt-5.2-thinking)에 대한 종합 분석 문서입니다.

서론 (Introduction)

핵심 학습 방법론: 추론(reasoning) 능력 강화
강화 학습을 통해 모델이 응답 전 내부적으로 긴 사고의 연쇄(chain of thought) 생성
스스로 사고 과정을 다듬고, 다양한 전략 시도, 실수 인식 능력 학습
OpenAI의 안전 정책과 가이드라인 준수 강화

기준 모델 안전성 평가 (Baseline Model Safety Evaluations)

2.1 유해 콘텐츠 방어 (not_unsafe 점수, 높을수록 좋음)

illicit: 0.856 → 0.953
harassment: 0.749 → 0.859
hate: 0.824 → 0.923
self-harm: 0.937 → 0.963
mental health: 0.684 → 0.915 (대폭 향상)
emotional reliance: 0.785 → 0.955 (대폭 향상)

2.2 프롬프트 인젝션 방어 성능