OpenAI의 최신 모델 제품군 GPT-5.2(gpt-5.2-instant, gpt-5.2-thinking)에 대한 종합 분석 문서입니다.
- 서론 (Introduction)
- 핵심 학습 방법론: 추론(reasoning) 능력 강화
- 강화 학습을 통해 모델이 응답 전 내부적으로 긴 사고의 연쇄(chain of thought) 생성
- 스스로 사고 과정을 다듬고, 다양한 전략 시도, 실수 인식 능력 학습
- OpenAI의 안전 정책과 가이드라인 준수 강화
- 기준 모델 안전성 평가 (Baseline Model Safety Evaluations)
2.1 유해 콘텐츠 방어 (not_unsafe 점수, 높을수록 좋음)
- illicit: 0.856 → 0.953
- harassment: 0.749 → 0.859
- hate: 0.824 → 0.923
- self-harm: 0.937 → 0.963
- mental health: 0.684 → 0.915 (대폭 향상)
- emotional reliance: 0.785 → 0.955 (대폭 향상)
2.2 프롬프트 인젝션 방어 성능