최근 오픈소스 LLM 리더보드 두 곳을 말해보고, 평가 방법 차이와 장단점을 비교해 주세요
<aside>
💡
- 출처 다양성(인지)
- 한 곳(HF)만 아는 게 아니라, 2곳 이상(예: Hugging Face, LMSYS, AlpacaEval 등)을 언급하면 가산점.
- “다양한 순위 시스템이 있다는 걸 안다 → 최신 동향을 넓게 본다”는 신호.
- 지표 이해(해석)
- MMLU, GSM8K 같은 지표가 무엇을 측정하는지 알고,
- 동시에 “이 지표는 이런 한계가 있다”까지 말하면 좋음.
- 예: “MMLU는 지식 테스트에는 좋지만, 대화 품질을 반영하진 못합니다.”
- 실전 고려(적용)
- 순위만 보는 게 아니라, 라이선스, 속도, 비용, 컨텍스트 길이, 안전성까지 실제 서비스 조건에 맞춰 평가.
- 예: “이 모델은 순위는 높지만 상용 불가 라이선스라 우리 서비스엔 못 씁니다.”
- 비판적 사고
- “이 결과가 100% 믿을 만한가?”를 따져보는 태도.
- 데이터 누수, 벤치마크만 잘 맞춘 모델, 특정 질문만 잘하는 ‘체리픽’ 위험 등을 의심.
- 실험 설계력
- “그럼 우리 서비스에 맞게 직접 테스트하자”라고 제안 가능해야 함.
- 가설 세우기 → 평가 지표(정확성, 근거 정합성, 응답 속도 등) → 테스트 절차 설계.
</aside>