judging llm-as-a judge with mt-bench and chatbot arena

1. 기존 벤치마크 데이터 셋의 한계 - 주로 짧은 응답을 요구하는 폐쇄형 질문에 모델을 평가하는 데 중점을 둡니다.  -  인간의 선호도가 배제되어 개방형 멀티턴으로 인간과 AI가 상호작용하는 대화를 평가하는데 적절하지 않습니다.  -  실제 서비스에서 많이 사용하게 될 챗봇모델보다 PLM모델이 득점을 많이 하게 됩니다.  -  사용자 선호도가 LLM 벤치마크 점수와 일치하는 것은 아닙니다.  -  특히 MMLU, HELM는 인간 선호도가 높은 모델을 효과적으로 구분을 할 수 없습니다.  -  출력과 참조 답변 간의 유사성을 기반으로 하는 기존 평가 지표(예: ROUGE, BLEU)는 개방형 질의문을 평가하는데 적합하지 않습니다.1.1. 기존의 벤치마크는 주로 다음 세 가지 범주로 나뉨Core-know..
Kashnep
'judging llm-as-a judge with mt-bench and chatbot arena' 태그의 글 목록