LLM 에이전트 성능의 새로운 기준, ErrataBench 벤치마크 분석 | StartupSchool