你的怀疑是对的!LLM作为Judge,既无效又不可靠,终于有论文向LLJ开炮了 让LMM作为Judge,从对模型的性能评估到数据标注再到模型的训练和对齐流程,让AI来评判AI,这种模式几乎已经是当前学术界和工业界的常态。我之前也介绍过这方面的研究,但没想到打脸来得这么快!之前也有朋友曾质疑过 LLM as judge。… 赞 参与讨论{{item.data.meta.comment}}条讨论
你的怀疑是对的!LLM作为Judge,既无效又不可靠,终于有论文向LLJ开炮了 让LMM作为Judge,从对模型的性能评估到数据标注再到模型的训练和对齐流程,让AI来评判AI,这种模式几乎已经是当前学术界和工业界的常态。我之前也介绍过这方面的研究,但没想到打脸来得这么快!之前也有朋友曾质疑过 LLM as judge。… 赞 参与讨论{{item.data.meta.comment}}条讨论
作者: 你的怀疑是对的!LLM作为Judge,既无效又不可靠,终于有论文向LLJ开炮了 让LMM作为Judge,从对模型的性能评估到数据标注再到模型的训练和对齐流程,让AI来评判AI,这种模式几乎已经是当前学术界和工业界的常态。我之前也介绍过这方面的研究,但没想到打脸来得这么快!之前也有朋友曾质疑过 LLM as judge。… 赞 参与讨论{{item.data.meta.comment}}条讨论
你的怀疑是对的!LLM作为Judge,既无效又不可靠,终于有论文向LLJ开炮了 让LMM作为Judge,从对模型的性能评估到数据标注再到模型的训练和对齐流程,让AI来评判AI,这种模式几乎已经是当前学术界和工业界的常态。我之前也介绍过这方面的研究,但没想到打脸来得这么快!之前也有朋友曾质疑过 LLM as judge。… 赞 参与讨论{{item.data.meta.comment}}条讨论