Ranking
Ranking Methods Pointwise Listwise Pairwise Setwise Pointwise 最常见的automatic metric LLM-as-a-Judge: 输入单个文本,输出评分 Relevance generation Query generation Pros: Token effiecient and scalable Cons: struggle to capture comparative information across candidates Listwise 一次将多个candidates输入prompt中,让LLM对它们进行排序。 Pros: 完美适配目前LLM context windows size增大的趋势 self-attention机制可以更为有效捕捉candidates之间的关系 Cons: Token-consuming (especially for long document/text tasks) Positional bias!! (如果做这个课题,必须要解决和讨论到这个) Related Work RankGPT LRL TourRank ListT5 Pairwise 感觉有时候定义有点vague,explicit pairwise应该指的是输入就是(Candidate A, Candidate B),然后输出应该是两者比较的一个得分。但是有的时候,我们也可以用例如RankNet这样的方法,变相用pairwise的方法来训练模型,输入输出看起来还是pointwise的。 但是对于LLM-as-a-Judge来说,pairwise应该指的就是前者。在One inferecne的prompt中注入两个candidates,然后LLM来判断。 目前来看,这是个很不错的方法,有很多的研究集中在怎么把pairwise results 转换成listwise,相关工作有PRP-Graph (2024), REALM (2025) 这种。当然有很直接的multi-round bubble sort. Setwise 另一种很有意思的方法,首先对candidate list进行分割,然后对于每个集合选取最好的top-k,然后合并起来再筛选top-k。 有效缓解了listwise长序列的问题,并且比pairwise看起来更高效。 ...