Rank | Yifei Song's Website

Ranking Methods Pointwise Listwise Pairwise Setwise Pointwise 最常见的automatic metric LLM-as-a-Judge: 输入单个文本，输出评分 Relevance generation Query generation Pros: Token effiecient and scalable Cons: struggle to capture comparative information across candidates Listwise 一次将多个candidates输入prompt中，让LLM对它们进行排序。 Pros: 完美适配目前LLM context windows size增大的趋势 self-attention机制可以更为有效捕捉candidates之间的关系 Cons: Token-consuming (especially for long document/text tasks) Positional bias!! (如果做这个课题，必须要解决和讨论到这个) Related Work RankGPT LRL TourRank ListT5 Pairwise 感觉有时候定义有点vague，explicit pairwise应该指的是输入就是(Candidate A, Candidate B)，然后输出应该是两者比较的一个得分。但是有的时候，我们也可以用例如RankNet这样的方法，变相用pairwise的方法来训练模型，输入输出看起来还是pointwise的。但是对于LLM-as-a-Judge来说，pairwise应该指的就是前者。在One inferecne的prompt中注入两个candidates，然后LLM来判断。目前来看，这是个很不错的方法，有很多的研究集中在怎么把pairwise results 转换成listwise，相关工作有PRP-Graph (2024), REALM (2025) 这种。当然有很直接的multi-round bubble sort. Setwise 另一种很有意思的方法，首先对candidate list进行分割，然后对于每个集合选取最好的top-k，然后合并起来再筛选top-k。有效缓解了listwise长序列的问题，并且比pairwise看起来更高效。 ...