欢迎来到我的中文博客!我会在这里分享一些有趣的NLP文章和思考,非常欢迎@我讨论。你可以使用下面的搜索和过滤功能来快速找到感兴趣的内容。
Fact Evaluation
Fact Evaluation Paper Reading FactScore - EMNLP 2023 Extractive Fact Decomposition for Interpretable Natural Language Inference in one Forward Pass - EMNLP 2025 FactScore Paper Link 提出了一种能计算在确定信息源的情况下,有多少的atomic facts是被支持的metric。 研究基于wikipedia biography 论文首先检测了三个商业模型(InstructGPT, ChatGPT, PerplexityAI)的FactSocre(Factual precision in Atomicity Score)。作者这里只关注了Factual Precision: 从Wikidata中筛选了183人,构建了一个wikipedia people biography数据集。 Atomic Fact Extraction: 对每一个biography,首先用InstructGPT生成atomic facts,然后用人工annotator检验。 对Fact进行人工分类:Irrelevant, Supported, Not-supported. 检测三个模型生成的biography的factscore. $$ f(y) = \frac{1}{|\mathcal{A}y|} \sum{a \in \mathcal{A}y} \mathbb{I}[a \text{ is supported by } \mathcal{C}], $$ $$ \text{FACTSCORE}(\mathcal{M}) = \mathbb{E}{x \in \mathcal{X}}[f(\mathcal{M}_x) \mid \mathcal{M}_x \text{ responds}]. $$ $\mathcal{M}_x$ responds means $M$ did not abstain from responding to the prompt x. This definition assumes the following: ...