k1体育3915娱乐大模型在装傻!谷歌苹果最新发现:LLM知道但不告诉你掌握知识比表现出来的多

行业资讯 小编 发布时间:2024-10-20 浏览:

  k1体育十年品牌近日,来自谷歌和苹果的研究表明:AI模型掌握的知识比表现出来的要多得多!这些真实性信息集中在特定的token中,利用这一属性可以显著提高检测LLM错误输出的能力。

  这个幻觉可以指代LLM产生的任何类型的错误:事实不准确、偏见、常识推理失败等等。

  研究人员在LLM内部表示上训练分类器,以预测与生成输出的真实性相关的各种特征。

  结果表明LLM的内部状态编码反映出的真实性信息,比以前认识到的要多得多。

  这些真实性信息集中在特定的token中,利用这一属性可以显著提高检测LLM错误输出的能力。

  虽说这种错误检测无法在数据集中泛化,但好处是,模型的内部表示可用于预测模型可能犯的错误类型,从而帮助我们制定缓解错误的策略。

  研究揭示了LLM内部编码和外部行为之间的差异:可能编码了正确的答案,却生成了不正确的答案。

  作者建议将重点从以人类为中心的幻觉解释转移到以模型为中心的视角,检查模型的中间激活。

  不同于使用RAG或者依赖更强大的LLM judge,本文工作的重点是仅依赖于模型输出的logits、softmax后的概率和隐藏状态的计算。

  假设我们可以访问LLM的内部状态(白盒),但不能访问任何外部资源(搜索引擎或其他LLM)。

  建立一个数据集D,由N个问题标签对组成,对于每个问题,提示模型生成响应,从而得到一组预测答案。

  接下来,比较LLM生成的回答与正确答案,从而构建错误检测数据集(这一部可由AI代劳)。

  测量ROC曲线下面积以评估错误检测器,这能够反映模型在多个阈值中区分阳性和阴性情况的能力,平衡灵敏度(真阳性率)和特异性(假阳性率)。

  Majority:始终预测训练数据中最频繁的标签。 聚合概率/logits:从之前的研究中选取几种方法,包括计算这些值的最小值、最大值或平均值。 P(True):通过提示要求LLM评估其生成的正确性时。 Probing:在模型的中间激活上训练一个小分类器,以预测已处理文本的特征,这里使用线性探测分类器对静态token进行错误检测。

  研究者通常只关注最后生成的token或取平均值,然而,由于LLM一般会生成长格式响应,这种做法可能会错过重要的部分。

  本文中,作者关注表示确切答案的token(EXACT ANSWER TOKENS),它代表了生成的响应中最有意义的部分。

  实践中,作者使用设置好的instruct模型代劳,来提取确切答案。之后,通过简单的搜索过程确定对应的token。

  重点关注4个特定token:第一个确切答案的token及其前一个token、最后一个确切答案token及其后一个token。

  作者广泛分析了层和token选择对分类器的激活提取的影响,通过系统地探测模型的所有层,从最后一个问题token开始,一直到最终生成的token。

  上图显示了Mistral-7b-Struct中各个层和token关于探测的AUC指标。虽然一些数据集似乎更容易进行错误预测,但所有数据集都表现出一致的真实性编码模式,中后期层通常会产生最有效的探测结果。

  通过比较使用和不使用EXACT ANSWER TOKENS的性能,来评估各种错误检测方法,上表展示了三个代表性数据集上的AUC。

  上图(a)显示了Mistral-7b-instruct的泛化结果,大于0.5的值表示泛化成功。乍一看,大多数热图值超过了0.5,似乎任务之间存在一定程度的泛化。

  然而事实上,大部分性能可以通过基于logit的真度检测来实现。图(b)显示了从最强的基于Logit的基线(Logit-min-exact)中减去结果后的相同热图。

  这表示检测器的泛化程度很少超过仅依赖Logit所能达到的效果。所以,泛化并不源于真实性的内部编码,而是反映了已经通过logits等外部特征访问的信息。

  经过训练的探测分类器可以预测错误,但其泛化能力只发生在需要相似技能的任务(如事实检索)中。

  对于涉及不同技能的任务,例如情感分析,探测分类器与基于logit的不确定性预测器效果差不多。

  在确定了错误检测的局限性,并研究了不同任务的错误编码有何不同之后,作者深入研究了单个任务中的错误,根据模型对重复样本的响应对其错误进行分类。

  研究人员在T = 30的温度设置下,对数据集中的每个样本进行采样,然后分析答案的结果分布。

  图(4a)中,模型通常会给出正确的答案,但偶尔会出错,这意味着存在正确的信息,但采样可能会导致错误。 图(4b)中,模型经常犯同样的错误,但仍保留了一些知识。 图(4c)中,模型生成了大量错误的答案,整体置信度较低。

  分类的标准有三个:生成的不同答案的数量,正确答案的频率,以及最常见的错误答案的频率。

  上表显示了所有模型的测试集结果。结果表明,可以从贪婪解码的中间表示中预测错误类型。

  作者使用经过错误检测训练的探测器,从同一问题的30个响应中选择一个答案,根据所选答案衡量模型的准确性。

  如果这种准确性与传统解码方法(如贪婪解码)没有显著差异,则表明LLM的真实性内部表示与其外部行为一致。

  实验在TriviaQA、Winobias和Math上进行,选择probe评估的正确性概率最高的答案。这里比较了三个基线个候选答案中随机选择;选择生成的最频繁的答案。

  结果如上图所示,总体而言,使用探针选择答案可以提高LLM所有检查任务的准确性。但是,改进的程度因错误类型而异。

  探针可以有效地识别正确答案的事实表明,LLM的内部编码与其外部行为之间存在重大脱节:即使模型编码了哪个答案是正确的信息,它在实践中仍然可能生成错误的答案。

  特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

  竟然能跟霍去病一起封狼居胥,《世界启元》新纪元玩这么大?/

  主站 商城 论坛 自运营 登录 注册 竟然能跟霍去病一起封狼居胥,《世界启元》新纪元玩这...

  小米 Redmi 显示器 A27Q 多功能支架版 2025 款上架,799 元

  vivo X200系列销售额破20亿创造历史:京东、天猫、抖音安卓机销冠

在线咨询

点击这里给我发消息QQ客服

在线咨询

免费通话

24h咨询:020-8888-8888


如您有问题,可以咨询我们的24H咨询电话!

免费通话

微信扫一扫

微信联系
返回顶部