近期一项关于大语言模型训练方法的研究引起了广泛关注。该研究由马里兰大学、图宾根大学与马普所合作完成,提出了一种名为“金鱼损失”(Goldfish Loss)的创新训练策略,其核心思想是通过在损失函数中随机剔除部分token来抑制模型对训练数据的机械记忆,同时保持其语言理解与生成能力。
传统大语言模型在训练过程中容易过度拟合训练数据,导致其能够逐字复现训练文本,这不仅可能引发版权与隐私问题,还会削弱模型的泛化能力。金鱼损失借鉴了金鱼记忆短暂的特点,在计算损失函数时,基于哈希掩码策略确定性地屏蔽输入序列中的部分token,使其不参与梯度计算。具体而言,对于同一文本段落,模型每次训练时被屏蔽的token位置完全一致,从而切断了模型通过多次训练拼凑完整记忆的路径。
与Dropout等传统正则化方法相比,金鱼损失的核心区别在于其掩码的一致性。Dropout在每次训练迭代中随机屏蔽神经元或token,模型仍可能通过多轮训练间接记忆完整内容;而金鱼损失通过哈希函数确定掩码模式,使得同一文本的掩码位置固定,从根本上阻断了记忆机制。研究团队进一步提出了局部化哈希掩码(localized hashed mask),根据前h个token的内容动态生成掩码,增强了掩码在不同上下文中的适应性。
在实验设计上,研究团队通过两种场景验证金鱼损失的有效性:一是在极端记忆场景下(如对《哈利·波特》第一章或100篇维基百科文档重复训练100轮),标准训练的LLaMA-2-7B模型记忆了84%的文本,而使用金鱼损失的模型未出现任何逐字记忆;二是在标准批次训练场景下,金鱼损失同样显著降低了模型对训练数据的复现率。值得注意的是,尽管模型忽略部分token的梯度计算,其在语言建模任务上的整体性能未出现系统性下降,表明模型通过更高效地利用语言规律补偿了信息缺失。
金鱼损失也可能带来计算效率的损失。由于部分token不参与梯度更新,模型需要更多数据或更长的训练时间以达到同等性能,这对大规模训练的成本控制提出了新的挑战。金鱼损失为大语言模型的训练提供了一种简单而有效的正则化思路,尤其在需要严格控制数据泄露的场景中具有重要应用价值。
该项研究详情发表于本文《Goldfish Loss: Curbing Memorization in Language models》(arXiv:2406.10209),为后续探索模型泛化与记忆平衡机制提供了新的方向。
本文地址:https://www.dhslw.com/article/735.html
近期,苹果公司向零售员工推出了一款内部专用的AI聊天机器人工具,这一举措显示出其在人工智能领域的进一步布局,根据MacRumors分析师AaronPerris提供的截图,该工具旨在帮助员工更深入地理解苹果产品的优势以及iPhone的多样化应用场景,同时支持员工自由提问以获取相关信息,目前,该工具仍处于测试阶段,预计将很快集成至苹果内部...。
近日,瀚铠官方发布了关于RX9060XT合金显卡的官方图赏,引发了行业内外的广泛关注,从产品包装设计来看,这款显卡采用了蓝色的Radeon标志,这一做法在AMD显卡产品中极为罕见,通常而言,AMD与NVIDIA对旗下产品的品牌视觉元素,如包装布局、标志颜色等,均实施严格的统一规范,以维持品牌形象的一致性,在过往的产品中,AMDRade...。
小米于8月28日正式发布了澎湃OS3,并首次为该操作系统举办独立发布会,此次发布重点围绕系统流畅性、小米超级岛功能、跨生态互联能力及隐私安全四大维度展开,显示出小米在软硬件生态整合方面的持续深化,尤其值得注意的是,澎湃OS3在跨设备协同方面实现了重大突破,首次支持小米设备与苹果生态系统的互联互通,这一策略明显旨在吸引多品牌设备用户,尤...。
近日,小鹏汽车CEO何小鹏在公开场合发表了对汽车行业创业难度的看法,并提及了与小米创始人雷军之间关于造车话题的交流,何小鹏在8月27日晚间表示,尽管在汽车领域重新创业面临巨大挑战,但他之所以鼓励雷军涉足造车行业,是因为小米在智能化技术方面具备显著优势,这为小米进入汽车制造提供了有利条件,这一观点反映了何小鹏对行业技术门槛的深刻理解,以...。
在何小鹏与罗永浩的对话中,他坦言造车之难远超预期,作为一位曾成功创业的互联网行业资深人士,何小鹏对汽车制造业的复杂性显然有了更深刻的体认,初代小鹏P7的推出,无疑是其造车路上的首个重要里程碑,它不仅标志着小鹏汽车正式进入智能电动汽车领域,也向市场证明了新势力车企具备打造高品质智能汽车的能力,五年后的今天,全新小鹏P7正式上市,它不仅承...。
近期,地平线机器人,股票代码,09660,作为国内智能驾驶解决方案领域的领军企业,密集释放了一系列积极信号,展现出强劲的业务增长与技术突破态势,公司宣布其征程系列芯片累计量产即将突破1000万套,标志着其成为国内首家达成这一出货量里程碑的智驾方案供应商,这不仅体现了市场对其产品的高度认可,也进一步巩固了其行业龙头地位,技术层面,地平线...。
根据您提供的财报电话会内容,我对美团管理层关于三季度业绩的指引进行了详细分析,美团在当前市场竞争环境下表现出明确的战略倾向,面对其他平台持续高位的补贴压力,公司选择采取积极的应对措施,通过加大自身投入来维持竞争优势,这一策略的核心在于,美团计划在外卖业务规模优势的基础上,进一步增加补贴力度,以确保价格竞争力和稳定的履约体验,从而巩固其...。
近期,我国在卫星互联网建设领域展现出显著的技术实力与战略推进速度,自7月27日至8月17日的21天内,连续完成了五次低轨卫星互联网发射任务,依次部署了05组至09组卫星,这一系列任务不仅发射频次高、时间密集,还动用了多型号长征系列运载火箭,覆盖了从中小型到重型的不同运力需求,其中包括我国目前运载能力最强的长征五号火箭,这种多型号协同、...。
根据彭博社记者马克・古尔曼的最新报道,苹果公司计划在明年推出一项名为,AppleHealth,的付费订阅服务,该服务将整合人工智能技术,为用户提供个性化的健康管理功能,包括营养规划与医疗建议等多项内容,从功能定位来看,这标志着苹果进一步深入数字健康领域,试图通过软硬件结合与数据驱动的服务,构建更全面的健康生态系统,值得注意的是,该服...。
成都宇鑫洪科技有限公司,是从事精密电子元器件制造的高科技民营企业,致力于电子滤波元器件的开发,生产,销售和电磁兼容技术及其成套解决方案的研发设计。
富士房车(江苏)有限公司为全世界各大游艇和房车制造企业设计超过上百款游艇和房车,是享誉全球的房车厂家。
广州会议管理专家是一家致力于广州会议服务,会议策划,会议执行,活动策划执行,广州同声传译,同传设备,音视设备,抢答评分器,背景板制作的专业公司。咨询热线:020-38807271
海峡人才培训平台是福建省人才培训测评中心(事业单位)主办,专为全省各类专业技术人员提供全面、系统、便捷的继续教育培训服务。该平台整合了丰富的教育资源,包括公需课程和专业课程两大模块,以满足不同行业领域专业技术人员的职业发展需求和政策规定的继续教育学时要求。公需课程部分,涵盖了法律法规、职业道德、公共政策、行业发展趋势等内容,旨在提升专业技术人员的社会责任感、职业素养及适应时代发展的综合能力。专业课程方面,则根据各专业技术岗位特点与行业发展前沿,精心设计了一系列具有针对性和实用性的培训内容,确保用户能够及时更新专业知识、提高业务技能。
V直播,国内专业的微信直播平台,一键开通为企业开通专属微信直播间。功能丰富多样,满足全行业场景应用:电商带货、教育培训、年会庆典、峰会论坛、新品发布会、活动展会等。
多年护角网生产经验安平夏博丝网制品有限公司多年专业生产齐全的阴阳角线,保温护角网,带网U型分隔条,镀锌板冲孔护角条等产品。专业护角15127839900
北京链家网是提供北京二手房买卖、北京新房、北京租房、北京房价查询等业务的专业房产网站,可为您买卖北京二手房提供帮助,链家网北京站同时具有北京二手房、北京租房及购房问答和百科等频道,还可以在线查询北京二手房价格.买房卖房上北京链家网,让房产交易不再难.
玉田县昊宇印刷器材制造有限公司是国内生产、销售模切用压痕模的专业厂家。服务热线:139-3154-3095
四川梓冠光电科技有限公司专业生产:光纤激光器、光衰减器、光开关、光纤延迟线、硅基光芯片、光纤合束器等系列产品,可根据用户需求定制产品。