您现在的位置:乐知生活在线 生活快报
分享

大模型领域亦正面临着范式转变。近期半年间,业界主流的大模型训练方法已从最初由OpenAI提出的以预训练为核心、监督学习为补充的模式,逐步转向强调增强推理能力的强化学习模式。

这一变化与人类对大模型性能要求的日益提升紧密相关。在近年来大模型应用不断拓展的背景下,人们逐渐发现,尽管一些大模型在特定数据集上的准确率能够达到惊人的99%,但在实际应用场景中却频繁出现失误。这引发了业界的深刻反思:模型的泛化能力不足,是否与架构设计本身存在缺陷有关?这一问题的提出,促使我们对大模型的设计和应用进行更为深入的探讨和改进。

也就是在这个时候,DeepSeek横空出世,让人们见识到强化学习的优势。传统预训练模式,通过海量文本数据的学习,让大模型掌握语法、语义以及常识性知识,从而能够在多种任务上做出回应。强化学习模式,是通过让大模型不断试错,在与环境的交互中逐渐改进性能。这种方法弥补了数据不足带来的限制,还能让模型在复杂任务中表现得更加智能。

“强化学习最了不起的地方在于,大模型能够自行推理,这就能显著提升大模型的性能。”阶跃星辰首席科学家张祥雨说。

但强化学习模式也有其弊端。商汤科技联合创始人、首席科学家林达华表示,使用强化学习训练模式的大模型幻觉现象会更加明显,思考过程较为冗长。

业界普遍认为,强化学习并非技术的终极形态,未来范式变革的脚步仍将不断前行。上海人工智能实验室的青年领军科学家、书生大模型负责人陈恺指出,强化学习目前面临的一个关键瓶颈在于其只能接受确定性、类似数学代码式的反馈。为了进一步发展,强化学习必须解决如何有效处理自然场景中非确定性答案的问题。这一挑战将是未来强化学习领域研究的重点。

发布时间:2025-08-11 21:18

责任编辑:admin

免责声明: 转载目的在于传递更多信息,文章版权归原作者所有,内容为作者个人观点。本站只提供参考并不构成任何投资及应用建议。如涉及作品内容或其它问题,请在30日内与工作人员联系(18731251601),我们将第一时间与您协商。谢谢支持!

相关阅读
关键词:
最新文章
热点内容
图文推荐