搜索引擎何以提升用户极致满足?从第二届百度搜索创新大赛赛道一中寻求答案
如果您有SEO优化、网站建设需求请致电:18510193015
今年,生成式大模型技术发展迅猛,相关应用不断涌现。不过,在搜索场景下,生成技术应用却缺乏深入的评测研究。当前,抽取式智能问答系统虽在搜索系统中应用成熟,但面临着搜索网页质量良莠不齐、抽取答案内容单一且丰富性不足等难题。
怎样从搜索多结果内容组织生成展开调研呢?也就是说,针对用户的查询,如何利用生成模型对搜索引擎返回的多条检索结果进行组织,生成一个准确、丰富、语义流畅且完全符合用户需求的答案,进而提升搜索引擎的极致满意度呢?
第二届百度搜索创新大赛正在为我们揭晓答案。此次大赛历时 123 天,近日圆满落幕。28 支团队经过日夜奋战,从众多参赛者中脱颖而出,登上领奖台。在大赛的其中一个赛道,共有 719 人报名,组成 220 支队伍提交作品,经过激烈竞争,最终 10 支队伍入围决赛并来到颁奖现场。
搜索引擎怎样才能提升用户的极致满意度呢?
从第二届百度搜索创新大赛设置的五个赛道来看,每个赛道侧重于不同的主题,包括搜索答案组织、基于向量交集的 TopK 搜索、设计一个解决搜索用户需求的 AI 原生应用、基于 GPU 的近似最近邻检索算法挑战、可控图片生成算法挑战。其中,赛道一 “搜索答案组织” 正是为解决 “提升搜索引擎的极致满足” 这一问题而设。
当你在百度搜索框中输入一个问题时,你是期望得到大量相关信息,还是一个精准答案呢?想必答案是后者。
因此,在具体的任务设置中,赛道一的要求是:给定一个用户搜索问题 query 和多条搜索结果摘要,使用生成模型依据这些结果生成正确且丰富的答案。
对于数据集的要求如下:训练集包含 8000 个 query,每个 query 下最多给出 5 条从网页搜索结果中抽取的摘要作为参考,并根据这些结果人工撰写答案;验证集有 1000 个 query,以及对应的搜索结果摘要和答案;测试集有 1000 个 query 和相应的搜索结果摘要。
在颁奖典礼现场,作为赛道一冠军团队成员,来自中国科学院计算技术研究所的李一鸣分享了他的获奖感言。他说:“刚看到赛道一的赛题时,我的脑子就像我们队名‘None’一样,一片空白。而且我的研究方向是多模态表征学习和开放检测识别等与自然语言处理关联不大的领域,所以对 NLP 领域的了解也很有限。不过,出于对当前热门大语言模型的好奇和兴趣,我还是决定参赛,希望能有所收获,也希望自己的技术水平能从 None 逐步提升。”
实际上,这也是百度搜索创新大赛举办的目的。让每一位参赛者在激烈的比赛中认清自身优势,在实践与考验中形成自己的特色成果,确定未来的发展方向。
三大亮点彰显创新特色
从本届百度搜索创新大赛的成果来看,一切都令人充满期待。
每位参赛者都专心研究,即便过程中困难重重,他们也从不言弃,最终都取得了理想的成果。无论是否获奖,参与本身就有意义。作为赛道一的冠军,李一鸣对此深有体会。
据李一鸣总结,他的获奖方案主要有三大亮点:
一是聚焦于大语言模型低秩适配,采用 lora 微调方法。这种方式只需更新少量参数就能提高效率。同时,他还通过其他优化手段对训练推理参数配置进行优化,使生成的答案不仅真实合理,还进一步增强了丰富性。
李一鸣分析道:“我们都知道这次比赛要求参赛队伍根据用户查询和网页返回的多个检索摘要结果生成有意义、语义丰富的答案反馈给用户,而这种方法就实现了这一目标。”
二是对 NLP 领域有了更深入的认识,并运用了更先进的技巧 —— 噪声微调。李一鸣介绍:“这个技巧是在调研近期工作时产生的想法,主要是针对输入指令添加一些随机采样的噪声。由于任务形式较为单一,所以只在问题和检索返回摘要部分随机添加噪声,希望借此让模型更精细,同时缓解过拟合问题,使模型关注到输入文本的更多细节,从而生成更有意义、更丰富的答案。”
三是将自己擅长领域的一些常用方法,如伪标签技术应用到本次比赛中。李一鸣主要采用知识蒸馏的方式进行训练,额外收集数据集,让教师模型为输入部分打一个伪标签。通过这种方式,不仅能在教师和学生模型间传递知识,还能训练出性能更优、更易部署的模型。此外,李一鸣还尝试了一些领域内语料预训练方法,进一步提升了模型对答案组织方式的理解。
拥抱年轻灵感,为技术注入新活力
挑战无处不在,关键在于如何解决。
凭借自身积累的技术经验,在不断尝试与摸索中,李一鸣在赛道一中崭露头角。
李一鸣表示:“‘纸上得来终觉浅,绝知此事要躬行’,通过这次比赛,原本对 NLP 领域了解不多的我,在一步步调试优化大模型的过程中,体会到了收获知识、提升技术的快乐。”
李一鸣指出:“通过百度搜索创新大赛这样的线下交流展示平台,我们不仅能运用所学知识解决工业界的实际问题,还能在比赛中结识许多志同道合的朋友,在与他们的交流中进一步积累知识、提升技术。”
从李一鸣的参赛经历和感受可以看出,百度搜索正通过大赛与 “新一代 AI 之星” 深度碰撞。拥抱年轻人的灵感,为技术基因注入新活力,这就是大赛的意义所在。
责任编辑:何奎良