阿里妈妈搜索广告2024大模型思考与实践

发布时间:2025-03-13 17:17  浏览量:4

作者:石士 阿里妈妈技术团队

一、概览

随着大模型时代的到来,搜推广模型是否具备新的进化空间?能否像深度学习时期那样迸发出旺盛的迭代生命力?带着这样的期待,阿里妈妈搜索广告在过去两年的持续探索中,逐步厘清了一些关键问题,成功落地了多个优化方向。如今,我们更加坚定地认为,搜推广模型与大模型的结合蕴藏着巨大的想象空间和业务价值。本文将从以下几个方面分享和交流 2024 年的思考与实践:

在这场变革性的技术交替之际,回顾搜推广模型的历史演进,抓住三条关键路径(明线、暗线和辅助线)有助于更清晰地理解技术升级的内在逻辑。同时,明确如何在新时期系统性发挥算力优势,深度挖掘搜推广领域的 Scaling Law,已成为推动技术进步的核心路线。作为新技术探索的前哨站,预估模型通过与大模型的深度结合,全面提升感知与推理能力。在感知层面,专注于解决内容语义信息与行为协同信息的融合问题,持续优化多模态表征的质量,突破传统 ID 表征体系的局限,逐步实现对客观世界更丰富的感知建模;在推理层面,构建用户行为序列大模型,将生成式方法与判别式方法有机结合,探索推理能力的持续进化之路。大模型正在全面重塑搜索广告系统。依托预训练(pre-train)与后训练(post-train)的模型迭代新范式,阿里妈妈自主研发了广告领域专属大模型 LMA(Large Models for Advertising),并于 2024 年 4 月随业务宣推。LMA 是电商基座大模型衍生出来的广告模型集合,迭代分支包括认知、推理和决策。新财年以来,LMA 持续优化,认知分支聚焦多模态表征,推理分支聚焦搜推广领域的用户行为大模型等。这些技术进展不仅推动预估环节实现多个版本迭代上线,还深度改造了召回、改写、相关性和创意等核心技术模块,推动技术体系全面升级。

二、模型演进规律和大模型迭代趋势

和深度学习时期相比,大模型时期的搜推广模型既有一脉相承之处,也有推陈出新的地方。回顾过往,模型能力的突破主要沿三条路径演进:

明线,归纳偏置(Inductive Bias)的合理设计,是模型能力提升的核心驱动力。暗线,硬件算力的指数级提升,为模型的规模化提供了强力支撑。辅助线,CV 和 NLP 领域的代际性技术升级,给搜推广领域带来重要启发。

2.1. 明线 - 归纳偏置

所谓明线,即大家表面能够看到的模型结构的演变,其本质是对归纳偏置的合理设计与实现。归纳偏置体现了模型在学习过程中对特定假设和结构的先验偏好,它在数据有限的情况下能够有效约束参数搜索空间,提升模型的泛化能力。例如 CV 领域广泛应用的模型结构 CNN,背后的归纳偏置就是图像在局部空间的平移不变性。

类似地,搜推广模型在用户行为预测建模上也有自己的归纳偏置。例如,如何设计模型结构以充分捕捉用户行为的多样性、动态演化、局部敏感性及时序依赖关系等;如何优化 Embedding 结构及训练范式,使其能够有效适配 ID 特征的高维稀疏和幂律分布等统计特性。所以,每一次看得见的模型结构升级,都是对归纳偏置的更深层次理解与实现。

2.2. 暗线 - 算力

所谓暗线,即模型能力升级的内在演进逻辑,就是借助算力的东风不断提升模型规模化的能力。若明线似看得见的招式,则暗线似看不见的内功。如何修炼内功,优化底层训练和推理架构,充分利用摩尔定律与黄氏定律带来的算力提升,使得模型参数规模持续增长。这正是近年来模型演进的核心旋律。

然而,算力的指数级增长主要体现在计算能力上,“内存墙” 依然高筑,存储与带宽仍是系统的瓶颈。对于搜推广模型而言,其训练的主要挑战在于稀疏 Embedding 的访问与计算,如何进行算法与工程的深度联合优化,提升计算与通信的占比,最大化 GPU 计算利用率,成为释放算力潜能和推动模型规模化的关键。

某种程度上,搜推广模型比其他领域更早认识到 Scaling Law(缩放定律)的重要性。与 CV 和 NLP 领域不同,搜推广模型依赖于高维稀疏的 ID 特征体系,因此其规模化方向并非向 Deeper 方向生长,而是朝着 Wider 方向扩展。如果以 LLM 常用的 Token 规模作为对比,我们的场景中一天的样本所对应的 Token 规模已达到 T 级别,与 GPT-3 公开的数据相当,且模型的训练还需涵盖多年样本,数据量远超一般 LLM 训练范畴。

因此,长期以来,增加样本规模、特征个数和 Embedding 维度等共同支撑了 Wider 方向 Scaling Law 的第一增长曲线。然而,随着时间推移,这一增长曲线的边际效益正逐渐递减,促使我们重新思考:搜索推广模型是否也有向 Deeper 方向扩展的机会?接下来,我们将重点探讨这一可能性。

2.3. 辅助线 - CV&NLP 领域

搜推广模型作为 AI 应用领域的重要分支,深受整个 AI 技术的发展影响。纵观整个 AI 发展史,CV 和 NLP 领域的技术相互借鉴、交相辉映,每一轮技术革新都推动着 AI 迈向新的高度,起到了引领和破圈的效应。对应地,搜推广模型在发展过程中既面临 AI 领域的共性问题,也有自身业务属性的特色问题。其中关于共性问题,CV 和 NLP 的技术突破就是很好的辅助线,给到搜推广模型重要启发,加速创新。

搜推广模型经历的几次重大技术变革,和 CV 和 NLP 领域的创新息息相关,沿着时间线:

AlexNet 在 ImageNet 竞赛中的突破性成功表明了 DNN 巨大潜力,搜推广开启 DNN 时代;Word2Vec 奠定了表征基础,启发了 Embedding 技术在搜推广的广泛应用;Attention 机制对翻译任务的大幅提升,深刻影响用户行为兴趣建模;基于 Transformer 结构的训练范式的普及,推动了对比学习、掩码学习、预训练 & 迁移学习等各种迭代模式的兴起。

当然了,搜推广模型的实践也会反哺 AI 领域的发展,例如基于用户反馈的强化学习和出于性能敏感的蒸馏、剪枝、低秩和量化等技术。如今,LLM 又开启了大模型的新时代。

2.4. 大模型时期的迭代主线

综上,新的辅助线看来会延伸更远,LLM 已彻底重塑 NLP,搜推广模型的演进思路也会随之发生深刻变化。

一方面,从算力(暗线)角度来看,Scaling Law 在稀疏的 Wider 方向已经清晰呈现出第一增长曲线,新时期需要探索稀疏往稠密的转变,走出 Deeper 的新增长;另一方面,从归纳偏置(明线)角度来说,人工先验的归纳偏置由精细化设计往朴素化范式转变。正如《The Bitter Lesson》所言:“AI 发展史最苦涩的教训是:试图将我们认为的思维方式硬编码进 AI,长期来看是无效的。唯一重要的,是那些能够随着计算能力增长而扩展的通用方法”。这一点尤为感同身受,过去依赖精巧结构设计的短期收益,往往在算力提升的长期趋势下变得微不足道,甚至某些复杂结构反而成为算力扩展的障碍。真正支撑生产服务的模型,最终仍会朝着紧凑、简约、高效的方向收敛,以适应计算资源的可扩展性和实际业务需求。

所以,大模型时期的迭代主线:弱化归纳偏置,强化数据驱动,设计通用且高效的模型结构,让模型从数据中自动学习复杂模式,充分挖掘算力潜能,探索出稀疏 Wider 方向往稠密 Deeper 方向扩展的新路径。这就是我们研发 LMA 系列模型的核心认知。

三、预估模型与大模型结合

LLM 的横空出世让各领域纷纷探索其应用潜力,搜推广系统也不例外。关于 LLM 在搜索和推荐系统中的原生应用,业界已有诸多优秀综述,技术分类体系阐述非常完善,很有启发,本文不再赘述。鉴于算力现实和性能约束,我们更关注短期内的落地可行性,所以本文将从渐进式优化的视角,回顾并整理 CTR 预估模型与大模型结合的思考与实践。

前文已经论述了大模型时期我们认为的迭代主线,即弱化归纳偏置,强化数据驱动,探索搜推广模型的稠密 Deeper 方向的规模化之路。CTR 模型经过多年的迭代积累,形成最具迭代生命力的两个提效方向 ——Embedding 建模和用户行为兴趣建模。两者均遵循 Wider 的规模化思路,不断增加特征个数、不断扩长用户行为规模、不断延展 Embedding 的维度等,取得持续不断的收益。但是 Deeper 的规模化始终没有像 CV 和 NLP 模型那么顺利,CTR 模型似乎搞到几十层没有意义,反而会适得其反。

最关键的认知破局点在于,CTR 任务的判别式模式太简单了,让模型判别是否点击这类的 1bit 信息量的答案,相较于 Next Token Prediction 的生成式而言,求解空间过小。如此,在不改变判别式任务的情况下,模型仅依靠强能力的高维稀疏 ID Embedding 就能做好大部分的记忆工作,浅层的 Dense 参数只需要承担部分的泛化能力就好,这样模型始终有 Deeper 方向规模化的瓶颈。所以,我们认为三阶段的迭代范式 ——“Pre-train + Post-train + CTR” 可以破局,Deeper 方向规模化的重任交由 Pre-train 和 Post-train 完成。下面分别介绍新范式下我们对 Embedding 建模和用户行为兴趣建模的改造,对应两个关键词 ——“多模态” 和 “生成式”。

3.1. 感知 - 多模态表征模型

深度学习时期的 CTR 模型以 ID 特征体系为基石,ID Embedding 的参数规模占据整个模型的 90% 以上,其表征质量决定了模型预估能力的基础。然而,ID Embedding 体系长期面临一个核心挑战,就是其过度依赖历史统计数据,对长尾和冷启数据极为不友好,且这类数据是搜推广业务的核心问题。随着 Embedding 参数规模化的收益边际增长速率逐渐放缓,和关于数据稀疏的瓶颈问题日益凸显,我们需要探索新的 Embedding 技术体系。

我们开始重新审视 ID 形式的特征表达,认为 ID 仅仅是客观世界的代理表达,但是模型对世界的感知应该更加原生和直接。常理思考,用户对于一个 item 是否感兴趣、是否会发生点击行为,本质是 item 的内容视觉表达是否吸引到用户,所以直接建模原生视觉表达会更为本质。于是,过去两年我们重点建设多模态 MM Embedding 技术体系,并将其应用到用户行为兴趣建模中,打造朴素但强大的视觉兴趣模型(MIM:Multi-modal content Interest Modeling)。

视觉兴趣模型 MIM 采用 “Pre-train + Post-train + CTR” 的迭代范式,核心考虑就是将 Deeper 方向的参数规模化交由 Pre-train 和 Post-train 来实现,前序阶段的训练目标就是产出高质量的 MM Embedding,然后基于 MM Embedding 的视觉兴趣建模由 CTR 任务来高性价比地完成。该范式有诸多优势,包括多模态能力可以及时追踪前沿开源技术、CTR 任务能够保持性能和迭代的高效、Deeper 方向的规模化可以有规划性的持续迭代、生产关系可以解耦并各司其职地有序开展等。这些优势在过去两年的模型升级中体现得淋漓尽致,这也是我们没有采用端到端建模路线的原因。

高质量 MM Embedding 生成的核心是承载语义信息的内容空间与承载协同信息的兴趣空间如何有效对齐,模型架构就是多模态领域的稠密模型。稠密模型和 CTR 任务的稀疏模型相比,语义理解比统计判别任务相对更难,几十层的模型架构更为主流,给 Deeper 方向规模化带来空间。Pre-train 职责是 Encode,负责内容空间的理解与迁移,关注图文是什么,多模态对齐能力的持续优化是基础,将开源世界知识往电商知识迁移是关键;Post-train 职责是 Align,负责内容空间与兴趣空间的对齐,关注用户行为反馈、凸显图文吸引要素,高质量的训练样本和找到与下游 CTR 任务正相关的中间指标是关键。另外,这两个阶段也有着共同的优化主线:

训练模式,包括分类、对比学习、掩码学习、自回归学习等,且 backbone 紧随主流更迭,包括 BEiT3、BGE、BLIP2、EVA2 等。数据质量,图文质量包括视觉强相关的主体和关键词识别,难正负样本挖掘,结合行业特色挖掘兴趣样本例如拍立淘的图搜场景等。规模效应,包括图片尺寸、训练样本和模型参数,模型尺寸经历了 0.1B、1B 和 10B 的升级过程,是 Deeper 方向规模化的主要路径。

有了高质量的 MM Embedding,CTR 阶段的兴趣建模就回归传统、轻车熟路,基于 Target-Attention 机制将 ID Embedding 升级为 MM Embedding 就可以灵活高效地建模用户视觉偏好。整个算法框架就如此运作,三个阶段既是互相解耦又是相互联系。同时,关于 Pre-train 和 Post-train 的稠密模型框架和 CTR 的稀疏模型框架的有机结合,工程侧在离线和在线环节都做了相应的架构升级和性能优化。至今,MIM 模型共上线 4 期,分别在过去两年的大促(2023&2024-618 & 双 11)全量上线,每期都有大约整体 CTR+5%、长尾 CTR+10% 的显著提效。

欢迎探讨,【MIM】MIM: Multi-modal Content Interest Modeling Paradigm for User Behavior Modeling

论文链接:https://arxiv.org/abs/2502.00321

3.2. 推理 - 用户行为大模型

随着用户行为序列特征的规模不断扩大,包括长周期行为的不断加长、多类型行为和多场域行为的不断扩充等,这类特征的重要性逐渐在整个特征体系中占据主导地位。过去,单值特征类型的特征交互建模曾是模型迭代的主线,而如今,实际业务提效的研究焦点早已转向多值 / 序列特征类型的用户行为建模。研究焦点的转向和该方向的 Scaling Law 密不可分,例如针对行为周期的不断拉长,设计高性能的 Target-Attention 结构能够带来持续性收益。但是传统 Scale up 依然仅在 Wider 方向有效,我们多次试图加深行为兴趣网络结构的层数,却提效甚微且很快就遇到瓶颈,我们开始意识到 CTR 任务的端到端建模会限制模型的复杂度,Deeper 方向的规模化红利需要用新思路来解决。

为此,我们提出 LUM(Large User Model)模型,同样采用 “Pre-train + Post-train + CTR” 的迭代范式,考虑点和 MIM 模型类似,Deeper 方向规模化由 Pre-train 和 Post-train 来承担,同时系统架构、迭代效率、推理性能和生产关系等对实际落地和长远发展均有益处。前序阶段参考 LLM 模型架构设计自回归生成式任务 ——Next Item Prediction,旨在从用户行为序列中以数据驱动的方式学习协同过滤模式,该阶段专注下游行为预测类模型的可迁移性。CTR 模型则依赖 LUM 的推理结果,进行 Target-Attention,除了传统的从历史行为中提取兴趣以外,还将从推理的未来信息中挖掘潜在兴趣,该方式高效融合了生成式与判别式任务的各自特点。

其实类似的范式并不新鲜,但之前可能大家对该范式的 Scale up 能力估计不足,在 LLM 盛行之前并没有成为持续迭代的主流,这次我们以全新的认知重新做系统性建设。LUM 模型的规模化潜力主要源自 Next Item Prediction 的任务设计,因为 Item 集合非常大,模型学习空间相较只有 1bit 信息量的是否点击的 CTR 任务更大,可以容纳更多的样本与模型参数。实践表明,确实该模式下模型层数可以加深到几十层,与之对应的该阶段设立的一些技术指标如 recall 等均能持续提升,并与下游 CTR 任务结合,可以体现推理能力不断提升。

LUM 模型的优化核心要解决两个问题,Item 如何高效 Token 化和语义信息与协同信息如何高效融合。前者,一方面 Item 规模相较 LLM 的 Token 词表过于庞大,另一方面如果参考初期文献直接文本化的做法对于长序列表达是个灾难,所以将语义信息压缩至小规模的 Token 非常有必要。目前 Token 化方法处于百花齐放中,包括语义 ID、LLM 总结、多模态表征等;后者,虽然协同信息和语义信息的建模思路大同小异,都是在时序维度刻画 Token 之间的 “共现” 概率,但是背后的 Pattern 还是有很大差异。为了求解解耦可以各司其职,分层架构是理想方案,底层 Token 化聚焦语义信息的编码,上层 Transformer 结构聚焦协同信息的挖掘。如上,用户行为建模可以增强兴趣推理能力,并开启新的规模化路径。

欢迎探讨:

【LUM】Unlocking Scaling Law in Industrial Recommendation Systems with a Three-step Paradigm based Large User Model论文链接:https://arxiv.org/abs/2502.08309【UQABench】UQABench: Evaluating User Embedding for Prompting LLMs in Personalized Question Answering论文链接:https://arxiv.org/abs/2502.19178

四、大模型重塑搜索广告系统

大模型的出现对搜推广业务影响深远,短期来看可以通过 AI 能力升级重构现有系统,长期来看必将孕育出新的产品形态和商业模式。本章重点介绍一下我们如何利用大模型的能力全链路重塑现有的搜索广告系统。主要体现在两方面的优势:1)传统搜索系统过于依赖 ID 特征体系,大模型在语义理解和逻辑推理上的惊人能力可以真正读懂用户的搜索需求,各环节的匹配效率都会大幅提升;2)大模型沉淀下来的 Pre-train 和 Post-train 的迭代范式,能够更加一体化地优化全链路,并进一步打开 Scale up 的空间。继 2023 年的效果初探,2024 年我们在全链路上有更加全面的落地,包括改写、召回、相关性和创意等模块,累计提效约 CTR+10%、RPM+5%,下文选取几个代表性工作做介绍。

4.1. 改写

改写是搜索广告场景极具业务特色的技术模块,用户输入搜索词 Query 表达搜索需求,广告主通过广告平台设置和自己产品有关的竞买词 Bidword 表达想要触达的流量,改写的目标是对 Query 和 Bidword 做高效匹配。匹配效率体现在两方面,分别是相关性和流量价值,前者是基础,后者是在前者的基础上挑选流量变现价值更高的 Bidword。核心挑战主要有两个:1)精准理解 Query 背后的真实购物需求,尤其是手机文本输入成本高,用户和广告主的表达习惯千差万别,Query 和 Bidword 之间的语义鸿沟对于相关性挑战很大;2)相关性和高价值的平衡。

经典方案需要有两类模型相配合,深度语义模型解决相关性问题,基于协同过滤的深度价值模型解决流量价值问题。该方案有两方面问题,一方面存在老生常谈的问题即对长尾 Query 理解和改写能力不足,另一方面两段式目标融合往往会顾此失彼。大模型 LLM 的出现可以极大改善前者长尾流量上的相关性问题,LLM 蕴含的世界知识对于文本理解和推理能力非常强大,我们在 2023 年初就开始推进 LLM 在改写方向的落地,探索生成式改写的提效潜力。电商广告领域知识的 SFT 和在线动态 RAG 是迭代初期的常规优化手段,效果不错。生成式改写也是 LLM 在搜索广告业务中第一个上线项目。

但是简单将 LLM 适配成改写任务仍然会存在两个问题,一个是 LLM 的生成结果无法保证一定是在竞买词库中,导致生成结果不可用;另一个是生成结果虽然能够极大保证相关性但是无法提供流量价值的判断。所以系统往往需要有一个第二段改写的模块,给上述两个问题兜底或者改善。为了进一步优化改写效果,我们提出基于带权 Trie 树的 LLM 生成式改写技术(VALUE)。一方面通过将全库竞买词构建成 Trie 树,使得 LLM 生成过程在 Trie 树约束搜索下进行,确保生成结果一定是在竞买词库中;另一方面离线环节构建高低价值的反馈判断(哪个词的变现效率更高)进行 DPO 训练,在线环节将 Trie 树升级为带权(权重即变现效率的层层汇聚)且实时更新的模式,两相结合使得一段式生成过程兼顾了高价值判定。如上,基于 LLM 的生成式改写方向,两年时间总共上线 4 期,提效显著。

4.2. 召回

电商场景下,用户的搜索需求除了搜索词 Query 的主动表达以外,还有背后的个性化需求,包括价格、品牌、款式等偏好。同时,商品广告库的丰富性意味着,即使满足基本的相关性需求,系统仍需在众多符合条件的商品中做出偏好筛选。所以深度挖掘用户兴趣偏好,才能更加全面理解用户的搜索需求。基于此,召回模块的核心目标就是在确保高召回率的前提下,检索出与后续排序阶段价值判定一致的最优广告集合子集,从而同时满足相关性和个性化的搜索需求。

召回模块的核心技术挑战是在计算性能有限的情况下近似做到全库打分检索,从而在准确率和召回率之间达到最优平衡。向量化检索是深度学习时期应用最为广泛的技术方案,其中索引结构是关键,通过 LSH、PQ 或 HNSW 等方法设计合理的数据结构,对索引进行分片或分层处理,可以减少大量不必要的计算,达到近似最近邻 ANN 的计算效果。然而电商搜索有别于传统的文本搜索,Query、User 和 Item 是异构实体且有不同模态,向量化检索模式有天然的优化瓶颈。主要体现在两方面,一方面是基于相似度量的索引构建与检索模型相分离会导致优化目标不统一,另一方面基于性能考虑实体间的计算只能局限在简单的线性计算模式。

大模型 LLM 的建模范式给生成式召回带来新思路,生成式召回可以从本质上统一索引构建和检索打分两个过程,此时模型参数即索引,模型的离线训练和在线推理的优化目标是一致的,而且可以自然地引入复杂的非线性计算,这类端到端的最优子集生成过程有更高的优化天花板。生成式召回有两类探索方向:1)参考 LLM 的自回归建模思路,基于 Transformer 架构自行构建 Next Item Prediction;2)将用户行为和 Query 一样文本化,直接借助 LLM 的世界知识和推理能力进行 Next Token Prediction。

关于以上两类探索方向,前者就是前文提到的 LUM 模型,该模型在召回和预估环节均有应用,这里不再赘述;后者是 LLM 应用于推荐系统中的最早且最直接的探索思路,因为召回对于打分精准度的要求不像预估这么严苛,所以针对该思路我们优先选择在召回侧做了大量尝试。其中最核心要解决的技术问题是如何让协同过滤信息融入到 LLM 模型中,我们分别做了几个改进工作:蕴含协同过滤信息的 ID Embedding 以特殊 Token 的方式引入、利用行为序列信息进行领域迁移的 SFT、Next Token 实际应用成 Next CPV(商品关键属性,结构化信息天然有聚类效果),实践表明该召回方式能够提升召回通道独占比,带来明确业务收益。当然,眼下关于生成式的计算性能问题还在逐步攻克中。

4.3. 相关性

在电商场景中,搜索广告结果通常以商品的原生形态呈现,因此搜索相关性对用户体验至关重要。相关性模型作为 NLP 技术在搜索广告中的核心应用,主要用于判断用户搜索需求(Query)的文本表达与商品展示的图文信息是否匹配。该技术体系包括实体识别模型、关键属性识别模型,以及贯穿召回与排序各阶段的相关性判别模型等多个关键模块。长期以来,相关性模型的技术迭代始终沿着 NLP 技术的发展路径演进。随着大语言模型 LLM 的崛起,NLP 技术范式正经历深刻变革。相关性模型有别于 CTR 等行为预测模型,它没有个性化信息,文本语义的深度理解是建模关键,所以我们认为它具备 LLM 迁移最先落地的可能性。

相关性模型一直以来的核心技术挑战是如何在标注数据稀少且昂贵的情况下做模型规模化。技术发展路线主要经历过两个阶段:1)挖掘行为数据作为弱标签,借助图学习和表征学习的能力做数据层面 Scale up;2)借鉴 BERT 系列的文本类多任务预训练 + 下游任务微调的范式,进行模型层面 Scale up。随着自回归模式的 GPT 架构兴起,模型的进一步规模化还能涌现出逻辑推理能力,而这正是相关性模型可以代际性进阶的突破机会。逻辑推理和可解释性对于相关性任务判定很重要,一方面我们实践论证通过思维链 CoT 慢推理的任务设计可以显著提升判定结果的准确性,另一方面推理的过程信息对于模型的再一次迭代以及业务应用都有助益。

所以,我们研发了基于思维链模式的聚焦逻辑推理的相关性大模型,并且升级了智能化标注系统,设计机器标注和人工校验的协同机制,彻底改变标注数据稀疏且昂贵的窘境。同时,考虑到相关性大模型无法在线毫秒级实时响应,我们设计一系列电商业务特色的细粒度蒸馏手段包括数据蒸馏、隐层蒸馏和过程蒸馏等,大幅提升在线传统相关性模型的预估能力。如上,基于 LLM 的相关性模型全面落地,配合 Case 驱动方法论践行,今年在相关性体验上做的提效收益高于过去三年之和。

欢迎探讨,【ELLM-rele】Explainable LLM-driven Multi-dimensional Distillation for E-Commerce Relevance Learning

论文链接:https://arxiv.org/abs/2411.13045

五、总结与展望

本文介绍了阿里妈妈搜索广告在多模态和大语言模型方面的成功实践,尽管取得了不错收益,但仍需关注当前 LLM 在线服务中的实际应用情况。目前,凡是依赖 LLM 原生能力的在线服务,主要依托异步缓存机制实现,而真正能支撑全流量实时服务的核心模块,依然以传统模型为主,LLM 主要作为增强手段提供辅助优化。因此,如何设计高性能推理架构,使大模型真正实现在线实时应用,将成为下一阶段的关键突破点。这不仅能带来更全面的业务收益,也意味着更大的效率提升空间。

曾参与深度学习改造搜推广系统的同学对此一定深有体会。在早期,DNN 作为一种从 CV 和 NLP 领域借鉴来的技术,能否顺利在搜推广系统中服役曾一度令人疑虑,整个落地过程充满挑战。然而,如今 DNN 已经成为行业的标配,背后支撑这一变革的核心因素,是算力成本的指数级下降。大模型的发展趋势亦然。尽管当前 LLM 的迭代受到算力瓶颈的制约,但可以预见,在不远的将来,随着计算成本的降低和推理架构的升级,LLM 也将全面在线化,成为搜推广系统的核心技术基座。

参考文献

[1] A Survey of Large Language Models

[2] Pre-train, Prompt, and Predict- A Systematic Survey of Prompting Methods in Natural Language Processing

[3] A Survey on Large Language Models for Recommendation

[4] A Survey on Multimodal Large Language Models

[5] A Comprehensive Survey on Multimodal Recommender Systems Taxonomy, Evaluation, and Future Directions

[6] Multimodal Recommender Systems- A Survey

[7] Pre-train, Prompt and Recommendation- A Comprehensive Survey of Language Modelling Paradigm Adaptations in Recommender Systems

[8] Exploring the Upper Limits of Text-Based Collaborative Filtering Using Large Language Models- Discoveries and Insights

[9] Large Language Models for Information Retrieval- A Survey

[10] Towards Next-Generation LLM-based Recommender Systems: A Survey and Beyond