生成式推荐模型学习记录part1

张开发

• 2026/6/20 9:26:32 • 15 分钟阅读

分享文章

Rank Mixer主要是硬件效率优化token mixer其实就是一个转置融合操作per token ffnOneTrans模型核心在于不断压缩序列提取核心信息然后输出信息。sequence Feature共享参数表示同质信息使用同样的参数non- sequence feature使用多组参数表示异质信息使用不同参数模型结构1. OneTrans Block (金字塔堆叠)多个Block堆叠每个Block逐步压缩序列长度Lq递减每个Block包含RMSNorm→Pyramid Mixed Causal Attention→残差连接→RMSNorm→Mixed FFN→残差连接2. 核心创新 - Pyramid Mixed Causal Attention (Eq.14)Q从尾部集合获取长度LqK/V从完整序列获取长度L输出仅保留尾部长度Lq应用因果掩码Causal Mask3. 混合参数化 (Mixed Parameterization)尾部tokenmin(L, LNS)使用token-specific权重WqNS, WkNS, WvNS前部token使用共享权重WqS, WkS, WvS4. 输出层Task Tower进行多任务预测如CTR和CVR输出维度[B, n_task, D]TokenMixer-LargeOneRec v1/v2https://datawhalechina.github.io/fun-rec/chapter_7_gr_e2e/1.recommendation.htmlOneSug前缀-查询语义对齐前缀表示增强PRE 模块输入encoder进行编码得到encoder后的embedding然后自回归生成奖励加权排序策略定义奖励层级然后构造对比偏好对DPO学习EGA广告竞价预训练让模型回答“给定用户的历史行为他接下来可能对哪些 POI 和创意感兴趣”排列感知奖励模型位置外部性位置效应同一个广告在位置 1 的 CTR 远高于位置 5因为用户注意力随滚动衰减相邻效应如果位置 3 和位置 4 都是餐饮广告用户可能只点击一个导致两者相互抑制对比效应高质量广告后紧跟低质量广告会导致后者 CTR 下降对比鲜明第一阶段预训练拥有基本生成能力第二阶段对齐业务目标a. 奖励模型训练ctrcvr这些b. pg优化生成概率使得高奖励的 POI 获得更高的生成概率。c. 支付网络优化兼顾激励相容性, Lagrangian 对偶方法和ex-post regret近似保证GPRGenerative Pre-trained RecommenderRQ-kmeans生成sid解决codebook collapse问题rq-kmeans初始化残差连接端到端微调阶段一MTP 预训练——学习通用兴趣表示阶段二Value-Aware Fine-tuning——引入业务监督阶段三HEPOHierarchy Enhanced Policy Optimization——层次化策略优化前两个阶段通过监督学习建立了生成能力和价值预估能力但模型的优化目标仍然是”拟合历史数据”而非”最大化业务收益”。第三阶段通过强化学习让模型学会生成能够最大化平台收益的广告序列LC-RecSinkhorn-Knopp算法求解码本分配概率降低索引冲突率语义对齐训练– 序列物品预测– 索引到文本的映射– 基于意图的物品预测PLUM多分辨率码本掩码重建任务持续预训练进行语义对齐OneRec-Think加权融合替换简单embedding拼接逐层内容描述生成推理激活推理增强Think-Ahead ArchitectureRecZero/RecOne纯强化学习推理探索基于规则奖励建模RecOne用一些少量样本进行建模DiffuASR训练阶段从原有数据集中选择长度大于 M 的序列将前 M 个物品作为增强目标其余作为。这样可以利用真实的前序数据来监督扩散模型的学习。增强阶段对于每个用户序列执行引导的反向去噪过程生成前序并与原序列拼接形成增强后的训练数据。与其他序列增强方法相比DiffuASR生成的序列可以直接用于训练任何序列推荐模型无需修改模型架构具有很强的通用性。Diff-MSRDiff-MSR包含以下四个阶段。预训练阶段使用所有场景的数据训练一个多场景推荐骨干模型如MMoE得到共享的嵌入层。这一步获取跨场景通用的特征表示。扩散阶段针对每个冷启动场景分别训练两个扩散模型——一个用于正样本点击一个用于负样本未点击。输入是用户特征和物品属性的嵌入拼接。这些扩散模型学习冷启动场景的数据分布。分类阶段训练一个二分类器判断给定的加噪嵌入是来自冷启动场景还是数据丰富场景。关键操作是对数据丰富场景的样本进行不同程度的加噪然后用分类器判断。如果某个加噪样本被误判为冷启动场景说明它的”轮廓”与冷启动场景相似可以被利用。微调阶段– 使用三类数据微调冷启动场景的模型参数– 从误分类的丰富场景加噪样本出发用冷启动场景的扩散模型去噪得到的伪样本– 从纯高斯噪声出发生成的伪样本– 冷启动场景的真实数据AsymDiffRecDMSG多样性优化预测速度DMSG则利用扩散模型的随机采样特性在保证推荐相关性的同时提升了内容多样性和新鲜度。Reference参考代码https://github.com/soaprockets/rank-recall

更多文章

前端开发 2026/6/13 15:23:07

用PCL的CloudViewer玩转点云：从读取兔子模型到自定义背景色的完整C++示例

用PCL的CloudViewer玩转点云：从读取兔子模型到自定义背景色的完整C示例在三维视觉和机器人领域，点云处理是不可或缺的核心技能。而要让这些抽象的数据变得直观可感，一个强大的可视化工具至关重要。PCL（Point Cloud Library&#…

在现代电力系统中，电缆故障定位仪作为保障电力供应稳定性的关键设备，其市场发展与技术革新备受关注。随着全球能源结构的转型和智能电网的建设，对电缆故障定位仪的性能、智能化水平及可靠性提出了更高要求。本报告旨在深入分析2026年电缆故障…

张开发

前端开发 2026/6/13 17:56:32

5个提升效率技巧：Mac Mouse Fix让普通鼠标实现专业级操作体验

5个提升效率技巧：Mac Mouse Fix让普通鼠标实现专业级操作体验【免费下载链接】mac-mouse-fix Mac Mouse Fix - Make Your $10 Mouse Better Than an Apple Trackpad! 项目地址: https://gitcode.com/GitHub_Trending/ma/mac-mouse-fix 当你在macOS系统中使用…

张开发

生成式推荐模型学习记录part1

最新文章

拆解RoF-X-X系列：手把手教你配置热插拔与链路冗余，打造高可靠卫星地面站

避坑指南：Mac+VS Code+Anaconda配置PyQt6/PySide6时，Designer和rcc路径到底怎么找？

IoT-MCP框架：大语言模型与物联网的智能交互方案

抖音批量下载助手终极指南：三步自动化采集海量视频素材

AI Agent 时代：如何让AI帮你编写高质量Java接口

实战指南：如何在CIFAR-100-LT上使用LDAM Loss提升长尾分类效果（附代码）

推荐文章

相关文章

分享文章

更多文章

用PCL的CloudViewer玩转点云：从读取兔子模型到自定义背景色的完整C++示例

突破协作壁垒：网页设计转换技术实现设计与开发无缝衔接

Arduino-ESP32智能图像识别系统：从边缘计算到实际应用

Qwen3-ASR-1.7B歌唱识别展示：流行歌曲歌词自动生成

突破Windows 11性能瓶颈：Win11Debloat系统优化技术指南

从论文到效果：手把手带你用AOD-NET给自己的雾天照片‘一键清透’（含训练与测试全流程）

别再只盯着串口了！用STM32F103的CAN总线实现Ymodem固件升级，保姆级移植教程

突破系统壁垒：Ext2Read的5个非典型应用场景

OpenCV相机位姿估计函数全解析：从solvePnP到estimateAffine3D，手把手教你选对函数不踩坑

免费获取豆包手机同款功能：Open-AutoGLM部署与使用全攻略

2026年电缆故障定位仪市场深度解析：品牌影响力与厂家综合排名报告

5个提升效率技巧：Mac Mouse Fix让普通鼠标实现专业级操作体验