推荐系统中的特征工程

张开发

• 2026/6/4 17:50:15 • 15 分钟阅读

分享文章

有这么一句话在业界广泛流传数据和特征决定了机器学习的上限而模型和算法只是逼近这个上限而已。所以特征工程的目的是最大限度地从原始数据中提取特征, 以供算法和模型使用。特征类型普通离散特征职业, 婚姻状态等, 同常枚举值不超过100个.id类特征如淘宝上的活跃卖家, 可能就上千万了.连续实值特征即 continuous real-valed feature.如身高,体重.tf中的特征处理见参考[3].诸如连续值按区间边界分桶,string枚举值分配整数id, 还有对稀疏高维特征做 embedding等.清洗特征交叉figure gif动图, 描述特征交叉一般用在LR中. LR只有线性的表达能力, 所以做特征交叉可以额外获得一些非线性表达.如在个性化推荐中, 将用户的年龄离散化成10个档, 用户的性别又是2个档, 彼此交叉后就有了额外的20个特征.采样为了让样本均衡, 可以对某些类别的样本做欠采样或过采样处理.欠采样undersampling.以一定的概率采样.过采样oversampling.重复采样.数据变换离散化分布律如图所示.等频划分划分后, 图中每档的面积相同, 即每档的人数相同. 建议使用maxcompute的percentrank()函数,等宽划分对横坐标按照固定间距p进行划分, 即第一档为[a,ap), 第二档为[ap,a2p)正规化见参考[2]指定列的正规化正规化, Normalization, 又叫归一化.它会改变原有数据的分布, 使之落入一个小的特定区间.他会将原有数据转化为无量纲的纯数值, 便于不同单位的指标进行比较.在多指标评价体系中由于各评价指标的性质不同通常具有不同的量纲和数量级。当各指标间的水平相差很大时如果直接用原始指标值进行分析就会突出数值较高的指标在综合分析中的作用相对削弱数值水平较低指标的作用。因此为了保证结果的可靠性需要对原始指标数据进行标准化处理。min-max标准化KaTeX parse error: Got function \min with no arguments as subscript at position 15: x^*\frac{x-x_\̲m̲i̲n̲}{x_\max-x_\min…结果落入[0,1]之间.这种方法有一个缺陷就是当有新数据加入时可能导致max和min的变化需要重新定义。log函数转换x ∗ log ⁡ 10 x l o g 10 max ⁡ x^*\frac{\log_{10} x}{log_{10}\max}x∗log10maxlog10xz-score标准化最常见的标准化方法就是Z标准化也是SPSS统计软件中最为常用的标准化方法.x ∗ x − μ σ x^*\frac{x-\mu}{\sigma}x∗σx−μ其中μ为所有样本数据的均值σ为所有样本数据的标准差。向量的正规化把一个向量转化为单位向量, 即为向量的正规化.正规化的好处是, 计算 a,b 的cosine similarity, 只算 dot product 就可以了.a ( x 1 , x 2 , . . . , x n ) a(x_1,x_2, ... , x_n)a(x1,x2,...,xn)a ′ ( x 1 ∣ a ∣ , x 2 ∣ a ∣ , x n ∣ a ∣ ) a(\frac {x_1}{|a|} , \frac {x_2}{|a|}, \frac {x_n}{|a|} )a′(∣a∣x1,∣a∣x2,∣a∣xn)原向量为a, 正规化后的单位向量为a’.python 代码见下:# 向量的正规化importnumpyasnpdefnormalize(v):normnp.linalg.norm(v)ifnorm0:returnvreturnv/norm对数变换对数据做平滑处理时可以用到. 待补充.l o g 2 ( 1 x ) log_2(1x)log2(1x)经过的点有 (0,0)(≈30, ≈5)(≈128, ≈7)(≈255, ≈8),(≈512, ≈9), (≈1023, ≈10)(≈33000,≈15.00) 等y 1 l o g 2 ( 1 x ) y\frac1{log_2(1x)}ylog2(1x)1搜索排序评价指标ndcg会用到.令定义域x1, 经过的点 (1,1)(≈2, ≈0.62)(≈3, ≈0.5)(≈4, ≈0.43)(≈10, ≈0.29) .y l o g 2 x ylog_2xylog2x经过的点有 (1,0),(2,1)等参考使用sklearn做单机特征工程皮皮blog的数据标准化/归一化normalizationtf中的特征处理, tf.feature_column

更多文章

前端开发 2026/6/1 22:23:31

3个步骤实现Windows直接运行安卓应用：开发者与玩家的跨平台解决方案

3个步骤实现Windows直接运行安卓应用：开发者与玩家的跨平台解决方案【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 还在为手机应用无法在电脑上运行而困扰…

告别重复编码：Better Auth如何用Zod实现数据库模式自动转换【免费下载链接】better-auth The most comprehensive authentication framework for TypeScript 项目地址: https://gitcode.com/GitHub_Trending/be/better-auth Better Auth是一个全面的TypeScr…

张开发

最新版｜2026年OpenClaw4月云端安装、配置大模型APIkey、接入skill指南，零门槛5分钟

前端开发 2026/6/1 22:24:17

推荐系统中的特征工程

最新文章

.NET 11原生AI推理引擎深度解密：如何绕过ML.NET抽象层直驱ONNX Runtime 1.16 SIMD指令集？

告别BIGMAP水印！免费搭建GeoServer离线地图服务：从TIF/SHP数据到OpenLayers展示的保姆级教程

FPGA项目选RAM别纠结！单口、伪双口、真双口RAM性能实测对比（基于Artix-7开发板）

Day05：大模型生产环境常见问题与排障科普笔记

告别Makefile烦恼：用STM32CubeIDE一站式搞定ROS1 rosserial库的集成与编译

iOS企业应用分发太麻烦？手把手教你用MDM实现从上传IPA到员工手机自动安装的全链路

推荐文章

相关文章

分享文章

更多文章

3个步骤实现Windows直接运行安卓应用：开发者与玩家的跨平台解决方案

Winhance中文版：让Windows系统性能提升30%的系统优化工具全攻略

ComfyUI Qwen-Image-Edit-F2P保姆级教程：5分钟学会用一张脸生成全身照

Arcgis属性表管理技巧：巧用Excel实现‘先排序后编号’的完整工作流

WaveTools：解决《鸣潮》PC版游戏体验优化难题的智能方案

Path of Building汉化版终极指南：5步掌握流放之路角色构建神器

解决pip安装慢的问题：手把手教你配置国内镜像源

从‘吐槽’到‘拿Flag’：一个Web安全新手的BUU XSS漏洞通关实录与深度复盘

微软VibeVoice-TTS效果展示：生成自然流畅的多人对话播客

backoff事件处理完全手册：自定义成功、退避和放弃逻辑

告别重复编码：Better Auth如何用Zod实现数据库模式自动转换

最新版｜2026年OpenClaw4月云端安装、配置大模型APIkey、接入skill指南，零门槛5分钟