百度网站介绍显示图片上海城隍庙

张小明 2026/1/5 22:01:44
百度网站介绍显示图片,上海城隍庙,附近广告公司,班级优化大师免费下载文章目录 0 前言2 用户画像分析概述2.1 用户画像构建的相关技术2.2 标签体系2.3 标签优先级 3 实站 - 百货商场用户画像描述与价值分析3.1 数据格式3.2 数据预处理3.3 会员年龄构成3.4 订单占比 消费画像3.5 季度偏好画像3.6 会员用户画像与特征3.6.1 构建会员用户业务特征标签…文章目录0 前言2 用户画像分析概述2.1 用户画像构建的相关技术2.2 标签体系2.3 标签优先级3 实站 - 百货商场用户画像描述与价值分析3.1 数据格式3.2 数据预处理3.3 会员年龄构成3.4 订单占比 消费画像3.5 季度偏好画像3.6 会员用户画像与特征3.6.1 构建会员用户业务特征标签3.6.2 会员用户词云分析4 最后0 前言Hi大家好这里是丹成学长今天做一个电商销售预测分析这只是一个demo尝试对电影数据进行分析并可视化系统这两年开始毕业设计和毕业答辩的要求和难度不断提升传统的毕设题目缺少创新和亮点往往达不到毕业答辩的要求这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。并且很难找到完整的毕设参考学习资料。为了大家能够顺利以及最少的精力通过毕设学长分享优质毕业设计项目提供大家参考学习今天要分享的是大数据用户画像分析系统学长这里给一个题目综合评分(每项满分5分)难度系数3分工作量3分创新点4分 项目分享:见文末!实现效果毕业设计 大数据用户行为分析https://www.bilibili.com/video/BV1Hc41187N32 用户画像分析概述用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。通俗说就是给用户打标签而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述用户可以让人更容易理解用户并且可以方便计算机处理。标签化就是数据的抽象能力互联网下半场精细化运营将是长久的主题用户是根本也是数据分析的出发点2.1 用户画像构建的相关技术我们对构建用户画像的方法进行总结归纳发现用户画像的构建一般可以分为目标分析、体系构建、画像建立三步。画像构建中用到的技术有数据统计、机器学习和自然语言处理技术NLP等下如图所示。具体的画像构建方法学长会在后面的部分详细介绍。按照数据流处理阶段划分用户画像建模的过程分为三个层每一层次都需要打上不同的标签。数据层用户消费行为的标签。打上事实标签作为数据客观的记录算法层透过行为算出的用户建模。打上模型标签作为用户画像的分类业务层指的是获客、粘客、留客的手段。打上预测标签作为业务关联的结果2.2 标签体系目前主流的标签体系都是层次化的如下图所示。首先标签分为几个大类每个大类下进行逐层细分。在构建标签时我们只需要构建最下层的标签就能够映射到上面两级标签。上层标签都是抽象的标签集合一般没有实用意义只有统计意义。例如我们可以统计有人口属性标签的用户比例但用户有人口属性标签本身对广告投放没有任何意义。2.3 标签优先级构建的优先级需要综合考虑业务需求、构建难易程度等业务需求各有不同这里介绍的优先级排序方法主要依据构建的难易程度和各类标签的依存关系优先级如下图所示我们把标签分为三类这三类标签有较大的差异构建时用到的技术差别也很大。第一类是人口属性这一类标签比较稳定一旦建立很长一段时间基本不用更新标签体系也比较固定第二类是兴趣属性这类标签随时间变化很快标签有很强的时效性标签体系也不固定第三类是地理属性这一类标签的时效性跨度很大如GPS轨迹标签需要做到实时更新而常住地标签一般可以几个月不用更新挖掘的方法和前面两类也大有不同如图所示3 实站 - 百货商场用户画像描述与价值分析3.1 数据格式3.2 数据预处理部分代码# 作者丹成学长 Q746876041importmatplotlibimportwarningsimportreimportpandasaspdimportnumpyasnpimportseabornassnsimportmatplotlib.pyplotaspltfromsklearn.clusterimportKMeansfromsklearn.metricsimportsilhouette_scorefromsklearn.preprocessingimportStandardScaler,MinMaxScaler%matplotlib inline plt.rcParams[font.sans-serif]SimHeiplt.rcParams[axes.unicode_minus]Falsematplotlib.rcParams.update({font.size:16})plt.style.use(ggplot)warnings.filterwarnings(ignore)df_cumpd.read_excel(./cumcm2018c1.xlsx)df_cum# 先来对会员信息表进行分析print(会员信息表一共有{}行记录{}列字段.format(df_cum.shape[0],df_cum.shape[1]))print(数据缺失的情况为\n{}.format(df_cum.isnull().mean()))print(会员卡号不重复有{}条记录.format(len(df_cum[会员卡号].unique())))# 会员信息表去重df_cum.drop_duplicates(subset会员卡号,inplaceTrue)print(会员卡号去重有{}条记录.format(len(df_cum[会员卡号].unique())))# 去除登记时间的缺失值不能直接dropna因为我们需要保留一定的数据集进行后续的LRFM建模操作df_cum.dropna(subset[登记时间],inplaceTrue)print(df_cum去重和去缺失有{}条记录.format(df_cum.shape[0]))# 性别上缺失的比例较少所以下面采用众数填充的方法df_cum[性别].fillna(df_cum[性别].mode().values[0],inplaceTrue)df_cum.info()# 由于出生日期这一列的缺失值过多且存在较多的异常值不能贸然删除# 故下面另建一个数据集L来保存“出生日期”和“性别”信息方便下面对会员的性别和年龄信息进行统计Lpd.DataFrame(df_cum.loc[df_cum[出生日期].notnull(),[出生日期,性别]])L[年龄]L[出生日期].astype(str).apply(lambdax:x[:3]0)L.drop(出生日期,axis1,inplaceTrue)L[年龄].value_counts()...(略)....3.3 会员年龄构成# 使用上述预处理后的数据集L包含两个字段分别是“年龄”和“性别”先画出年龄的条形图fig,axsplt.subplots(1,2,figsize(16,7),dpi100)# 绘制条形图axsns.countplot(x年龄,dataL,axaxs[0])# 设置数字标签forpinax.patches:heightp.get_height()ax.text(xp.get_x()(p.get_width()/2),yheight500,s{:.0f}.format(height),hacenter)axs[0].set_title(会员的出生年代)# 绘制饼图axs[1].pie(sex_sort,labelssex_sort.index,wedgeprops{width:0.4},counterclockFalse,autopct%.2f%%,pctdistance0.8)axs[1].set_title(会员的男女比例)plt.savefig(./会员出生年代及男女比例情况.png)# 绘制各个年龄段的饼图plt.figure(figsize(8,6),dpi100)plt.pie(res.values,labels[中年,青年,老年],autopct%.2f%%,pctdistance0.8,counterclockFalse,wedgeprops{width:0.4})plt.title(会员的年龄分布)plt.savefig(./会员的年龄分布.png)3.4 订单占比 消费画像# 由于相同的单据号可能不是同一笔消费以“消费产生的时间”为分组依据我们可以知道有多少个不同的消费时间即消费的订单数fig,axsplt.subplots(1,2,figsize(12,7),dpi100)axs[0].pie([len(df1.loc[df1[会员]1,消费产生的时间].unique()),len(df1.loc[df1[会员]0,消费产生的时间].unique())],labels[会员,非会员],wedgeprops{width:0.4},counterclockFalse,autopct%.2f%%,pctdistance0.8)axs[0].set_title(总订单占比)axs[1].pie([df1.loc[df1[会员]1,消费金额].sum(),df1.loc[df1[会员]0,消费金额].sum()],labels[会员,非会员],wedgeprops{width:0.4},counterclockFalse,autopct%.2f%%,pctdistance0.8)axs[1].set_title(总消费金额占比)plt.savefig(./总订单和总消费占比情况.png)消费偏好我觉得会稍微偏向与消费的频次相当于消费的订单数因为每笔消费订单其中所包含的消费商品和金额都是不太一样的有的订单所消费的商品很少但金额却很大有的消费的商品很多但金额却特别少。如果单纯以总金额来衡量的话会员下次消费时间可能会很长消费频次估计也会相对变小因为这次所购买的商品已经足够用了。所以我会偏向于认为一个用户消费频次订单数越多就越能带来更多的价值从另一方面上来讲用户也不可能一直都是消费低端产品消费频次越多用户的粘性也会相对比较大3.5 季度偏好画像# 前提假设2015-2018年之间消费者偏好在时间上不会发生太大的变化均值消费偏好——以不同时间的订单数来衡量quarters_list,quarters_orderorders(df_vip,季度,3)days_list,days_orderorders(df_vip,天,36)time_list[quarters_list,days_list]order_list[quarters_order,days_order]maxindex_list[quarters_order.index(max(quarters_order)),days_order.index(max(days_order))]fig,axsplt.subplots(1,2,figsize(18,7),dpi100)colorsnp.random.choice([r,g,b,orange,y],replaceFalse,sizelen(axs))titles[季度的均值消费偏好,天数的均值消费偏好]labels[季度,天数]foriinrange(len(axs)):axaxs[i]ax.plot(time_list[i],order_list[i],linestyle-.,ccolors[i],markero,alpha0.85)ax.axvline(xtime_list[i][maxindex_list[i]],linestyle--,ck,alpha0.8)ax.set_title(titles[i])ax.set_xlabel(labels[i])ax.set_ylabel(均值消费订单数)print(f{titles[i]}最优的时间为:{time_list[i][maxindex_list[i]]}\t 对应的均值消费订单数为:{order_list[i][maxindex_list[i]]})plt.savefig(./季度和天数的均值消费偏好情况.png)# 自定义函数来绘制不同年份之间的的季度或天数的消费订单差异defplot_qd(df,label_y,label_m,nrow,ncol): df: 为DataFrame的数据集 label_y: 为年份的字段标签 label_m: 为标签的一个列表 n_row: 图的行数 n_col: 图的列数 # 必须去掉最后一年的数据只能对2015-2017之间的数据进行分析y_listnp.sort(df[label_y].unique().tolist())[:-1]colorsnp.random.choice([r,g,b,orange,y,k,c,m],replaceFalse,sizelen(y_list))markers[o,^,v]plt.figure(figsize(8,6),dpi100)fig,axsplt.subplots(nrow,ncol,figsize(16,7),dpi100)forkinrange(len(label_m)):m_listnp.sort(df[label_m[k]].unique().tolist())foriinrange(len(y_list)):order_m[]index1df[label_y]y_list[i]forjinrange(len(m_list)):index2df[label_m[k]]m_list[j]order_m.append(len(df.loc[index1index2,消费产生的时间].unique()))axs[k].plot(m_list,order_m,linestyle-.,ccolors[i],alpha0.8,markermarkers[i],labely_list[i],markersize4)axs[k].set_xlabel(f{label_m[k]})axs[k].set_ylabel(消费订单数)axs[k].set_title(f2015-2018年会员的{label_m[k]}消费订单差异)axs[k].legend()plt.savefig(f./2015-2018年会员的{和.join(label_m)}消费订单差异.png)# 自定义函数来绘制不同年份之间的月份消费订单差异defplot_ym(df,label_y,label_m): df: 为DataFrame的数据集 label_y: 为年份的字段标签 label_m: 为月份的字段标签 # 必须去掉最后一年的数据只能对2015-2017之间的数据进行分析y_listnp.sort(df[label_y].unique().tolist())[:-1]m_listnp.sort(df[label_m].unique().tolist())colorsnp.random.choice([r,g,b,orange,y],replaceFalse,sizelen(y_list))markers[o,^,v]fig,axsplt.subplots(1,2,figsize(18,8),dpi100)foriinrange(len(y_list)):order_m[]money_m[]index1df[label_y]y_list[i]forjinrange(len(m_list)):index2df[label_m]m_list[j]order_m.append(len(df.loc[index1index2,消费产生的时间].unique()))money_m.append(df.loc[index1index2,消费金额].sum())axs[0].plot(m_list,order_m,linestyle-.,ccolors[i],alpha0.8,markermarkers[i],labely_list[i])axs[1].plot(m_list,money_m,linestyle-.,ccolors[i],alpha0.8,markermarkers[i],labely_list[i])axs[0].set_xlabel(月份)axs[0].set_ylabel(消费订单数)axs[0].set_title(2015-2018年会员的消费订单差异)axs[1].set_xlabel(月份)axs[1].set_ylabel(消费金额总数)axs[1].set_title(2015-2018年会员的消费金额差异)axs[0].legend()axs[1].legend()plt.savefig(./2015-2018年会员的消费订单和金额差异.png)maxindexorder_nums.index(max(order_nums))plt.figure(figsize(8,6),dpi100)plt.plot(x_list,order_nums,linestyle-.,markero,cm,alpha0.8)plt.xlabel(小时)plt.ylabel(消费订单)plt.axvline(xx_list[maxindex],linestyle--,cr,alpha0.6)plt.title(2015-2018年各段小时的销售订单数)plt.savefig(./2015-2018年各段小时的销售订单数.png)3.6 会员用户画像与特征3.6.1 构建会员用户业务特征标签# 取DataFrame之后转置取values得到一个列表再绘制对应的词云可以自定义一个绘制词云的函数输入参数为df和会员卡号 L: 入会程度新用户、中等用户、老用户 R: 最近购买的时间月 F: 消费频数低频、中频、高频 M: 消费总金额高消费、中消费、低消费 P: 积分高、中、低 S: 消费时间偏好凌晨、上午、中午、下午、晚上 X性别 # 开始对数据进行分组 L入会程度3个月以下为新用户4-12个月为中等用户13个月以上为老用户 R最近购买的时间 F消费频次次数20次以上的为高频消费6-19次为中频消费5次以下为低频消费 M消费金额10万以上为高等消费1万-10万为中等消费1万以下为低等消费 P消费积分10万以上为高等积分用户1万-10万为中等积分用户1万以下为低等积分用户 df_profilepd.DataFrame()df_profile[会员卡号]df[id]df_profile[性别]df[X]df_profile[消费偏好]df[S].apply(lambdax:您喜欢在str(x)时间进行消费)df_profile[入会程度]df[L].apply(lambdax:老用户ifint(x)13else中等用户ifint(x)4else新用户)df_profile[最近购买的时间]df[R].apply(lambdax:您最近str(int(x)*30)天前进行过一次购物)df_profile[消费频次]df[F].apply(lambdax:高频消费ifx20else中频消费ifx6else低频消费)df_profile[消费金额]df[M].apply(lambdax:高等消费用户ifint(x)1e05else中等消费用户ifint(x)1e04else低等消费用户)df_profile[消费积分]df[P].apply(lambdax:高等积分用户ifint(x)1e05else中等积分用户ifint(x)1e04else低等积分用户)df_profile3.6.2 会员用户词云分析# 开始绘制用户词云封装成一个函数来直接显示词云defwc_plot(df,id_labelNone): df: 为DataFrame的数据集 id_label: 为输入用户的会员卡号默认为随机取一个会员进行展示 myfontC:/Windows/Fonts/simkai.ttfifid_labelNone:id_labeldf.loc[np.random.choice(range(df.shape[0])),会员卡号]textdf[df[会员卡号]id_label].T.iloc[:,0].values.tolist()plt.figure(dpi100)wcWordCloud(font_pathmyfont,background_colorwhite,width500,height400).generate_from_text( .join(text))plt.imshow(wc)plt.axis(off)plt.savefig(f./会员卡号为{id_label}的用户画像.png)plt.show()4 最后 项目分享:见文末!
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

怎么做招聘网站设计艺术视频手机网站可以做吗

文章目录单体架构的黄金时代与终结:优势、瓶颈与拆分解构发布、扩展、协作成本拐点深度分析与拆分时机决策框架📋 目录🏛️ 一、单体架构的黄金时代💡 单体架构的历史地位🎯 单体架构的核心价值⚖️ 二、单体架构的隐藏…

张小明 2026/1/4 21:09:05 网站建设

沈阳专业网站制作设计做外围网站代理违法吗

如何快速掌握安卓设备远程控制:scrcpy完整使用指南 【免费下载链接】scrcpy Display and control your Android device 项目地址: https://gitcode.com/gh_mirrors/sc/scrcpy 在当今移动设备普及的时代,安卓设备远程控制已成为提升工作效率和便捷…

张小明 2026/1/4 21:07:02 网站建设

企业网站管理后台wordpress超级留言板

文件服务配置与磁盘加密全解析 1. EFS证书恢复与加密基础概念 加密技术在当今的数据保护中起着至关重要的作用,它能将数据转换为他人无法读取的格式。常见的加密技术如EFS(Encrypting File System)和BitLocker,它们在数据保护方面各有特点。 当需要恢复EFS证书时,可以按…

张小明 2026/1/4 21:05:00 网站建设

手机wap网站制作免费网页设计师是什么专业

💟博主:程序员小俊:CSDN作者、博客专家、全栈领域优质创作者 💟 专注于计算机毕业设计,大数据、深度学习、Java、小程序、 python、安卓等技术领域 📲文章末尾获取源码数据库 🌈还有大家在毕设选…

张小明 2026/1/4 21:02:58 网站建设

内外网网站栏目建设方案网站建设的论文参考文献

为了让团队更透彻地理解为什么我们要从成熟的 H.264 切换到 H.265,以及这两者在底层原理上的本质区别,我为您整理了一份深度的技术对标分析。 这份资料可用于内部技术分享或架构评审会议。 深度解析:H.264 (AVC) 与 H.265 (HEVC) 全方位对标…

张小明 2026/1/4 20:58:55 网站建设

平安网站建设工作总结俄美战争已打响了

秒杀场景的核心痛点是瞬时高并发(QPS 数万/数十万)、库存超卖、接口防刷、性能瓶颈等,Go 虽天生适合高并发,但落地秒杀系统时仍易踩诸多坑。本文梳理高频踩坑点、根因及解决方案,覆盖业务、架构、代码层面。 一、核心坑…

张小明 2026/1/4 20:56:53 网站建设