一些碎片化想法

    为什么不能用所有的用户行为来表征用户向量?

  1. 平台充斥着新老用户,活跃用户和不活跃用户,所有用户行为组成的向量可能存在稀疏或者稠密两个极端。过于稀疏则不能客观反映用户的兴趣,过于稠密显得用户的兴趣过于复杂,在新闻阅读的场景下,用户的兴趣可能是随时间衰减的。

  2. 当item数据过多的时候,或者用户平台沉淀时间过长的时候,可能会造成维度灾难,计算开销巨大,过于稀疏和过于稠密属于不同的量纲。

    应该怎么做?

  1. 承认用户的兴趣随时间衰减,限定截取一段时间内的用户行为。用户需要有一定的行为,且不能是作弊的行为。对于少量行为可以加大奖励权重或采取其他的策略,对于作弊可以减少对应权重。奖励和惩罚权重不能主观设定,需要根据数据统计进行约定,针对群体而不是极个别。

  2. 对指标集合设定分值上限,将onehot转化为0-x区间的打分,机制可以是(x=0,3;y=0.7,a=0.5;b=0.2;c=0.2)。其中x和y只能出现一次并合计1分,a最多允许出现2次满分1分,b和c最多允许5次合计各1分

  3. 加入时间衰减例如:1/(1+log(t0-t1))

网友评论

0条评论

发表

网友评论

0条评论

发表

最新评论

推荐文章

彩龙

Copyright © 2008-2020 彩龙社区(https://www.clzg.cn) 版权所有 All Rights Reserved.

免责声明: 本网不承担任何由内容提供商提供的信息所引起的争议和法律责任。

经营许可证编号:滇B2-20090009-7

下载我家昆明APP 下载彩龙社区APP