加入收藏 | 设为首页 | 会员中心 | 我要投稿 宿州站长网 (https://www.0557zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > 正文

两年后台产品经理工作,我把这些讲给你听(中)

发布时间:2019-11-24 16:16:16 所属栏目:创业 来源:做站长
导读:副标题#e# 2017年入职,2019离职,2年社交产品后台的工作,让我对后台产品有了很多思考与总结;汇总成这3万字,分上中下三篇发布,此为中篇。希望能对大家有所帮助。 接上篇,继续讲第二部分:做事节奏。 7. 入库流程模拟 当结果数字被验证方案确定无问题,
副标题[/!--empirenews.page--]

2017年入职,2019离职,2年社交产品后台的工作,让我对后台产品有了很多思考与总结;汇总成这3万字,分上中下三篇发布,此为中篇。希望能对大家有所帮助。

两年后台产品经理工作,我把这些讲给你听(中)

接上篇,继续讲第二部分:做事节奏。

7. 入库流程模拟

当结果数字被验证方案确定无问题,开始推进。

在推进前,先要画流程模拟,来思考如何收集完整这些信息,以及都需要调用哪些服务来实现。

首先,需要注册者提供需要入库的博主唯一标识,而后进入抓取服务,将提供的博主基础信息和内容信息下载至数据库存储,获取完信息后通知注册者,进行SKU编辑;同时AI接入进行模型评估,而后博主被分级、估价,用于被划分不同组别的博主运营手中;最终评估完毕后打上对应标签,注册者提交审核,内部的博主运营接手进行审核,完成后资源被决定予以上架还是驳回的动作。

两年后台产品经理工作,我把这些讲给你听(中)

入库完成上架后,后续的博主运营接手进行包装、推至前端等工作,平台有对应的包装工具与CMS。

8. 收集ID

根据模拟流程图,第一环节,就是收集ID。

主要有两大角色参与:第一自然就是注册者本身,第二是机器抓取。

注册者本身,需要提供入库的博主唯一标识,才有后续的评估、交易等一系列业务动作。

所以第一步是提供唯一标识,对于我们的业务,唯一标识就像微信的ID或者是微博的ID或者是抖音的ID之类的。

9. 抓取

当注册者能够很方便地上传自己的帐号信息时,我们的机器将接手后续的工作。

首先,抓取组会插入高优先级的入库抓取任务——他们会根据你提供的博主链接,去反查博主的基本信息(比如昵称、头像、简介、粉丝数等),这些信息构成了数据库里的唯一博主信息(也就是SKU里面的基本信息),所有的附加数据、业务数据、交易数据等都会根据这条ID做关联。

然后,抓取会异步下载每个博主的前15篇内容,直接推送至AI的数据库,并主动通知AI——这是最高优任务。

最后,抓取会在每日凌晨,异步下载这个博主的全部内容,存储在OSS(数据很大,需要消耗资源),隔天早上AI会主动获取新增后,用于分类更新等动作。

为什么要通过抓取而不是不通过商务洽谈的形式拿到官方数据权限?

是因为社交广告的增量太过于迅猛了,各家社交平台自己也都在做广告交易平台,我们产品无异于社交平台的竞品,无可能谈接入的工作;而且自家对于数据越来越保密,加密/封锁/反扒的手段层出不穷,不仅只能通过被动渠道的数据获取,而且成本还很高——这也是为什么上述说提升动销率,博主分级是很重要的一个行为。

七、AI概述

当AI接手后,核心会输出分类、内容质量分和营销度分。

方式是会将前15篇内容进行特征分析,用于博主的分类工作,这是最高优先级的动作——因为注册者还在等公众号入库成功的通知。

至于为什么要通过AI计算,因为AI是相对客观的,之前一直是人工标注,但是人工的问题在于情感化严重,并且效率较低,虽然短期内准确率可能超过AI,但是中长期看无法和AI抗衡。并且人工标注所积累的信息和内容,没法沉淀至平台,都在每个人的脑子里装着,所以大势是AI分类取代人工。

在分类工作中,AI先用NLP提取文本特征,或图像识别提取画面特征,结合业务长期对模型的调整,提取分类特征,完成分类的工作。

这里不得不提一下AI分类在推进的过程中绕的一个弯:

在实际业务中发现:永远无法将某个博主下面的全部内容锁死在一个分类下,也无法将每篇内容锁死在一个分类下。

我最初简单的以为,每个博主的分类就是单纯的取每篇文章的分类加和,将频率最高的相关词打上变为分类——但发现准确率非常不理想。

我马上反应过来方法错了。

向上汇报后,最终招了专业的AI、算法组,积累了些时间大力气开发,才交给NLP去结合文章类型、版式、关键词、上下句、原创标记,甚至后面再会把博主本身的昵称、头像一起综合判断了,博主本身信息的权重是号主本身的初衷,这个权重比后面内容的权重要高。

在内测的时候,先从当时库内的十几万资源下手,去运行模型,第一轮不行,人工标注(我和运营一起);提交,去优化,再试运行,还不好,可能上次是针对性的调整了badcase,可上次的goodcase调完以后变成badcase了;再去调整,收集无数场景和反馈后,来来回回可能有2个月的时间,才初见成效。

另一个困难就是统一认知,也就是每个人对每件事的理解都不一样:可能他认为这个结果挺好,另一个人就觉得不好。

针对这个问题,我们能做的一个是增大样本量,一个是尽可能去做一个相对完善的反馈流程和机制。

因此我们对每个有需要反馈的地方反馈功能,这个反馈是相互的,也就是机器会告诉人,我为啥打了这个分类;而人在进行调整的时候也会看到机器的这个思考,后续在人工修改的时候,都会收集5大信息。场景,是tag的形式,用于判定不同的人在不同场景下判断同一个东西会出分歧的差异。

错误的内容分类,是以tag形式,笔误还是计算错误,还是理解错误之类的;错误的具体内容,截图;以及预期的结果;每一个错误的反馈节点都要收集,最主要是在入库、评估、机器分类这里。比如上述分类的案例,在反馈中,这就是A说可能是A分类,B说可能是B分类,那么A就要充分说明原因——是哪段话或者哪个画面让你觉得是A分类,详尽描述反馈给分类模型,才能让分类模型越来越聪明。

1. 分类

最终明确8大分类:母婴、美妆、汽车、快消、游戏、知识教育、美食、vlog和无法确认的其它分类。每个分类的内容逻辑肯定都不一样,加权到博主分类上的逻辑和阈值也都不一样。

比方说机器识别到他有3篇内容是美妆,5篇是母婴,7篇是游戏,这时候怎么办?

——这种情况一般博主质量也不咋地。

根据长久的经验看,同时发生这三种分类的,机器会再结合其它特征去计算真正的博主重点,比如原创标记、版式等。

但假设完全一致该怎么办?

根据长久以来的人工经验判断,就有可能这个博主是美妆博主——不是最高也不是中间,反而是最低的,这就是大量人工训练集的结果。

我们后续解读可能是:出于美妆内容的创作成本比较高,不容易出题材,其它的类型比较简单,博主可能会相对穿插;但是若把游戏换成汽车,可能这个人的分类就变成汽车了,全是不一样的。

那么,有些博主身上看到的有些情况是单分类,有些的时候是三分类,差不多也是一样的道理——没准刚刚的博主就是母婴+美妆分类呢。

目前准确率只在60%左右(这已经很厉害了,偏感知层面的技术,从来准确率都不是很高的,但是已经可以很大程度减少人工了)。

(编辑:宿州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读