两年后台产品经理工作，我把这些讲给你听（中）

发布时间：2019-11-24 16:16:16 所属栏目：创业来源：做站长

导读：副标题#e# 2017年入职，2019离职，2年社交产品后台的工作，让我对后台产品有了很多思考与总结；汇总成这3万字，分上中下三篇发布，此为中篇。希望能对大家有所帮助。接上篇，继续讲第二部分：做事节奏。 7. 入库流程模拟当结果数字被验证方案确定无问题，

副标题[/!--empirenews.page--]

2017年入职，2019离职，2年社交产品后台的工作，让我对后台产品有了很多思考与总结；汇总成这3万字，分上中下三篇发布，此为中篇。希望能对大家有所帮助。

接上篇，继续讲第二部分：做事节奏。

7. 入库流程模拟

当结果数字被验证方案确定无问题，开始推进。

在推进前，先要画流程模拟，来思考如何收集完整这些信息，以及都需要调用哪些服务来实现。

首先，需要注册者提供需要入库的博主唯一标识，而后进入抓取服务，将提供的博主基础信息和内容信息下载至数据库存储，获取完信息后通知注册者，进行SKU编辑；同时AI接入进行模型评估，而后博主被分级、估价，用于被划分不同组别的博主运营手中；最终评估完毕后打上对应标签，注册者提交审核，内部的博主运营接手进行审核，完成后资源被决定予以上架还是驳回的动作。

两年后台产品经理工作，我把这些讲给你听（中）

入库完成上架后，后续的博主运营接手进行包装、推至前端等工作，平台有对应的包装工具与CMS。

8. 收集ID

根据模拟流程图，第一环节，就是收集ID。

主要有两大角色参与：第一自然就是注册者本身，第二是机器抓取。

注册者本身，需要提供入库的博主唯一标识，才有后续的评估、交易等一系列业务动作。

所以第一步是提供唯一标识，对于我们的业务，唯一标识就像微信的ID或者是微博的ID或者是抖音的ID之类的。

9. 抓取

当注册者能够很方便地上传自己的帐号信息时，我们的机器将接手后续的工作。

首先，抓取组会插入高优先级的入库抓取任务——他们会根据你提供的博主链接，去反查博主的基本信息（比如昵称、头像、简介、粉丝数等），这些信息构成了数据库里的唯一博主信息（也就是SKU里面的基本信息），所有的附加数据、业务数据、交易数据等都会根据这条ID做关联。

然后，抓取会异步下载每个博主的前15篇内容，直接推送至AI的数据库，并主动通知AI——这是最高优任务。

最后，抓取会在每日凌晨，异步下载这个博主的全部内容，存储在OSS（数据很大，需要消耗资源），隔天早上AI会主动获取新增后，用于分类更新等动作。

为什么要通过抓取而不是不通过商务洽谈的形式拿到官方数据权限？

是因为社交广告的增量太过于迅猛了，各家社交平台自己也都在做广告交易平台，我们产品无异于社交平台的竞品，无可能谈接入的工作；而且自家对于数据越来越保密，加密/封锁/反扒的手段层出不穷，不仅只能通过被动渠道的数据获取，而且成本还很高——这也是为什么上述说提升动销率，博主分级是很重要的一个行为。

七、AI概述

当AI接手后，核心会输出分类、内容质量分和营销度分。

方式是会将前15篇内容进行特征分析，用于博主的分类工作，这是最高优先级的动作——因为注册者还在等公众号入库成功的通知。

至于为什么要通过AI计算，因为AI是相对客观的，之前一直是人工标注，但是人工的问题在于情感化严重，并且效率较低，虽然短期内准确率可能超过AI，但是中长期看无法和AI抗衡。并且人工标注所积累的信息和内容，没法沉淀至平台，都在每个人的脑子里装着，所以大势是AI分类取代人工。

在分类工作中，AI先用NLP提取文本特征，或图像识别提取画面特征，结合业务长期对模型的调整，提取分类特征，完成分类的工作。

这里不得不提一下AI分类在推进的过程中绕的一个弯：

在实际业务中发现：永远无法将某个博主下面的全部内容锁死在一个分类下，也无法将每篇内容锁死在一个分类下。

我最初简单的以为，每个博主的分类就是单纯的取每篇文章的分类加和，将频率最高的相关词打上变为分类——但发现准确率非常不理想。

我马上反应过来方法错了。

向上汇报后，最终招了专业的AI、算法组，积累了些时间大力气开发，才交给NLP去结合文章类型、版式、关键词、上下句、原创标记，甚至后面再会把博主本身的昵称、头像一起综合判断了，博主本身信息的权重是号主本身的初衷，这个权重比后面内容的权重要高。

在内测的时候，先从当时库内的十几万资源下手，去运行模型，第一轮不行，人工标注（我和运营一起）；提交，去优化，再试运行，还不好，可能上次是针对性的调整了badcase，可上次的goodcase调完以后变成badcase了；再去调整，收集无数场景和反馈后，来来回回可能有2个月的时间，才初见成效。

另一个困难就是统一认知，也就是每个人对每件事的理解都不一样：可能他认为这个结果挺好，另一个人就觉得不好。

针对这个问题，我们能做的一个是增大样本量，一个是尽可能去做一个相对完善的反馈流程和机制。

因此我们对每个有需要反馈的地方反馈功能，这个反馈是相互的，也就是机器会告诉人，我为啥打了这个分类；而人在进行调整的时候也会看到机器的这个思考，后续在人工修改的时候，都会收集5大信息。场景，是tag的形式，用于判定不同的人在不同场景下判断同一个东西会出分歧的差异。

错误的内容分类，是以tag形式，笔误还是计算错误，还是理解错误之类的；错误的具体内容，截图；以及预期的结果；每一个错误的反馈节点都要收集，最主要是在入库、评估、机器分类这里。比如上述分类的案例，在反馈中，这就是A说可能是A分类，B说可能是B分类，那么A就要充分说明原因——是哪段话或者哪个画面让你觉得是A分类，详尽描述反馈给分类模型，才能让分类模型越来越聪明。

1. 分类

最终明确8大分类：母婴、美妆、汽车、快消、游戏、知识教育、美食、vlog和无法确认的其它分类。每个分类的内容逻辑肯定都不一样，加权到博主分类上的逻辑和阈值也都不一样。

比方说机器识别到他有3篇内容是美妆，5篇是母婴，7篇是游戏，这时候怎么办？

——这种情况一般博主质量也不咋地。

根据长久的经验看，同时发生这三种分类的，机器会再结合其它特征去计算真正的博主重点，比如原创标记、版式等。

但假设完全一致该怎么办？

根据长久以来的人工经验判断，就有可能这个博主是美妆博主——不是最高也不是中间，反而是最低的，这就是大量人工训练集的结果。

我们后续解读可能是：出于美妆内容的创作成本比较高，不容易出题材，其它的类型比较简单，博主可能会相对穿插；但是若把游戏换成汽车，可能这个人的分类就变成汽车了，全是不一样的。

那么，有些博主身上看到的有些情况是单分类，有些的时候是三分类，差不多也是一样的道理——没准刚刚的博主就是母婴+美妆分类呢。

目前准确率只在60%左右（这已经很厉害了，偏感知层面的技术，从来准确率都不是很高的，但是已经可以很大程度减少人工了）。

（编辑：宿州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/8

尾页