AI鉴黄揭秘:大尺度开放直播平台及色情女主播天敌
目前多家人工智能公司已开始布局鉴黄业务,阿里巴巴和腾讯分别拥有阿里绿网、万象优图两大鉴黄系统。而在创业公司方面,较为知名的有图普科技、飞搜科技、深图智服等公司。
近期在线直播火爆,因此有些公司开始切入直播鉴黄这个细分领域。为此,雷锋网就以下问题请教了来自专攻色情识别的图普科技和在计算机视觉公司云从科技的技术专家进行解读。
直播(如花椒、映客)、在线视频(如优酷、爱奇艺)、图片鉴黄的区别在哪儿?直播的鉴黄难度是否最大?要解决哪些技术问题?
云从科技高级算法工程师周翔:
其实这三项(直播,在线视频,图片鉴黄)差异不大,三者都可归类为实时视频处理和海量图片处理。
视频/直播是动态的,图片是静态的。鉴别视频和直播时,可以把动态内容解码变成图片帧来判断,这样就与静态图片鉴别没差了。
至于技术问题,其实鉴黄在算法层面难度并不高,利用深度学习算法训练后,就能达到不错的鉴黄效果。
图普科技工程师则在计算能力和算法要求上做了一些小补充:
目前主要是通过间隔截图、关键帧截图之类的对直播和在线视频进行识别处理,所以最终也是对单张图片的处理。
但是,由于直播的实时性,所以直播相对于另外在线视频和图片,对于机器的图片识别的处理速度要求较高,这主要是对于计算能力和算法的要求加大。
至于是屏蔽、删除或者禁播等方面的处理,主要是看业务方,可以选择由机器自动处理或者人工介入。
既然算法门槛不是很高,为什么一些CV公司不增一项视频/直播鉴黄业务捞点油水?
云从科技高级算法工程师周翔:
一方面是他们不太愿意做。
另一方面虽然CV公司可能有现成的鉴黄算法训练系统平台,但是他们缺数据。鉴黄需要大量的数据来进行训练。黄色图片和视频帧最好达到十万的量级深度学习才能跑起来。至于如何收集这些数据,一般情况下很多视频直播都已经有现成的,包括鉴黄中心等都有非常大量的此类图片。
刚提到大批量数据用深度学习来训练,而训练小批量数据一般采用传统的特征分析加分类器算法来做,但效果和精度没有目前的深度学习高。
直播鉴黄是不是要识别里面的每一帧图像,这样计算量岂不是很大?
图普科技工程师:
这与算法能力关系不大,在算法和工程能力都已经达到最优的情况下,这个是属于企业的成本预算问题。
直播是视频流,企业如果对直播的每一帧的图片都进行识别,这是非常巨大的数据量,企业的运营成本自然较高。所以我们一般建议企业按自己的需求,对于视频先进行抽帧处理,例如一分钟视频的视频可以按照时间段抽6-15帧左右的图片进行识别处理之类的来控制成本。