现在很多H5作品都是需要用户上传内容的,比如祝福语H5就需要用户填写文字;海报生成H5就要用户上传图片;还有视频和音频,用户也要上传相应的类型文件上去。但由于互联网实在是太宽泛了,用户基数庞大,所以面对用户上传的任何内容,都是需要进行检测的,避免违规内容的出现。否则稍有不慎H5案例就会被封,如果情况严重,还会给品牌带来更严重的后果。
下面,小编就图片、文字、音频、视频这四个方面来简单来给大家说一下上传内容如何避免违规。
1. 图片检测
图片检测的原理与文字检测类似,都是把原始内容拆散,提取一段一段的数据,然后与特征库进行比对分析。图片的检测显然要复杂一些,因为程序不能直接理解图片的内容,所以需要把图片中各个像素点的值提取出来,再根据特征库进行分析。
我们常用的图片检测接口是来自腾讯AI开放平台的暴恐识别和图片鉴黄两个接口,因为特征库不同,所以这两个接口是分开的,我们需要将用户上传的图片分别传到这两个接口进行检测,但原理完全相同。
暴恐识别会给出一系列的识别结果如恐怖分子、枪支、血液等,此外还会给出一个置信区间,即判断结果的可信度百分比。我们可以根据内容和百分比来设置一个判断标准,如恐怖分子+可信度超过80%,就拒绝用户的这张图片,要求重新上传等。
图片鉴黄同样也会给出结果,但并不会识别内容本身,而是给出“正常”、“性感”、“色情”三个结果,每个结果也会给置信区间。我们可以根据H5的目标用户群来设置判断标准,如针对儿童的H5,可以是性感+可信度超过50%,就拒绝用户的这张图片,要求重新上传;针对白领的H5,尺度则可以略微放宽。
2. 文字检测
文字检测是各种用户内容中最容易处理的,因为文字作为一种字符串,是相对容易处理的。文字的安全检测主要分为两步,第一步是拆词,第二步是查询。拆词指的是将用户输入的文字(往往是一段话)拆解成为一个一个的词语,查询指的是把这些词语逐个放到敏感词库里查询,看当前词是否为敏感词。
在以往,这两个步骤都不那么容易完成。拆词的难度在于是否能结合语义,如果逐个拆词就会闹出笑话,例如:……计划生育的和尚未计划生育的……
逐个拆词就会拆出“计划”、“生育”、“计划生育”,以及“计划生育的和尚”……这显然不是我们想要的结果。查询的难度在于需要有一个足够完善的敏感词库,以保证绝大部分敏感词都涵盖其中,不至于有特别严重的遗漏。根据当前的数据来看,这个词库应该包含超过20万个中文词汇。
所以,中文自然语言处理和安全检测一直是个挺大的难题,直到出现了云服务。国内有不少针对中文的自然语言处理检测服务,我们尝试过多个,最终认为腾讯云的NLP接口更好一些(包括其他鉴黄接口也是),处理速度足够快、涵盖敏感词也足够多,可能是因为腾讯的社交业务被坑过太多次吧(官方的说法是从用户聊天记录里积累出来的语料库)。
3. 音频检测
音频的检测可能是所有安全检测中最复杂的。首先,音频的数据是波形,且容易包含环境音、背景音等干扰,程序需要从多种波形中分辨出敏感音频。其次,音频还可能是人说的话,所以要识别人的语言声音中是否有敏感词汇。
所以,音频的安全检测就包含了音频检测和音频敏感词检测两个部分。但无论是哪种音频检测,其原理都是提取声波采样,再与海量的特征库进行比对。所以无论哪种内容类型的检测,特征库的完善与否都是非常重要的一环。
腾讯云的音频鉴黄和音频敏感词检测是同一个接口,可以选择是否开通音频鉴黄和音频敏感词检测功能(默认开通)。如果都开通的话,音频鉴黄会返回是否为色情、政治、谩骂音频并给出置信区间;音频关键词检测会返回敏感词数量、敏感词列表以及每个敏感词在音频中的开始时间和结束时间。
4. 视频检测
视频检测的原理就是对视频进行截图,然后使用图片鉴黄的方法来处理。腾讯云视频鉴黄接口是整合在视频点播功能中的,用户上传的视频会首先进行检测。对于时长小于500秒的视频,每1秒截图一次进行检测;时长大于等于500秒的视频,每1%时长截图一次进行检测。
以上就是一些检测用户上传内容的常用方式,都是以对接第三平台为主的,然后由工具来检测。但如果品牌方的要求比较高,也可以采取人工审核的方式,比如在H5制作的时候就加入后台,然后由专门的人员对用户上传的内容进行审核,这样就能够确保更高的安全性了。