网络不良信息监管技术大致可以分为 5 类:
①URL 信息监管技术
②不良文本信息监管技术
③不良图像信息监管技术
④不良音频信息监管技术
⑤不良视频信息监管技术
以上技术中,目前广泛使用基于机器学习的方法进行处理。在这一领域,文本信息处理相对成熟,图像、视频处理次之,音频处理再次。
URL简介(参考教材P218)
URL(Uniform Resource Locator,统一资源定位符)是 WWW 上信息资源的统一且唯一的地址,该网络地址由 3 部分组成:资源类型(协议或模式)、存放资源的主机域名、资源文件名。
URL 本身包含站点、目录等结构和特征,一个完整的 URL 唯一地确定了一个请求的资源,可以是页面、内容模块、文件或多媒体资源等。基本 URL 的语法格式通常为([ ]为可选项):
Protocol://hostname[:port]/path/[;parameters][?query]#fragment
URL 链接识别
要实现 URL 信息监管,需要系统自动识别出网页中含有的所有链接以及使用 URL 或点分形式出现的文本。
URL 链接检测主要采用静态特征检测方式来实现。
URL 链接静态特征检测方法的核心是特征码匹配。
在进行 URL 链接识别时,可以分两步进行。首先要计算待检测页面 URL 及其子链接的 MD5 值,然后到黑名单中搜索其是否存在。如存在,则直接判定为恶意 URL。如不存在,则需要分析待检测页面 URL 及其子链接中的关键字、域名注册时间和注册结构等信息,提取其特征向量,计算该 URL 与已知恶意 URL 的关键特征相似度,并根据事先设定的参考阈值来判断,如果超出了该参考阈值,则认为是恶意 URL,否则认为是正常 URL。这种两步分析法可以提升检测速度,降低对服务器开销的影响。
URL 链接的预处理
在进行已知 URL 和待检测 URL 的内容、位置等相关属性特征提取之前,有时候需要进行URL 的合法性判断和归一化处理。
URL 合法性判断是检测 URL 是否符合合法约束,可以用正则式处理。比如,host 的合法约束为:字符总长度小于 255,范围为 a~z、A~Z、0~9、“-.”;端口长度为 1~5,字符范围为 10 进制数 0~9,取值范围为 1~65536。
URL 归一化,就是在合法性判断之后,对表现形式各异的 URL 进行标准化处理,具体方法如下:
①去除协议头:例如“http:bit.edu.cn/”→“bit.edu.cn/”
②Host域归一化:例如“http://bit%2eedu%2ecn/”→“bit.edu.cn/”
③Path域归一化:例如“http://www.bit.edu.cn/../index.htm/”→http://www.bit.edu.cn/index.htm/
④query 域的归一化:例如“http://www.bit.edu.cn/???z=l”→“bit.edu.cn?z=l”
(参考教材P219)
不良文本信息在网页、电子邮件、论坛、博客、微博、微信等中大量存在,据统计,网络中 70%左右的内容是以文本形式存在的。
不良文本信息监管首先需要进行不良文本检测。文本检测涉及:
① 关键字、特征词、属性词识别;
② 语法、语义、语用识别;
③ 主题、立场、属性识别等内容,具体技术涉及规则匹配、串匹配、自然语言理解、分类算法、聚类算法等。
不良文本检测常用基于关键词的检测方法和基于分类技术的检测方法等。
基于关键词的文本检测主要采用关键词过滤方法。这种方法的核心是建立良好的分词机制,利用合理的特征词优化和关键词算法,实现基于关键词的文本过滤和检测。较其他语义过滤方法,该方法实现相对简单、速度相对较快、对于规范词汇过滤效果较好。
(参考教材P220)
不良图像信息监管的技术核心是不良图像的自动识别,涉及图像处理、模式识别、概率统计等技术领域,监管内容包括色情、暴力、反动等各类图像,其中以色情图像为主。
要实现不良图像的识别与监管,首先需要对网站上的各种图片文件进行高效搜索,记录相关图片信息,并对特定的网页图片进行下载和识别,通过对图像的统一化读取处理,获取图像对象的属性,并进行类型分析,然后完成对象模式转换。
本节以色情图像识别与监管为例,其关键技术包括肤色检测、人脸检测、连通区域分析等。
肤色检测:色情图像识别首先要进行肤色检测,其目的在于剔除肤色像素较少的图像。不同光照下的肤色识别通常采用转换到 HSV(Hue色调,Saturation饱和度,Value明度)颜色模型空间+变换的方式来获得概率模型。
人脸识别:如果待检测图像中的肤色像素比例超过设定阈值(即肤色占比高),则需要进行人脸检测,以排除人脸对大面积裸露的肤色区域识别的影响。其中牵涉的肤色分割问题通常采用基于 GMM(高斯混合模型)的区域肤色分割技术来解决。通过高斯混合模型分割后,可以分割出各肤色块的总块数、面积、位置等属性信息统计,利用上述信息进行综合评判,可以显著降低误判率。
连通区域分析:此外,在色情图像识别中还需要用到连通区域分析、低级视觉特征(包括颜色、形状和纹理特征等)分析以及低级视觉特征(包括高级语义内容等)分析等技术来辅助决策,从而进一步提高检测精度和检测效率。
(参考教材P220)
音频信息内容丰富,涵盖语音、音乐、说话人、语种等信息。
不良语音识别技术可以将音频中语音转换为文字,然后借用文字识别技术实现不良信息检测
音频分类是音频识别的基础。通过音频分类,利用音频的时域、频域特征,可以将不同内容的音频数据分为语音、音乐、环境音等,从而可以采用不同的处理方式对不同的音频类别进行处理,还可以大幅缩小搜索空间。常用的音频分类方法包括高斯混合模型(GMM)方法、隐马尔可夫模型(HMM)方法、支持向量机(SVM)方法、人工神经网络(ANN)方法、 近邻法(KNN)方法等。这些都是模式识别中的经典方法。
语音识别通常包括预处理、特征提取以及解码识别三个步骤。
语音预处理采用数字信号处理技术,消除待识别语音中环境噪声和信道的影响,并检测语音的起始端点与终止端点,以提升识别能力。
语音特征提取是根据语音数据流来提取语音信号的多维特征矢量流(矢量序列),常用的语音特征为短时频谱特征,具体可采用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)等,提取过程涉及语音信号预加重、分帧、加窗、频域变换、倒谱变换、差分等处理。
解码识别是将未知语音信号的特征矢量序列与先验的声学模型、语言模型等配合,使用 Viterbi 等搜索算法,寻求与未知语音信号相匹配的最优路径,并将该路径对应的文本序列视为语音识别结果。先验的声学模型是通过大量语音数据统计训练而得的,包含语音信号频谱和时间序列特征的精确描述。语言模型则是通过语言学、语法结构、语义学等知识相结合构建而得,用于提升文字识别的效率和准确性。
语种识别技术的目标是确定音频信息中所用语言的种类,具体分为语种辨识(Language Identification)和语种确认(Language Verification)两种。
①语种辨识技术用来辨识待测语音信息使用目标语种中的何种语言(多选一)。语种识别通常包括预处理和特征参数选择、目标语种建模、基于规则判决三个步骤。语种识别预处理采用有效语音端点检测、说话人聚类以及语音增强等技术来解决环境噪声干扰问题,特征参数选择则可以采用线性预测系数、傅里叶变换、梅尔频率倒谱系数等频谱特征。
②语种确认技术则用来判别待测语音信息是否属于某一特定语种(二选一)。目标语种建模利用各种待识别目标语言的语音数据,提取其特征参数并建立统计模型,通常采用基于高斯混合的声学层模型、基于区分性分类器的声学层模型以及基于音子识别器的语法模型等。语种识别最终是通过判决规则来实现的,判决规则的依据是待检测语音同语种模型库之间的似然概率或距离度量结果。
(参考教材P221)
不良视频信息监管首先需要发现并获取网络视频流,然后再对视频信息进行识别和判断。在整个过程中,需要进行视频爬取、关键帧提取、图像处理以及不良视频识别等。
不良视频信息监管的核心思想是将视频文件的关键帧提取出来,然后利用不良图像的识别方法进行处理。
之所以能够寻找到关键帧,是因为视频图像帧之间存在着时间和空间冗余,也就是说,视频某一帧同其后续图像帧之间的内容和特征存在极大的相似性。
如果关键帧的特征发生了显著变化,则可以认为是发生了镜头转换。进行关键帧提取,首先需要实现镜头分割。视频镜头分为突变镜头和渐变镜头两类——突变镜头的分割可利用形状特征来检测;渐变镜头可利用基于隔帧帧间差算法实现分割。