目录

  • 1 第一章 数据仓库概述
    • 1.1 授课安排
    • 1.2 数据仓库及其历史
      • 1.2.1 数据仓库的概念
        • 1.2.1.1 本节视频
      • 1.2.2 数据仓库特征
        • 1.2.2.1 本节视频
    • 1.3 数据仓库系统结构
      • 1.3.1 数据仓库系统的组成
        • 1.3.1.1 本节视频
      • 1.3.2 ETL
        • 1.3.2.1 本节视频
      • 1.3.3 数据仓库和数据集市的关系
      • 1.3.4 元数据及其管理
      • 1.3.5 数据集市和元数据管理视频
    • 1.4 数据仓库系统开发工具
    • 1.5 数据仓库与操作型数据库的关系
      • 1.5.1 本节视频内容
  • 2 第二章 数据仓库设计
    • 2.1 授课安排
    • 2.2 数据仓库设计概述
    • 2.3 数据仓库的规划和需求分析
    • 2.4 数据仓库的建模
    • 2.5 数据仓库的物理模型设计
    • 2.6 数据仓库的部署和维护
  • 3 第三章 OLAP技术
    • 3.1 授课安排
    • 3.2 OLAP概述
    • 3.3 OLAP的多维数据模型
    • 3.4 OLAP实现
  • 4 第四章 数据
    • 4.1 课程资料
  • 5 第五章 数据挖掘概述
    • 5.1 授课安排
    • 5.2 什么是数据挖掘?
    • 5.3 数据挖掘系统
    • 5.4 视频
    • 5.5 数据挖掘过程
  • 6 第六章 关联分析
    • 6.1 授课安排
    • 6.2 关联分析概念
    • 6.3 Apriori算法
    • 6.4 FP-growth树
    • 6.5 多层关联规则
    • 6.6 【扩充知识】机器学习——关联规则——支持度(support)、置信度(confidence)、提升度(Lift)
  • 7 第七章 序列模式挖掘
    • 7.1 序列模式挖掘概述
    • 7.2 AprioriAll算法
    • 7.3 AprioriSome算法
    • 7.4 FreeSpan算法
    • 7.5 PrefixSpan算法
  • 8 第八章 聚类分析
    • 8.1 聚类概述
  • 9 分类算法
    • 9.1 课件
  • 10 实验1 python基础
    • 10.1 讲解文本内容
    • 10.2 课程PDF
    • 10.3 实验代码
    • 10.4 实验报告封皮
  • 11 实验2-python
    • 11.1 讲解文本内容
    • 11.2 实验代码
    • 11.3 实验报告封面
  • 12 实验3--python
    • 12.1 讲解文本内容
    • 12.2 实验代码
    • 12.3 实验报告封面
  • 13 实验4--python
    • 13.1 讲解文本内容
    • 13.2 21.1实验代码
    • 13.3 实验内容2
    • 13.4 实验内容3
    • 13.5 实验报告封面
  • 14 实验5--python
    • 14.1 文本内容-NumPy模块
    • 14.2 第三方可视化数据分析图表
    • 14.3 数据
    • 14.4 思考题
    • 14.5 实验报告封面
  • 15 实验6--python
    • 15.1 实验 NumPy矩阵的基本操作
    • 15.2 实验 关联规则算法
    • 15.3 实验 商品零售购物篮分析
    • 15.4 实验报告封面
  • 16 实验7--python
    • 16.1 实验1 用关联规则分析方法推荐电影
    • 16.2 实验2 FP-growth算法
    • 16.3 实验3 教育平台的线上课程推荐策略
    • 16.4 实验报告封面
  • 17 实验8-python
    • 17.1 实验1 购物车分析
    • 17.2 实验2 基于关联规则的文本分析
  • 18 实验9--python
    • 18.1 实验1 聚类分析
    • 18.2 实验2 航空公司客户价值分析
    • 18.3 实验3 运输车辆安全驾驶行为分析
    • 18.4 实验报告封面
实验3 运输车辆安全驾驶行为分析

所需代码及数据


随着车联网技术的发展,通过无线射频等识别技术对装载在车辆上的电子标签进行识别,可实现在信息网络平台上对所有车辆的属性信息、静态信息、动态信息等进行提取和有效利用。通过大数据技术分析,对驾驶员的安全驾驶行为进行实时、准确、高效的评价,可以实现对车辆的实时监管,对提高道路运输过程中的安全管理水平和运输效率有着重要意义。本章将根据运输车辆的行车轨迹数据,构建车辆驾驶指标,同时对构建好的指标数据进行探索性分析;最后构建驾驶行为预测模型,对运输车辆驾驶行为的安全性进行综合评价与判断。

学习目标

• 了解运输车辆安全驾驶行为分析案例的相关背景、数据说明和目标分析。

• 掌握车辆驾驶指标的构建方法。

• 掌握分布分析、相关性分析、异常值检测的方法。

• 掌握驾驶行为的聚类分析方法。

• 掌握驾驶行为预测模型的构建方法。

一、背景与目标

在运输企业中,每辆营运车辆的运输路线及配备的驾驶人员是相对固定的。因此,分析车辆的行车轨迹数据可反映驾驶员的相应驾驶行为。本节主要介绍运输车辆安全驾驶行为分析案例的背景、数据说明和目标分析。

1、背景

如今,国家将推动互联网、大数据、人工智能与交通运输深度融合,加快车联网建设,构建以数据为关键要素的数字化、网络化、智能化的智慧交通体系。随着车辆数量的快速增长,停车位少、道路堵塞和交通事故等问题也日益突显。影响交通安全的因素主要包括以下几点:

• 驾驶员的驾驶行为不规范。

• 人们的交通安全意识比较薄弱。

• 交通设施的不完善及设计不合理。

• 驾驶的车辆自身存在安全问题。

大多数交通事故问题是由驾驶行为不规范引起的。其中,疲劳驾驶、超速驾驶、急转弯、急加速等一系列异常驾驶行为是交通事故发生的主要原因,且这些异常驾驶行为往往难以被有效地检测出来。

目前,随着车联网技术的日益成熟,现在车辆中均会内置或外接传感器,用于收集车辆驾驶数据,包括行驶速度、行驶加速度和连续驾驶时间等关键数据,使得我们可以根据该数据研究运输车辆的异常驾驶行为。所以,如何围绕车联网所采集的运输车辆的驾驶数据,运用数据挖掘方法,分析车辆驾驶行为对行车安全的影响,以提高运输安全管理水平,已成为各运输企业所需要解决的重要问题之一。

2、数据说明

本案例以某运输企业所采集到的数据为分析对象,给出了450辆运输车辆的行车轨迹数据,每一辆车的行车轨迹数据为一个CSV文件,且各数据文件的数据字段均相同,其数据说明如表1所示。由于采集设备的精度会存在一定的差异,所以实际采集到的数据可能会存在某些异常。

表1 车辆行车轨迹数据说明

3、目标分析

本案例根据运输车辆安全驾驶行为分析的背景和业务需求,结合450辆运输车辆的行车轨迹数据,需要实现以下目标。

1)利用行车轨迹数据,挖掘运输车辆的不良驾驶行为。

2)利用构建的车辆驾驶行为指标,预测行车安全类别。

运输车辆安全驾驶行为分析的总流程如图1所示,主要步骤如下。

1)基于原始数据构建车辆驾驶行为指标。

2)对驾驶行为数据进行分布分析、相关性分析、异常值检测等探索性分析。

3)根据车辆驾驶行为指标对车辆进行聚类分析。

图1 运输车辆安全驾驶行为分析的总流程

二、构建车辆驾驶行为指标

观察采集到的车辆行车轨迹数据,可以发现数据中记录的是某时刻车辆的行驶状态,如车辆的行驶速度、车辆发动机所处的状态、车辆当前所处位置的经纬度等。然而,本案例的主要目标是对车辆的安全驾驶行为进行分析,以判断哪些车辆是安全驾驶的,哪些车辆是不良驾驶的,但现在收集到的数据不能满足本案例的分析要求,因此需要构建不良驾驶行为指标。

在车辆运输过程中,不良驾驶行为主要包括疲劳驾驶、急加速、急减速、怠速预热、超长怠速、熄火滑行、超速、急变道等。结合本案例的业务需求及数据情况,主要构建急加速、急减速、行驶里程、平均速度、超长怠速、疲劳驾驶、熄火滑行等指标。其中几项主要指标的具体计算方法如下。

1.急加速

急加速描述的是车辆起步或行驶过程中猛踩油门提速的动作。在同样的车速下,猛踩油门会带来更高的发动机瞬时喷油量和转速,消耗更多的燃料,造成大量的燃料浪费,加重尾气污染。利用GPS速度与定位时间计算每条记录对应的加速度,设置前后间隔时间不超过2s,并设置加速度大于急加速阈值的行为为急加速行为。按照行业经验,此处设定急加速阈值为3m/s2,转换为与原数据一样的单位后,其值为10.8km/h。

2.急减速

在实际情况中,急减速行为容易导致后车追尾,且高减速操作会因利用离合下压浪费车辆本身惯性,造成不必要的油耗损失。与急加速类似,利用GPS速度与定位时间计算每条记录对应的加速度,设置前后间隔时间不超过2s且小于急减速阈值的行为为急减速行为,按照行业经验,此处设定急减速阈值为-3m/s2,转换为与原数据一样的单位后,其值为-10.8km /h。

3.行驶里程

首先,定义当前阶段里程数、总里程数、当前阶段里程起始值、当前样本的里程值,每遍历一个样本,若设备号没有变化,则当前阶段里程数=当前样本的里程值-当前阶段里程起始值,若设备号发生变化,则将当前阶段里程数累加至总里程数中。

4.平均速度

本节主要根据传感器记录的速度来计算平均速度,将gps_speed为0的记录删除,然后对每辆车辆的里程速度求均值,所得结果即为该车辆的平均速度。

5.超长怠速

由于短时间的怠速对车辆预热有一定的作用,而长时间的怠速对油耗影响较大,且影响交通和车辆自身机械安全,因此须综合考虑怠速状态与怠速时间来评判驾驶行为的安全性与节能性。根据《汽车驾驶节能操作规范》中的相关规定,停车超过60s时,应将发动机熄火,以有效降低车辆运行的燃料消耗量。当发动机转速不为零但车速为零时,若持续的时间超过设定的阈值(60s),则视为超长怠速行为。

6.疲劳驾驶

疲劳驾驶是指驾驶员在长时间连续行车后,产生生理机能与心理机能的失调,出现驾驶技能下降的现象。驾驶员睡眠质量差或睡眠不足,会影响到他的注意、感觉、知觉、思维、判断、意志、决定与运动等方面,是严重的不安全因素。大量交通事故都与疲劳驾驶有关。

根据道路运输行业相关法规,本案例定义驾驶员在24h内累计驾驶时间超过8h,连续驾驶时间超过4h且每次停车休息时间少于20min,或夜间连续驾驶2h的行为为疲劳驾驶行为。

7.熄火滑行

熄火滑行是指将发动机熄火,将变速箱置于空挡,利用汽车前进的惯性滑行。熄火滑行对行车安全有着重大影响。由于熄火滑行时,空气压缩机停止工作,造成贮气筒内没有足够的制动空气,万一发生危险情况,制动容易失灵,从而引发交通事故。本案例假定车辆发动机的点火状态为off,且车辆经纬度发生了位移的情况为熄火滑行状态。

8.标准差指标

相对于速度或速度变化净值的大小,研究其波动性更有助于分析驾驶行为是否激进,速度、加速度多变的驾驶行为往往更不安全。本案例基于求得的平均速度与加速度,计算出每辆车的速度标准差和速度差值标准差。

表2 车辆驾驶行为指标

9.比率指标

由于行驶里程不同,直接比较相关行为发生的次数不能合理地反映司机的驾驶行为,因此对计算好的次数指标(急加速次数、急减速次数、超长怠速次数、熄火滑行次数、疲劳驾驶次数)都除以该车的行驶里程数,得到相应的次数率(每千米),用以反映驾驶行为的发生频率。

根据上述计算方法,基于450辆运输车辆的行车轨迹数据,构建车辆驾驶行为指标,构建后的指标如表7-2所示,并将构建好的指标数据存放至data.csv文件中,以便后续进行分析。注意,因为构建车辆驾驶行为指标需要使用GPS速度,所以在构建指标前需剔除GPS速度都等于0的车辆的行车轨迹采集数据。

三、数据探索分析

根据已知数据集,在尽量少的先验假定下进行数据探索,通过查看数据分布规律、数据之间相关性等方法对数据进行处理,以便更轻松地找出异常值、数据间的关系等。

1、分布分析

针对构建好的驾驶行为指标数据,使用describe()方法进行描述性统计分析,可以得出各个属性的基本情况,如样本总量、平均值、标准差、最小值、25%分位数、中位数、75%分位数、最大值等,并且通过使用info()方法可以查看各属性的数据类型,如代码清单7-1所示。

代码清单7-1 查看数据的基本情况

运行代码清单7-1,得到的描述性统计表如表3所示。(注意,描述性统计结果保留一位小数。)

表3 描述性统计表

由表3可知,数据中不存在缺失值,但驾驶行为的量纲指标不统一,为了后续分析方便,需要进行标准化处理。此外,疲劳驾驶、熄火滑行、超长怠速指标的取值极度不均衡,且行驶里程中75%分位数与最大值的差距过大,数据可能存在异常值。

运行代码清单1,得到的各属性的数据类型如表4所示。

表4 各属性的数据类型

由表4可知,在驾驶行为数据中共有8个浮点类型的属性、6个整数类型的属性、1个字符类型的属性。

2、相关性分析

相关系数可以用于描述定量与变量之间的关系,初步判断因变量与自变量之间是否具有相关性。当相关系数为1时,两个属性完全正相关;当相关系数为-1时,两个属性完全负相关;当相关系数的绝对值小于0.3时,可忽略自变量的影响。利用corr()方法计算出各属性两两之间的相关系数,并绘制相关系数热力图,以便更直观地看出各属性之间的相关程度,如代码清单2所示。

代码清单2 计算各属性间的相关系数并绘制相关系数热力图

运行代码清单2,得到的相关系数热力图如图2所示。

图2 相关系数热力图

由图2可知,在车辆驾驶行为指标中,急加速与急加速频率、急减速与急减速频率、急加速频率与急减速频率、急加速与急减速等的相关系数大于0.8(颜色越浅,相关系数越大),具有较强的相关关系,可根据其相关性进行聚类分析。

3、异常值检测

通过7.3.1节中的描述性统计分析结果,我们发现疲劳驾驶、熄火滑行、超长怠速的分布极度不平衡,而且行驶里程的标准差很大,25%分位数和最大值的差距较为明显,说明该属性存在一定数据倾斜,即数据可能存在异常情况。对异常值进行检测的具体实现代码如代码清单3所示。

代码清单3 异常值检测

运行代码清单3,进行异常值检测,疲劳驾驶箱线图和超长怠速箱线图分别如图3和图4所示。

图3 疲劳驾驶箱线图

由代码清单3的运行结果可知,存在一些不良的驾驶行为数据,且该数据符合本案例的分析方向。因此,为保证后续分析结果的准确性,此处不对异常数据做处理。

图4 超长怠速箱线图

四、驾驶行为聚类分析

进一步挖掘处理后的数据,获取没有规律的、错综复杂的样本数据的分布状况,观察每一簇数据的特征,集中对特定的簇做进一步的分析,使得这些数据能够反映出一定的规律性或特殊的分类性。为了查看车辆驾驶行为主要有哪些类别,本案例将分别采取K-Means聚类、层次聚类、高斯混合模型聚类、谱聚类的方法进行聚类分析,并对比不同方法的聚类效果。

在进行聚类分析之前,通常需要先将数据标准化,目的是将不同规模和量纲的数据缩放到相同的数据区间和范围,以减少规模、特征、分布差异等对模型的影响。在本案例中,由于各指标量纲差距较大,因此需要先采用标准差标准化方法对数据进行标准化处理。这里不再展开介绍标准化方法,读者可自行实践。

1、K-Means聚类

K-Means聚类是传统聚类分析中最常用的方法,可以实现快速动态聚类。使用K-Means进行驾驶行为聚类分析的具体实现,同时,为保证代码的复用性、简洁性,此处将创建聚类模型的代码封装至一个函数中,即本节包含K-Means聚类、层次聚类、高斯混合模型聚类和谱聚类的聚类算法构建的代码,以及车辆行驶标签的代码,如代码清单4所示。

代码清单4 K-Means聚类算法实现代码

运行代码清单4,得到的K-Means聚类结果如图5所示

图5 K-Means聚类结果

由图5可知,K-Means聚类结果分为了3类,但K-Means的聚类效果并不理想,且通过统计簇类个数,得到属于簇1的有446个,属于簇2的有1个,属于簇3的有1个。

2、层次聚类

层次聚类算法是将数据集划分为一层一层的类,且后面一层生成的类是基于前面一层的结果而得到的。基于代码清单7-4构建的层次聚类算法进行聚类结果的展示,如代码清单5所示。

代码清单5 层次聚类结果展示

运行代码清单5,得到的层次聚类结果如图6所示。

图6 层次聚类结果

统计簇类个数,得到属于簇1的有446个,属于簇2的有1个,属于簇3的有1个,与K-Means聚类结果相似,且由图6可知,层次聚类的效果也不佳。

3、高斯混合模型聚类

由前文可知,K-Means聚类算法无法将两个均值相同的类进行聚类,而高斯混合模型聚类恰好解决了这一问题。高斯混合模型聚类是通过选择最大化后验概率来完成聚类的,而不是判定是否完全属于某个类,因而又称为软聚类。尤其在各类尺寸不同、聚类间有相关关系时,高斯混合模型聚类比K-Means聚类更合适。

基于代码清单4构建的高斯混合模型聚类算法进行聚类结果的展示,如代码清单6所示。

代码清单6 高斯混合模型聚类结果展示

运行代码清单6,得到的高斯混合模型聚类效果图如图7所示。

图7 高斯混合模型聚类效果图

统计簇类个数,得到属于簇1的有276个,属于簇2的有1个,属于簇3的有171个,且由图7-7可知,高斯混合模型聚类的效果较K-Means聚类与层次聚类的效果有了进一步提高,但整体的聚类效果仍然欠佳。

4、谱聚类

谱聚类也是一种广泛使用的聚类算法,相比传统的K-Means聚类,谱聚类对数据分布的适应性更强,计算量更小,效果更好。基于代码清单4构建的谱聚类算法进行聚类结果的展示,如代码清单7所示。

代码清单7 谱聚类结果展示

运行代码清单7,得到的谱聚类结果如图8所示。

图8 谱聚类结果

统计簇类个数,得到属于簇1的有113个,属于簇2的有262个,属于簇3的有73个,且由图8可知,谱聚类的效果较前面3种聚类算法的效果有了明显提高。蓝色(圆形)大部分在坐标轴的右上方,说明它们的平均速度和速度标准差都很大,可以将其归为激进型,但橙色(正方形)和绿色(星形)混杂在一起,无法清楚地进行分类,需要进一步分析。

将提取熄火滑行频率、超长怠速频率、疲劳驾驶频率、急加速频率、急减速频率、速度标准差和速度差值标准差属性,按同样方法进行聚类分析。重新提取指标后得到的谱聚类结果如图9所示。

图9 重新提取指标后的谱聚类结果

通过观察聚类后得到的结果数据和图9可以看出,驾驶行为能够较好地分成3个类别,其中橙色(正方形)代表的类别在车辆速度标准差较小的情况下,行驶过程中的平均速度也相对较小,可以将这类行为判断为“稳健型驾驶”。由蓝色(圆形)代表的类别处于速度标准差较大,同时行驶过程中的平均速度也较大的情况下,可以将这类行为判断为“激进型驾驶”。针对绿色(星形)所代表的类别,根据平均速度与疲劳驾驶频率的关系,发现平均速度保持在40~60km/h之间的疲劳驾驶次数率较高,且在这个平均速度区间,从图中可以看出蓝色所代表的点集聚成一个类别,因此,可以将这类行为判断为“疲惫型驾驶”。

至此,利用谱聚类将驾驶行为分为3个类别,并且给每一辆车贴上标签,分别为稳健型(数值为2)、激进型(数值为1)和疲惫型(数值为0)。

五、构建驾驶行为预测模型

在7.4节中,根据车辆行车轨迹数据,结合车辆驾驶行为指标,将驾驶行为分为3类,分别为“疲惫型”“激进型”和“稳健型”。而如果要判定车辆驾驶行为属于哪种类型,则需要构建行车安全预测模型,并给出评价结果。注意,在构建预测模型之前,需要先采用标准差标准化方法对数据进行标准化处理,这里不再赘述。

1、构建LDA模型

LDA(Linear Discriminant Analysis,线性判别分析)是一种较为经典的线性学习方法,最早是由费希尔(Fisher)在1936年提出的,又称为Fisher线性判别。LDA的原理较为简单,即给定训练样例集,设法将样例投影到一条直线上,使得同类样本点的投影点尽可能接近,异样样本点的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的直线上,再根据投影点的位置来确定新样本的类别。

构建LDA模型,判定车辆驾驶行为的具体实现代码如代码清单8所示。

代码清单8 构建LDA模型,判定车辆驾驶行为

通过代码清单8的运行结果可知,使用LDA模型对不良驾驶行为类别进行预测的精度达到了81.14%,判别效果较为理想。

2、构建朴素贝叶斯模型

朴素贝叶斯分类算法是一种基于贝叶斯定理的简单概率分类算法,它是指当存在各种不确定条件时,在仅知各个样本占总体的先验概率的情况下,完成判别分类任务。该算法是基于独立假设实现的,即假设样本的每个特征与其他特征都不相关。朴素贝叶斯分类的思想是对于给出的待分类项B,求解在待分类项已知的条件A下每个类别出现的概率P(Bk|A),待分类项属于出现概率最大的类别。根据分析,朴素贝叶斯分类的流程如图10所示。

图10 朴素贝叶斯分类的流程

构建朴素贝叶斯模型,判别车辆驾驶行为的具体实现代码如代码清单7-9所示。

代码清单9 构建朴素贝叶斯,判别车辆驾驶行

通过代码清单9可知,得到先验为伯努利分布的朴素贝叶斯的判对率为92%,先验为高斯分布的朴素贝叶斯的判对率为74%,说明该模型的判别效果较好。

3、构建神经网络模型

神经网络模型包括输入层、输出层与隐藏层,其主要特点为信号是前向传播的,误差是后向传播的。具体来说,神经网络模型的训练过程主要分为两个阶段,第一阶段是信号的前向传播,从输入层经过隐藏层,最后到达输出层;第二阶段是误差的后向传播,从输出层到隐藏层,最后到输入层,依次调节隐藏层到输出层的权重与偏置,输入层到隐藏层的权重与偏置。主要流程分析如下。

1)随机初始化网络中的权重和偏置。

2)将训练样本提供给输入层神经元,然后逐层将信号向前传播,直到产生输出层的结果,这一步一般称为信号向前传播。

3)计算输出层误差,将误差逆向传播至隐藏层神经元,再根据隐藏层神经元误差来对权重和偏置进行更新,这一步一般称为误差向后传播。

4)循环执行步骤2)和步骤3),直到达到某个停止条件,一般为训练误差小于设定的阈值或迭代次数大于设定的阈值。

构建神经网络模型,判别车辆驾驶行为的具体实现代码如代码清单10所示。

代码清单10 构建神经网络模型,判别车辆驾驶行为

通过代码清单10可知,在模型训练过程中,神经网络的学习速度较快,经训练后的神经网络,对不良驾驶行为类别的预测值与车辆驾驶行为的实际类别值的识别率高达96.67%,表明使用神经网络模型判别不良驾驶行为是十分可行的。

六、驾驶行为安全分析总结

通过驾驶行为聚类分析,可将驾驶行为分为3类,即疲惫型、激进型和稳健型;而且根据驾驶行为预测模型的评价结果,我们发现神经网络模型的判别效果较好,可将该模型应用到实际的不良驾驶行为判别中。

结合本案例的分析结果,可以说明驾驶员的驾驶习惯对行车安全有显著影响。为此,针对行车安全提出以下建议。

1)稳定的开车速度能提升行车的安全状态。建议驾驶员少用急加速或急减速的方式驾驶车辆,尽量保持速度稳定,在可控制的安全范围内行车。

2)良好的驾驶习惯能减少车辆的耗油量。超长怠速、熄火滑行等驾驶行为会增加油量消耗,为此应尽量避免此类行为的发生。

3)疲劳驾驶和超速驾驶行为都是严重危害行车安全的不良驾驶行为,应尽量避免。

七、小结

本章的主要目的是针对运输车辆在行驶过程中的安全性进行分析,综合了Python数据挖掘、机器学习等技术,首先进行数据探索性分析,包括分布分析、相关性分析、异常值检测等;其次使用不同的聚类分析方法对行车安全驾驶行为进行聚类分析;然后使用不同的判别分析模型进行驾驶行为判别;最后对行车安全进行分析与总结,并给出行车安全建议。