目录

  • 1 【课程导学】
    • 1.1 1.课程介绍
    • 1.2 2.教学文件
    • 1.3 3.考核方案
    • 1.4 4.课程设计
    • 1.5 5.教学团队
    • 1.6 6.课堂实录
    • 1.7 7.课程获奖
  • 2 模块一 初识网络爬虫
    • 2.1 【你知道什么是大数据吗?】
    • 2.2 【目标树立】
    • 2.3 【学习内容】任务一:认识爬虫与robots协议
    • 2.4 【学习内容】任务二:认识反爬虫
    • 2.5 【学习内容】任务三:开发环境准备
    • 2.6 【知识拓展】网站robots协议含义解析
    • 2.7 【单元过关】
    • 2.8 【答疑讨论】
  • 3 模块二 网页数据获取
    • 3.1 【大数据时代性,个人隐私如何保护?】
    • 3.2 【目标树立】
    • 3.3 【学习内容】任务一:谷歌浏览器开发者模式介绍
    • 3.4 【学习内容】任务二:requests库获取静态网页数据
    • 3.5 【学习内容】任务三:requests库获取动态网页数据
    • 3.6 【学习内容】任务四:urlLib获取网页数据
    • 3.7 【知识拓展】“京东”“亚马逊”网站数据抓取
    • 3.8 【单元过关】
    • 3.9 【答疑讨论】
  • 4 模块三 网页数据解析
    • 4.1 【数据爬取的合理边界在哪里?】
    • 4.2 【目标树立】
    • 4.3 【学习内容】任务一:正则表达式解析
    • 4.4 【学习内容】任务二:XPath与lxml解析
    • 4.5 【学习内容】任务三:Beautitul Soup解析
    • 4.6 【知识拓展】“美食杰”网站数据解析
    • 4.7 【单元过关】
    • 4.8 【答疑讨论】
  • 5 模块四 网页数据存储
    • 5.1 【爬取的数据保存后一定安全吗?】
    • 5.2 【目标树立】
    • 5.3 【学习内容】任务一:数据存储到文本文件中
    • 5.4 【学习内容】任务二:数据存储到MySQL数据库中
    • 5.5 【学习内容】任务三:数据存储到Mongo数据库中
    • 5.6 【知识拓展】“豆瓣”电影数据获取与存储
    • 5.7 【单元过关】
    • 5.8 【答疑讨论】
  • 6 模块五  常规动态网页数据爬取
    • 6.1 【目标树立】
    • 6.2 【学习内容】任务一:Selenium库安装及浏览器补丁下载
    • 6.3 【学习内容】任务二:Selenium快速入门
    • 6.4 【学习内容】任务三:元素选取
    • 6.5 【知识拓展】“斗鱼”网站数据获取
    • 6.6 【单元过关】
    • 6.7 【答疑讨论】
  • 7 模块六:综合案例
    • 7.1 项目需求:世界大学城空间留言板数据爬取
    • 7.2 项目需求:链家长沙楼盘信息爬取
    • 7.3 项目需求:猫眼电影网站电影信息爬取
    • 7.4 项目需求:斗鱼网站信息爬取
    • 7.5 项目展示与代码示例
【爬取的数据保存后一定安全吗?】

       爬取的数据会存入数据库中,便于数据的分析与挖掘。那么问题来了,数据存到数据库里是不是就是安全的呢?请阅读下面四个事件:


Gitlab删库事件

    2017年1月31日,Gitlab一名系统管理员误删库,发现问题300GB左右的数据只剩下约4.5GB。经过抢救,GitLab.com最终丢失了6小时的数据库数据。


DigitalOcean宕机事件

     2017年4月5日,知名的VPS服务商DigitalOcean出现了一次删除生产数据库的事故。导致DigitalOcean的控制面板和API无法正常使用,时间长达4小时56分。


顺丰删库事件

     2018年9月19日顺丰科技IT数据中心邓某错选了RUSS数据库,打算删除执行的SQL。在选定删除时,因其操作不严谨,光标回跳到RUSS库的实例,在未看清所选内容的情况下,便通过delete执行删除,同时邓某忽略了弹窗提醒,直接回车,导致RUSS生产数据库被删掉。导致OMCS运营监控系统瞬间崩溃,该系统上临时车线上发车功能无法使用并持续约10个小时。同比9月5日的929条临时车需求临时变更,此次删库对生产业务产生了严重的负面影响。


微盟删库事件

    2020年2月23日,微盟一名工作人员在家使用VPN登陆公司数据库并恶意删除数据库文件,这一操作瞬间造成近300万家微盟客户的数据丢失,截止25号才恢复部分数据,恢复后的数据完整性并无保障。受删库影响微盟集团市值一日之内损失12.53亿港元。涉事员工因破坏计算机信息系统罪已经被刑事拘留。


      上述四个公司的员工,因自己工作的失误给企业带来了巨大的损失。请同学们认真阅读材料,并从爱岗敬业方面发表自己的观点,我们应该如何避免工作中出现这种的错误?