数据获取
从技术层面来讲,数据来源可以通过读取本地文件,也可能是从服务器下载下来的日志,或者自己构建爬虫来爬取数据。本地文件中常用的格式,如TXT 文件、JSON文件、CSV文件、Excel文件、SQLite数据库等。
逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号)。对应CSV文件以纯文本形式存储表格数据(数字和文本),它由任意数目的记录组成,记录间以某种换行符进行分隔;每条记录由字段组成,字段间的分隔符是其他字符或字符串,最常见的是逗号或制表符。通常,所有记录都有完全相同的字段序列。CSV文件可以使用记事本(NOTE)来开启,也可以用Excel开启。
一旦有了数据,我们就可对其进行检查和探索。在电影行业的各项数据中,电影票房(Box Office)最为重要,它指电影院售票处,后引申为影院的放映收益或一部电影的影院放映收益情况。现在逐渐有公司专门统计电影的票房,给出更为明确和直观的数据。票房在一定程度上体现了人们对一部电影的喜爱程度。
本项目统计分析需要使用2010年5月各个电影的票房数据,所有数据存储于文件film.csv中。现需要根据各电影票房数据及其他基本信息,展示某部电影在一定期间内的票房变化趋势和动态预测。
任务一:从文件CSV中读取数据
(1)下载以下文件,并从文件film.csv中读取数据
(2)撰写代码,参考代码如下:
#coding:utf-8
# 导入pandas包
import pandas as pd
# 使用read_csv中从film.csv中获取数据
film = pd.read_csv('film.csv', delimiter=',', names=['date', 'filmname', 'BOR'])
# 输出从文件中读取的部分结果
film.head()
(3)运行代码,结果参考:

数据获取操作视频讲解
实践操作:请花10分钟的时间,完成实验报告第一部分(数据读取)的内容。

