实验5-语料库加工
上一节
下一节
中文信息处理实验课程作业
一. 作业名称:语料库加工
二. 作业主题:用字统计和字表比较
三. 作业目的:
(1) 了解字频统计的基本内容和方法;
(2) 思考字频统计不同方法的优劣。
四. 作业要求:
1、认真阅读文件夹“语料库在线”中全部文件;
2、不要使用字词频统计软件或集成功能模块(如数据透视表等),尝试手工处理并统计“正文文本.txt”的下列用字情况:
(1) 全文字表(按“正文文本”原始顺序排列、一字一行的字表,带序号);
(2) 全文字种(“正文文本”中出现的全部不重复的字符,带出现次数);
(3) 两表交集(既在“正文文本”中出现、又在“常用字表”中出现的字符);
(4) 全文独有(只在“正文文本”中出现,不在“常用字表”中出现的字符);
(5) 字表独有(只在“常用字表”中出现,不在“正文文本”中出现的字符);
说明:
i. “全文”指的是“正文文本.txt”,“字表”指的是“3-3_现代汉语常用字表.xls”
ii. 以上各项需分别在Excel文件(工作簿)中新建一个工作表(即sheet)
iii. Excel文件命名格式为:用字统计-学号-姓名-八位日期-四位时间;
3、将自己的统计结果跟字频统计工具的结果进行比较,看有无异同;
4、另找一篇文本自己做练习,推荐处理自己的分词标注结果。