课程门户-章节详情

大数据与商业智能分析

邓强等

1 第一章大数据分析与Python
- 1.1 课程介绍及考核要求
- 1.2 课程PPT
- 1.3 课程相关软件下载
- 1.4 jupyter使用及python模块安装
- 1.5 阿里在线jupyter指南
- 1.6 数据分析基本操作
2 第二章 Python基础操作
- 2.1 学习目标
- 2.2 课程PPT
- 2.3 演示代码与数据
3 第三章 Python常用库与可视化
- 3.1 学习目标
- 3.2 课程PPT
- 3.3 演示代码与数据
4 第四章关联规则分析-Apriori模型
- 4.1 学习目标
- 4.2 课程PPT
- 4.3 演示代码与数据
5 第五章决策树模型
- 5.1 学习目标
- 5.2 课程PPT
- 5.3 演示代码与数据
6 第六章聚类算法
- 6.1 学习目标
- 6.2 课程PPT
- 6.3 补充知识
- 6.4 演示代码与数据
7 第七章神经网络
- 7.1 学习目标
- 7.2 课程PPT
- 7.3 补充知识
- 7.4 演示代码与数据
8 第八章表征学习
- 8.1 学习目标
- 8.2 课程PPT
- 8.3 演示代码与数据
9 第九章案例实践（课程数据案例库）
- 9.1 网络数据抓取
- 9.2 百货商场用户画像
- 9.3 上海餐饮数据分析
- 9.4 电影推荐系统
- 9.5 小红书服饰分析
- 9.6 顾客市场细分
- 9.7 支付宝交易数据分析
- 9.8 房地产需求分析
- 9.9 淘宝用户购物行为分析
- 9.10 居民幸福感分析
10 期末考核安排
- 10.1 期末考核安排及课程论文模板
- 10.2 UCI数据集
- 10.3 阿里天池数据集
- 10.4 科学数据银行
- 10.5 更多数据源
11 参考数据集
12 拓展学习
- 12.1 贝叶斯模型
  - 12.1.1 课程PPT
  - 12.1.2 演示代码与数据
- 12.2 社会网络分析
  - 12.2.1 课程PPT
  - 12.2.2 演示代码与数据
- 12.3 无标题

数据分析基本操作

#注意：为了方便分析，建议把代码文件（.ipynb）和数据文件(xls,csv,txt等)放到同一个文件夹/目录

数据分析基本操作

#载入分析模块

import pandas as pd

import numpy as np

from sklearn.preprocessing import StandardScaler

from sklearn.cluster import KMeans

from sklearn.ensemble import RandomForestClassifier

from sklearn.neural_network import MLPClassifier

from sklearn.feature_extraction.text import TfidfVectorizer

from sklearn.decomposition import PCA

from mlxtend.frequent_patterns import apriori

from transformers import pipeline

# 一.多格式数据导入

import pandas as pd

# CSV文件读取

data1 = pd.read_csv('上海餐饮数据.csv')

#查看读取的数据

data1.head()

# Excel文件读取

data2 = pd.read_excel('中医辨证.xlsx')

#查看读取的数据

data2.head()

# TXT文件读取

data3= open('news1.txt', encoding = 'utf-8')

#查看读取的数据

content = data3.read()

print(content) # 输出全部内容

二.常见数据分析方法

# 2. 关联规则分析

def association_analysis(df):

basket = df.groupby(['order_id','product_name'])['quantity'].sum().unstack()

basket = basket.fillna(0).applymap(lambda x: 1 if x>0 else 0)

frequent_items = apriori(basket, min_support=0.05, use_colnames=True)

return frequent_items.sort_values('support', ascending=False)

# 3. 分类预测

def classification(X_train, y_train):

clf = RandomForestClassifier()

clf.fit(X_train, y_train)

return clf

# 4. 聚类分析

def clustering(X):

scaler = StandardScaler()

X_scaled = scaler.fit_transform(X)

kmeans = KMeans(n_clusters=4)

clusters = kmeans.fit_predict(X_scaled)

return clusters

# 5. 神经网络建模

def neural_net(X_train, y_train):

mlp = MLPClassifier(hidden_layer_sizes=(100,50), max_iter=500)

mlp.fit(X_train, y_train)

return mlp

# 6. 表征学习

def representation_learning(texts):

tfidf = TfidfVectorizer(max_features=1000)

tfidf_vectors = tfidf.fit_transform(texts)

pca = PCA(n_components=50)

reduced_vectors = pca.fit_transform(tfidf_vectors.toarray())

return reduced_vectors

# 7. 情感分析

def sentiment_analysis(reviews):

classifier = pipeline("text-classification", model="bert-base-chinese")

results = classifier(reviews)

return pd.DataFrame(results)

# 主程序

if __name__ == "__main__":

# 数据加载

orders, products, reviews = load_data()

# 关联分析示例

frequent_items = association_analysis(orders)

# 分类示例（预测客户是否会回购）

X_class = products[['price','sales']]

y_class = products['repurchase']

clf_model = classification(X_class, y_class)

# 聚类示例（客户分群）

X_cluster = orders.groupby('user_id').agg({'price':'sum','quantity':'count'})

user_clusters = clustering(X_cluster)

# 神经网络示例

nn_model = neural_net(X_class, y_class)

# 表征学习示例

product_vectors = representation_learning(products['description'])

# 情感分析示例

sentiment_results = sentiment_analysis(reviews[:100]) # 限制数量避免内存问题

图片预览