当前位置：移动技术网 > IT编程>脚本编程>Python > 情绪识别实战

情绪识别实战

2020年07月20日 | 移动技术网IT编程 | 我要评论

情绪识别实战

1 导入包
2 导入并查看数据

输出

3 分离验证集和测试集
4 特征工程

其他特征可以提取吗?

5 训练模型

输出

6 查看混淆矩阵

输出

训练数据看评论区

1 导入包

import numpy as np
import pandas as pd

2 导入并查看数据

data = pd.read_csv('ISEAR.csv', header=None)

data.head()

# 标签           内容

输出

查看数据

3 分离验证集和测试集

# 最经典的过程
from sklearn.model_selection import train_test_split
labels = data[0].values.tolist()
sents = data[1].values.tolist()
X_train, X_test, y_train, y_test = train_test_split(sents, labels,
                                                   test_size = 0.2,
                                                   random_state = 42)

4 特征工程

# 提取tf-id特征
# 对训练数据和测试数据的转化
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()
X_train = vectorizer.fit_transform(X_train)# fit（用来训练）+transform函数
X_test = vectorizer.transform(X_test)# 不要写成上面的fit_transform，测试数据不要训练

其他特征可以提取吗?

词性的特征

n-gram（tf-id是unigram）

5 训练模型

# 训练的过程（逻辑回归）
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV

parameters = {'C': [0.0001, 0.0001, 0.001, 0.005, 0.01, 0.05, #　参数验证
                   0.1, 0.5, 1.2, 5, 10]}
lr = LogisticRegression() # 构建模型
lr.fit(X_train, y_train).score(X_test, y_test)

clf = GridSearchCV(lr, parameters, cv = 5) #　交叉验证：数据分为五个模块
clf.fit(X_train, y_train)
clf.score(X_test, y_test)
print(clf.best_params_)

输出

6 查看混淆矩阵

混淆矩阵D：查看问题出在哪，D_i_j 表示第i类数据错分为第j类数据的数量（其中i≠j）。

# 混淆矩阵（多分类问题）
from sklearn.metrics import confusion_matrix # 混淆矩阵
confusion_matrix(y_test, clf.predict(X_test))

输出

本文地址：https://blog.csdn.net/qq_37150711/article/details/107439827

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

从C语言中读取Python 类文件对象

问题你要写c扩展来读取来自任何python类文件对象中的数据（比如普通文件、stringio对象等）。解决方案要读取一个类文件对象的数据，你需要重复调用 rea... [阅读全文]
Python3爬虫关于代理池的维护详解

我们在上一节了解了代理的设置方法，利用代理我们可以解决目标网站封 ip 的问题，而在网上又有大量公开的免费代理，其中有一部分可以拿来使用，或者我们也可以购买付费... [阅读全文]
Python如何对齐字符串

问题你想通过某种对齐方式来格式化字符串解决方案对于基本的字符串对齐操作，可以使用字符串的 ljust() , rjust() 和 center() 方法。比如：... [阅读全文]
python实现从无序的链表中删除重复项

python实现从无序的链表中删除重复项题目描述:给定一个没有排序的链表，去掉其重复项，并保留原顺序，例如链表... [阅读全文]
python实现Canny与Hough算法

任务说明：编写一个钱币定位系统，其不仅能够检测出输入图像中各个钱币的边缘，同时，还能给出各个钱币的圆心坐标与半径... [阅读全文]
DP-LeetCode221. 最大正方形

1、题目描述https://leetcode-cn.com/problems/maximal-square/在一... [阅读全文]
听课笔记--Python数据分析--Numpy基础及基本应用

'''@Author: Liang@LastEditors: Liang@Date: 2020-07-26 19... [阅读全文]
评价类模型——Tposis法

Tposis法学习笔记适用的范围操作方法第一步 > 将原始矩阵正向化第二步>正向化矩阵标准化第三步&... [阅读全文]
python的platform模块的使用

platform是用来获取操作系统的信息的模块，具体见文档[root@VM_0_9_centos ~]# pyt... [阅读全文]
Python-定时任务APScheduler中两种调度器的区别

概述两种调度器BackgroundScheduler和BlockingScheduler的区别举例说明APSch... [阅读全文]

网友评论


验证码：

情绪识别实战

2020年07月20日 | 移动技术网IT编程 | 我要评论

情绪识别实战

1 导入包

2 导入并查看数据

输出

3 分离验证集和测试集

4 特征工程

其他特征可以提取吗?

5 训练模型

输出

6 查看混淆矩阵

输出

您可能感兴趣的文章:

相关文章:

网友评论