当前位置：移动技术网 > 科技>操作系统>windows > 搭建NER分类器——方法1（投票模型）

搭建NER分类器——方法1（投票模型）

2020年07月30日 | 移动技术网科技 | 我要评论

Method1_Majority_Voting

1 导入数据并初始化

数据集见评论区
输出

2 预定义数据结构

输出

3 投票模型代码
4 数据预处理

输出

5 模型预测

输出

1 导入数据并初始化

数据集见评论区

import pandas as pd
import numpy as np

# 导入数据初始化
data = pd.read_csv('ner_dataset.csv', encoding='latin1' )

data = data.fillna(method='ffill')
data.tail(10)

输出

2 预定义数据结构

# 预定义数据结构
words = list(set(data['Word'].values)) # 单词表
print(words[:50]) 

n_words = len(words) # 查看单词总个数
n_words

输出

3 投票模型代码

from sklearn.base import BaseEstimator, TransformerMixin

class MajorityVotingTagger(BaseEstimator, TransformerMixin):
    
    def fit(self, X, y):
        """
        x: list of words
        y: list of tags
        """
        word2cnt = {}
        tags = []
        
        for x, t in zip(X, y):
            if t not in tags:
                tags.append(t)
                
            if x in word2cnt:
                if t in word2cnt[x]:
                    word2cnt[x][t] += 1
                else:
                    word2cnt[x][t] = 1
            else:
                word2cnt[x] = {t: 1}
        
        self.mjvote = {}
        
        for k, d in word2cnt.items(): 
            #  k    :  d,      d
            # Indian: {B_gpe: 4, B_geo:1, ...}
            # 每个单词有哪些实体标签，{单词1:{实体名称1：次数， 实体名称2：次数}， 单词2:{实体名称1：次数， 实体名称2：次数}}
            self.mjvote[k] = max(d, key=d.get) # 取次数最多的实体名称
            
    def predict(self, X, y = None):
        """
        预测内存中的标签， 如果单词是未知的，则预测为O
        """
        return [self.mjvote.get(x, 'O') for x in X]

4 数据预处理

words = data['Word'].values.tolist()
tags = data['Tag'].values.tolist()
print(words[:10], tags[:10], sep = '\n')

输出

5 模型预测

from sklearn.model_selection import cross_val_predict
from sklearn.metrics import classification_report

# 交叉验证
pred = cross_val_predict(estimator = MajorityVotingTagger(), X = words, y = tags, cv = 5)

# 计算验证报告
report = classification_report(y_pred = pred, y_true = tags)
print(report)

输出

本文地址：https://blog.csdn.net/qq_37150711/article/details/107676293

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

Win10运行CMD命令打不开命令提示符解决方法

很多用户习惯在win10中使用win+r打开运行，然后输入cmd来打开命令提示符进行操作，但是有部分用哀悼反馈使用cmd无法打开命令提示符，这大多是由于系统环境... [阅读全文]
win10系统隐藏功能详解

win10隐藏功能介绍。由于win7系统不再更新，很多朋友还是选择使用win10的操作系统了，对于初遇win10系统的朋友一定都是非常好奇此系统的强大和速度，其... [阅读全文]
Win10磁盘如何解除BitLocker加密 Win10解除BitLocker加密方法

在win10系统下，有些朋友会发现自己的电脑磁盘是被bitlocker加密的，导致重装系统等操作时遇到困难，如下国产！使用dikgenius发现c盘显bitlo... [阅读全文]
Win10版本 20H2改进了哪些内容?Win10版本 2020改进内容介绍

据 windowslatest 报道，与 windows 10 版本 19h2 一样，win 10 2020 年秋季更新将依旧致力于为现有的 2020 年 5 ... [阅读全文]
win10开机后键盘失灵重启才能使用如何解决键盘重启后可用的解决方法

win10开机后键盘失灵重启才能使用如何解决？有的朋友反映第一次开机之后键盘不能使用无法打字，但是将电脑重启之后之后忽然就好了。这种情况应该如何解决呢？今天，小... [阅读全文]
Win10有哪些隐藏的新功能? Win10新功能抢先用

就像汽车里常会隐藏一些看不见的功能一样，在我们的 windows 内部，也有一些隐藏模块。由于微软通常会用 beta 版或 dev 版去测试一些新功能，因此在这... [阅读全文]
Win10更新KB4566782和KB4565351出现0x800f081f错误怎么办?

在本月的补丁星期二活动日中，微软为所有支持的 windows 10 系统带来了新一轮的累积更新。和以往一样，本次发布的 kb4566782 和 kb456535... [阅读全文]
win10系统备份报错0x8078006b创建共享保护点失败怎么办?

大家都知道，许多用户已经使用win10系统有一段时间，使用久了难免会遇到一些问题。有的用户可能会遇到系统备份报错0x8078006b创建共享保护点失败的情况，这... [阅读全文]
redmi airdots 2蓝牙耳机和redmi airdots青春版哪个好

redmi airdots 2蓝牙耳机和redmi airdots青春版哪个好?继小米蓝牙耳机airdots青春版之后，又一力作redmi airdots 2真... [阅读全文]
win10如何关闭数据执行保护 win10关闭数据执行保护图文教程

win10如何关闭数据执行保护？在windows系统中数据执行保护有助于防止电脑遭受病毒和其他安全威胁的侵害，不过在运行一些软件的时候则需要关闭，今天，小编为大... [阅读全文]