当前位置：移动技术网 > 科技>人工智能>云计算 > 大数据技术挖掘新词实现方法

大数据技术挖掘新词实现方法

2018年03月01日 | 移动技术网科技 | 我要评论

大数据技术挖掘新词实现方法。

代码参考：https://github.com/yanghanxy/New-Word-Detection

import codecs
import re
import pandas as pd
import math

class WordInfo(object):
    def __init__(self,text):
        self.text = text
        self.left_entropy = 0.0
        self.right_entropy = 0.0
        self.freq = 0.0
        self.pmi = 0.0
        self.nub = 0

        self.left_word = []
        self.right_word = []

    def lupdate(self,word):
        self.left_word.append(word)

    def rupdate(self,word):
        self.right_word.append(word)
    
    def update(self,word_cad):
        if len(self.text) > 1:
            self.computer_pmi(word_cad)
        self.compute_indexes()

    def compute_freq(self,length):
        self.freq = 1.0 * self.nub / length

    def computer_pmi(self,word_cad):
        sub_part = [ (self.text[0:i],self.text[i:]) for i in range(1,len(self.text)) ]
        if len(sub_part) > 0 :
            self.pmi =  min(
                map(lambda word: math.log(self.freq / word_cad[word[0]].freq / word_cad[word[1]].freq), sub_part))
    
    def compute_entropy(self,_list):
        length = float(len(_list))
        frequence = {}
        if length == 0:
            return 0
        else:
            for i in _list:
                frequence[i] = frequence.get(i, 0) + 1
            return sum(map(lambda x: - x / length * math.log(x / length), frequence.values()))
          
    def compute_indexes(self):
        # compute frequency of word,and left/right entropy
        self.left_entropy = self.compute_entropy(self.left_word)
        self.right_entropy = self.compute_entropy(self.right_word)



class Seg(object):

    def __init__(self, doc, max_word_len = 5,  min_tf=0.000005, min_entropy=0.07, min_pmi=6.0 ):
        super(Seg, self).__init__()
        self.doc = doc
        self.max_word_len = max_word_len
        self.min_entropy = min_entropy
        self.min_tf = min_tf
        self.min_pmi = min_pmi
        self.word_info = self.get_words(doc)

        count = float(len(self.word_info))

        self.avg_frq = sum(map(lambda w: w.freq, self.word_info)) / count
        self.avg_entropy = sum(map(lambda w: min(w.left_entropy, w.right_entropy), self.word_info)) / count
        self.avg_pmi = sum(map(lambda w: w.pmi, self.word_info)) / count
        filter_function = lambda f: len(f.text) > 1 and f.pmi > self.min_pmi and f.freq > self.min_tf \
                                    and min(f.left_entropy, f.right_entropy) > self.min_entropy
        self.word_tf_pmi_ent = map(lambda w: (w.text, len(w.text), w.freq, w.pmi, min(w.left_entropy, w.right_entropy)),
                                   filter(filter_function, self.word_info))

    def extract_cadicateword(self,_doc, _max_word_len):
        indexes = []
        doc_length = len(_doc)
        for i in range(doc_length):
            for j in range(i + 1, min(i + 1 + _max_word_len, doc_length + 1)):
                indexes.append((i, j))

        return sorted(indexes, key=lambda _word: _doc[_word[0]:_word[1]])

    def get_words(self,doc):
        pattern = re.compile(u'[\\s\\d,.<>/?:;\'\"[\\]{}()\\|~!@#$%^&*\\-_=+a-zA-Z，。《》、？：；“”‘’｛｝【】（）…￥！—┄－]+')
        doc = pattern.sub(r'', doc)
        print(len(doc))
        word_index = self.extract_cadicateword(doc, self.max_word_len)
        word_cad = {}
        print(len(word_index))
        for index in word_index:
            word = doc[index[0]:index[1]]
            if word not in word_cad:
                word_cad[word] = WordInfo(word)
            word_cad[word].nub += 1
            word_cad[word].lupdate(doc[index[0]-1:index[0]])
            word_cad[word].rupdate(doc[index[1]:index[1]+1])

        length = len(doc)
        # computing frequency of candicate word and entropy of left/right neighbors
        for word in word_cad:
            word_cad[word].compute_freq(length)
        print('1')

        # ranking by length of word
        values = sorted(word_cad.values(), key=lambda x: len(x.text))
        print(len(values))
        print('2')
        for v in values:
            v.update(word_cad)

        print('3')
        # ranking by freq
        return sorted(values, key=lambda v: len(v.text), reverse=False)

if __name__ == '__main__':
    path = 'xiyouji.txt'
    doc = codecs.open('xiyouji.txt', "r", "utf-8").read()

    word = Seg(doc, max_word_len=3, min_tf=(1e-08), min_entropy=1.0, min_pmi=3.0)
    print('avg_frq:' + str(word.avg_frq))
    print('avg_pmi:' + str(word.avg_pmi))
    print('avg_entropy:' + str(word.avg_entropy))

    wordlist = []
    for i in word.word_tf_pmi_ent:
        wordlist.append([i[0], i[1], i[2], i[3], i[4]])

    wordlist = sorted(wordlist, key=lambda word: word[3], reverse=True)
    wordlist = sorted(wordlist, key=lambda word: word[4], reverse=True)

    seg = pd.DataFrame(wordlist, columns=['word', 'length', 'fre', 'pmi', 'entropy'])
    seg.to_csv( 'extractword2.csv', index=False, encoding="utf-8")

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

云计算将带来商业模式革命概念股“千里挑一”

　　国金证券通信行业首席分析师陈运红：云计算将带来商业模式革命概念股“千里挑一” 　　江怡曼　　提到云计... [阅读全文]
虚拟化和云计算路向何方？

　　我们正处于一个有趣的历史节点。VMware公司的成功源于我们拥有的非常引人注目的价值主张——解决客户端-服务器时代的不... [阅读全文]
企业级虚拟化平台是云计算必由之路

　　6月20日，IBM新一代企业基础云平台研讨会在北京举行。IBM大中华区系统与科技部Power Systems高级产品经理谷建发表了主题演讲。谷... [阅读全文]
打造免费云平台十大与云有关开源项目

　　开源项目由于其开放、免费、自由灵活等特点深受广大开发者的喜爱。近年涌现了很多开源免费的东西深受欢迎。而云计算则是近段时间最热的科技名词，云计算... [阅读全文]
Oracle刘松：客户体验管理与社会化云服务平台

10月26日消息，由工信部信息化推进司指导，中国计算机用户协会与中国网上银行促进联盟主办的“2012年网银联盟大会暨电子银行创新颁奖典... [阅读全文]
胡斌：做大数据最终是要为公司带来变化的

10月24日“中国TMT国际商会月度英雄汇”在北京召开。胡斌在圆桌对话“大数据时代的机遇与挑战”中... [阅读全文]
确保云安全的五种服务器配置方法

　　越来越多的数据中心已经搬到了各种各样的云上，服务器配置是必须考虑的问题。　　云计算将是收缩数据中心的关键，显然这可能带来一些安全问题... [阅读全文]
跨入云计算时代传统服务器走将向何处？

　　云的出现，正在改变我们对于传统IT的观念认识。云并不像它的概念一样虚无缥缈，而是以各种形式出现在我们面前，而最让人耳熟能详的莫过于云存储和云计... [阅读全文]
解读透明计算：是云计算升级还是产业界革命

　　你知道云计算吗？不少读者可能会说，嗯，我听说过，但是具体是怎么定义还是不太了解。虽然概念上不是很明白，但起码云计算到现在已经是人尽皆知。不过就... [阅读全文]
十二大技巧保障云计算安全

　　1、确认现有的基础控制　　基础控制是企业安全理念的核心。它们包含了将近60个保护您企业最重要资产的安全控制。它们专注在确保云技术对您... [阅读全文]

网友评论


验证码：

大数据技术挖掘新词实现方法

2018年03月01日 | 移动技术网科技 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论