当前位置：移动技术网 > IT编程>脚本编程>Python > 大佬整理出来的干货：LDA模型实现—Python文本挖掘

大佬整理出来的干货：LDA模型实现—Python文本挖掘

2020年04月16日 | 移动技术网IT编程 | 我要评论

顶真对联,咱老百姓歌词,电影mp4

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

ps：如有需要python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/a6zvjdun

1、简介

在机器学习领域，lda是两个常用模型的简称：linear discriminant analysis和latent dirichlet allocation。本文的lda是指latent dirichlet allocation，它在主题模型中占有非常重要的地位，常用来文本分类。

lda由blei, david m.、ng, andrew y.、jordan于2003年提出，用来推测文档的主题分布。它可以将文档集中每篇文档的主题以概率分布的形式给出，从而通过分析一些文档抽取出它们的主题分布后，便可以根据主题分布进行主题聚类或文本分类。

2、原理

lda模型它是一种典型的词袋模型，即一篇文档是由一组词构成，词与词之间没有先后顺序的关系。此外，一篇文档可以包含多个主题，文档中每一个词都由其中的一个主题生成。

人类生成文档是基于概率选取主题及其对应的词汇的方式，即一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。

那么lda要做的就是通过文档反推主题。文档到主题服从多项式分布，主题到词服从多项式分布。每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。

用lda来进行主题建模就是要以无指导学习的方法从文本中发现隐含的语义维度-即“topic”或者“concept”。隐性语义分析的实质是要利用文本中词项(term)的共现特征来发现文本的topic结构，这种方法不需要任何关于文本的背景知识。

3、实现过程

这一过程可以通过python轻松实现。需要的python 包有：

•pandas，pandas 是基于numpy 的一种工具，该工具是为了解决数据分析任务而创建的。在 windows 下使用 pip 安装：pip install pandas.•gensim，包含我们要用到的 lda 模型的一个主题模型包。在 windows 下使用 pip 安装：pip install gensim.•jieba，是一款优秀的 python 第三方中文分词库。在 windows 下使用 pip 安装：pip install jieba.

3.1 导入包

3.2 分词

3.3 词典化

3.4 将文档表示成词袋向量

3.5 lda建模

打印主题

完整代码

输出结果

如果你处于想学python或者正在学习python，python的教程不少了吧，但是是最新的吗？说不定你学了可能是两年前人家就学过的内容，在这小编分享一波2020最新的python教程。获取方式，私信小编 “ 资料 ”，即可免费获取哦！

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

Python爬虫:Request Payload和Form Data的简单区别说明

request payload 和 form data 请求头上的参数差别在于：content-typeform datapost表单请求代码示例headers... [阅读全文]
如何基于python实现不邻接植花

有 n 个花园，按从 1 到 n 标记。在每个花园中，你打算种下四种花之一。paths[i] = [x, y] 描述了花园 x 到花园 y 的双向路径。另外，没... [阅读全文]
构建高效的python requests长连接池详解

前文：最近在搞全网的cdn刷新系统，在性能调优时遇到了requests长连接的一个问题，以前关注过长连接太多造成浪费的问题，但因为系统都是分布式扩展的，针对这种... [阅读全文]
python中threading开启关闭线程操作

在python中启动和关闭线程：首先导入threadingimport threading然后定义一个方法def serial_read():......然后定... [阅读全文]
浅谈Python中threading join和setDaemon用法及区别说明

python多线程编程时，经常会用到join()和setdaemon()方法，今天特地研究了一下两者的区别。1、join ()方法：主线程a中，创建了子线程b，... [阅读全文]
Python3-异步进程回调函数(callback())介绍

废话不多说，大家之家看代码吧！#异步'''举例：你喊你朋友吃饭，你朋友正忙，如果你一直在那等他，等你朋友忙完了，你们一块去。--同步调用你喊你朋友吃饭，你朋友正... [阅读全文]
python继承threading.Thread实现有返回值的子类实例

继承与threading.thread实现有返回值的子类mythread，废话不多说，大家直接看代码import threadingclass mythread... [阅读全文]
浅谈Python3多线程之间的执行顺序问题

一个多线程的题：定义三个线程id分别为abc，每个线程打印10遍自己的线程id，按abcabc……的顺序进行打印输出。我的解法：from threading i... [阅读全文]
Python中使用threading.Event协调线程的运行详解

threading.event机制类似于一个线程向其它多个线程发号施令的模式，其它线程都会持有一个threading.event的对象，这些线程都会等待这个事件... [阅读全文]
python 实现两个线程交替执行

我就废话不多说，直接看代码吧！import threadingimport timedef a(): while true: lockb.acquire... [阅读全文]

网友评论


验证码：