当前位置：移动技术网 > IT编程>脚本编程>Python > [内附完整源码和文档] 基于python的新闻检索系统

[内附完整源码和文档] 基于python的新闻检索系统

2020年07月23日 | 移动技术网IT编程 | 我要评论

1 系统介绍
1.1 系统需求
新闻检索系统：定向采集不少于 4 个中文社会新闻网站或频道，实现这些网站新闻信息及评论信息的自动爬取、抽取、索引和检索。本项目未使用 lucene，Goose 等成熟开源框架。

1.2 系统思路与框架
本系统总体的实现思路如图 1 所示：

在这里插入图片描述
一个完整的搜索系统主要的步骤是：

对新闻网页进行爬虫得到语料库

抽取新闻的主体内容，得到结构化的 xml 数据

内存式单遍扫描索引构建方法构建倒排索引，供检索模块使用

用户输入查询，得到相关文档返回给用户

2 设计方案
2.1 新闻爬取
2.1.1 算法简述
该模块针对搜狐，网易，腾讯三大主流新闻网站及官方的参考消息网站进行了新闻获取。并基于其网站结构，设计了不同的爬取模式。由于网站架构两两相似，以下选取两种类型的典型代表进行介绍：

（1）搜狐新闻
搜狐新闻除正常主页外，存在隐藏的列表式新闻页，如 http://news.sohu.com/1/0903/62/subject212846206.shtml 。

（2）网易新闻
可以将网易新闻及腾讯新闻归结为一般类型的新闻主页，我们采用了自新闻主页开始的广度优先的递归爬取策略。注意到新闻的正文页往往是静态网页.html，因此，我们将网页中出现的所有以.html 结尾的网页的 URL 均记录下来，在爬取到一定量时，进行一次去重。

对于一些不是新闻的错分网页，容错处理即通过检查新闻正文标签

时会被剔除。

新闻正文页中我们重点关注内容，时间，评论获取。

2.1.2 创新点
实现了对新闻网页动态加载的评论进行爬取，如搜狐新闻评论爬取

未借助开源新闻爬取工具，自己实现了对新闻标题，正文，时间，评论内容，评论数目的高效爬取

2.2 索引构建
分词，我们借助开源的 jieba 中文分词组件来完成，jieba 分词能够将一个中文句子切成一个个词项，这样就可以统计 tf, df 了

去停用词，去停词的步骤在 jieba 分词之后完成

倒排记录表存储，词典用 B-树或 hash 存储，倒排记录表用邻接链表存储方式，这样能大大减少存储空间

倒排索引构建算法使用内存式单遍扫描索引构建方法（SPIMI），就是依次对每篇新闻进行分词，如果出现新的词项则插入到词典中，否则将该文档的信息追加到词项对应的倒排记录表中。

2.3 检索模块
2.3.1 检索模式
（1）关键词检索
查询即根据用户输入的关键字，返回其相应的新闻。首先根据用户的查询进行 jieba 分词，记录分词后词项的数量以字典形式进行存储。

在这里插入图片描述

完整的源码和详细的文档，上传到了 WRITE-BUG技术共享平台上，需要的请自取：

https://www.write-bug.com/article/3122.html

本文地址：https://blog.csdn.net/LEMFOooO/article/details/107509304

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

用python实现学生管理系统

学生管理系统相信大家学各种语言的时候，练习总是会写各种管理系统吧，管理系统主要有对数据的增删查改操作，原理不难，适合作为练手的小程序数据的结构要保存数据就需要数... [阅读全文]
Python按照先后顺序，对列表进行多条件自定义排序

需求：对指定的列表，按照以下顺序排序：①先按照【编号】从小到大进行排序②再按照列表中包含【方案、扩初、施工图、后... [阅读全文]
Python经典入门100题 (21-30题)

Python入门练手，有这100题就够了！ [阅读全文]
python实现LRU算法

LRU算法python实现学习mysql数据库时，了解了一下ib_buffer_pool的存储机制，使用LRU... [阅读全文]
Python学习笔记——主要函数及基本使用（与C的对比）

实时更新中…文章目录实时更新中...1.函数1.1 title()函数-以首字母大写的方式显示每个单词1.2 合... [阅读全文]
线性回归—梯度下降python实现

import numpy as npimport pandas as pd导入数据data=pd.read_cs... [阅读全文]
python中 if语句（分支结构）使用方式

python中if语句有三种使用形式：if单分支结构（if），if双分支结构（if-else），if多分支结构（... [阅读全文]
KNN算法的理解以及Python实现

参考大佬文章https://blog.csdn.net/c406495762/article/details/7... [阅读全文]
Day03_数据类型介绍&Python运算符&IF分支

一. 数据类型数值类型: int, float, complex字符串: str布尔类型: bool只有2个值:... [阅读全文]
10. 说说Python的某些有意思的库（下）

嘿各位，上次说的那些库是不是不过瘾？那是，真正好玩的还没给你看呢！ [阅读全文]

网友评论


验证码：

[内附完整源码和文档] 基于python的新闻检索系统

2020年07月23日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论