汪则翰,长毛德牧,今年什么时候立春
这里安装的是两个自然语言处理工具,nltk和stanford nlp。
声明:笔者操作系统是windows10,理论上windows都可以;
版本号:nltk 3.2
stanford nlp 3.6.0
jdk 1.8
重要文件在讲述过程中会以网盘链接给出,可随时下载。
注:笔者是通过anaconda安装的python,所以有关路径都与anaconda有关。
一、 nltk的安装
二、stanford nlp工具的安装
3、然后进入windows的cmd命令行
从命令进入到刚刚复制的路径下:d:\developmenttools\anaconda3\nltk-develop ,然后输入python setup.py install,并执行 如下:
等待安装即可,由于笔者已经安装过了,就不展示安装后的信息了。
4、stanford nlp版本是3.6.0,所有文件可在网盘下载:https://pan.baidu.com/s/15y7gfy167cfljhvrurwmca
5、下面就来开始设置刚刚“stanfordnlp”文件夹下各个文件的环境变量,环境变量都是在系统变量的classpath中来操作。
设置环境变量的目的是为了能随时快速的调用,设置环境变量之后,以后的所有调用都不需要传输绝对路径的参数了。
(1)stanfordsegmenter环境变量的设置
进入“stanfordnlp”文件夹,将stanford-segmenter.jar的绝对路径拷贝到classpath下,分别如下:
注意,每一个不同路径之间要用分号分隔。
(2)slf4j-api.jar加入classpath环境变量。slf4j-api.jar是stanford-segmenter-2015-12-09.zip解压后含有的文件。
同理,将“stanfordnlp”中的slf4j-api.jar的绝对路径加入到classpath中去,如下:
(3)stanfordpostagger环境变量的设置
同理,进入“stanfordnlp”文件夹,将stanford-postagger.jar文件的绝对路径添加到classpath中,如下:
(4)stanfordnertagger环境变量的设置
同理,进入“stanfordnlp”文件夹,将stanford-ner.jar文件的绝对路径添加到classpath中,如下:
(5)将classifiers文件夹也添加入classpath环境变量。classifiers文件夹是从stanford-ner-2015-12-09.zip解压后含有的文件夹,直接复制提取的
(6)将models文件夹添加入classpath环境变量。models文件夹是stanford-postagger-full-2015-12-09.zip解压后含有的文件夹。环境变量如下:
(7)stanfordparser环境变量的设置
同理,进入“stanfordnlp”文件夹,将stanford-parser.jar和stanford-parser-3.6.0-models.jar分别添加到classpath环境变量中去,分别如下:
(8)stanfordneuraldependencyparser环境变量的设置
同上,进入“stanfordnlp”文件夹,分别将stanford-corenlp-3.6.0.jar和stanford-corenlp-3.6.0-models.jar添加入classpath环境变量,分别如下:
三、测试
由于stanford nlp工具安装最繁琐,也最容易出问题,于是特别展示对stanford nlp的测试,所有简短的代码都是在python编辑器中执行的,其它地方也可:
代码如下:
路径:相应路径是笔者前面安装所使用的路径,结合更改为自己电脑的实际路径。只要按照上述步骤将所有环境变量配置了,那么,在所有函数的调用中,函数参数就不用再输入绝对路径了,只需要直接输入相应的文件名即可,函数运行时自会在环境变量的路径下来找该文件,找不到的话就会报错的。
总结,环境变量的设置总的来说是自由的,但是要设置的便于自己识别和 维护,笔者只是提供了自己的设置方案。只要能正常运行上述测试代码,就表示stanford nlp和nltk安装成功了,之后开发可以结合两个工具一起使用。。。
参考链接:https://www.jianshu.com/p/4b3c7e7578e6
如对本文有疑问,请在下面进行留言讨论,广大热心网友会与你互动!! 点击进行留言回复
Python 实现将numpy中的nan和inf,nan替换成对应的均值
python爬虫把url链接编码成gbk2312格式过程解析
网友评论