百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

中文文本分词:结巴分词的应用与实现

csdh11 2024-12-22 14:58 23 浏览

3.2 中文文本分割

本文采用jieba分词对正反两类语料进行分词。注意在执行代码前需要手动将txt源文件转为utf-8格式,否则会报中文编码错误。分词前需要去除文本中的数字、字母、特殊符号。这可以使用内置的和re模块来实现,其中模块用于处理字符串操作,re模块用于正则表达式处理。

具体实现代码如下:

--Jieba分词代码

处理完成后得到.txt、.txt两个txt文件,分别存储正反两部分语料切分的结果,切分结果截图如下:

分词结果截图

3.3 删除停用词

分词完成后,就可以读取停用词表中的停用词,并匹配分词后的正反面语料,去除停用词。去除停用词的步骤很简单,主要有两步:

具体实现代码如下:

--删除停用词代码

如代码所示,停用词表的获取采用了独特的广播形式,一行代码即可完成:

stopkey = [w.strip() for w in codecs.open('data\stopWord.txt', 'r', encoding='utf-8').readlines()]

读出的每个停用词都要进行剥离,即w.strip(),因为读出的停用词中还含有换行符和制表符,不处理的话会匹配不上。代码执行后会得到d.txt和d.txt两个txt文件。

由于去停用词这一步骤是在分句之后执行的,因此通常会与分句操作在同一个代码段中进行,即在分句操作完成后直接调用去停用词函数,得到去停用词后的结果再写入结果文件中。本文将两者分离为两个代码文件,以便于理解步骤,大家可以根据需要进行调整。

3.4 获取特征词向量

根据以上步骤,我们得到了正反两部分语料的特征词文本。模型的输入必须是数值数据,所以需要将每个由词组成的句子转换成数值向量。常见的转换算法有Bag of Words(BOW)、TF-IDF等。本文采用词向量模型将语料转换成词向量。

由于特征词向量的提取是基于训练好的词向量模型,而Wiki中文语料库是公认的大型中文语料库,因此本文打算从Wiki中文语料库生成的词向量中提取该语料库的特征词向量。Wiki中文语料库的模型训练在之前的一篇文章《利用Wiki中文语料库的模型构建》中有详细介绍,这里不再赘述。也就是说,本文从文章最后得到的wiki.zh.text中提取特征词向量作为模型的输入。

获取特征词向量的主要步骤如下:

主要代码如下图所示:

--获取词向量代码

代码执行后得到一个.csv文件,第一列为类别对应的值(1-pos,0-neg),第二列及以下为数值向量,每行代表一条评论,结果部分截图如下:

词向量截图

3.5 降维

该模型设置为维度400进行训练,得到的词向量也是400维,本文采用PCA算法对结果进行降维,具体实现代码如下:

--PCA降维代码

运行代码,从结果图中我们可以看到,前100维已经能够很好的包含大部分原始数据,因此我们选取前100维作为模型的输入。

PCA维度解释结果图

4 分类模型构建

本文采用支持向量机(SVM)作为本次实验的中文文本分类模型,其他分类模型采用相同的分析过程,这里不再赘述。

支持向量机(SVM)是一种有监督的机器学习模型。本文首先采用经典机器学习算法SVM作为分类器算法,通过计算测试集的预测准确率和ROC曲线来验证分类器的有效性。一般来说,ROC曲线面积(AUC)越大,模型性能越好。

首先采用SVM作为分类器算法,然后利用库构建ROC曲线,具体代码如下:

--SVM代码

运行代码,得到Test:0.88,即本次实验测试集的预测准确率为88%,ROC曲线如下图所示。

ROC曲线

至此,使用对酒店评论进行中文情感极性分析的流程和方法就完整介绍了,代码和数据已经上传到我的仓库,data文件夹里面有停用词列表.txt和2000个测试集,也可以使用其他分类模型进行分类,欢迎小伙伴们批评指正,共同学习!

相关推荐

OKHttp原理解析(okhttp的作用)

Okhttp应该是Android目前非常流行的第三方网络库,尝试讲解他的使用以及原理分析,分成几个部分:...

快速教会你优雅的解决TCP客户端端口耗尽的问题

Hello,我是Henry,相信各位开发老爷在使用大并发网络连接的时候,可能都遇到过TCP客户端端口耗尽的问题,这是一个常见问题,以下是系统性的解决方案及技术细节:1.理解端口限制的本质...

这3个接口基础知识,产品经理需要知道

产品经理在工作中,避免不了要阅读接口文档,希望本文能够帮助大家更好的了解接口。接口,即客户端(浏览器)向服务器提交请求,服务器向客户端返回响应。本质就是数据的传输与接收。本文主要介绍接口相关的基础知识...

Java 11新特性对开发者的影响:让编程更高效、更自由

Java11新特性对开发者的影响:让编程更高效、更自由在这个瞬息万变的编程世界里,每一代Java的更新都承载着无数开发者对性能优化、生产力提升以及代码美感追求的期望。作为继Java8之后的首个长期...

干货-okHttp的优点-收藏了(okhttp的好处)

OkHttp相较于其它的实现有以下的优点.支持SPDY,允许连接同一主机的所有请求分享一个socket。如果SPDY不可用,会使用连接池减少请求延迟。使用GZIP压缩下载内容,且压缩操作对用...

如何在 Java 项目中集成 DeepSeek

一、使用官方SDK基础集成1.添加依赖(Maven)<dependency><groupId>com.deepseek</groupId>...

spring cloud gateway 性能优化思路

SpringCloudGateway是一个高性能的API网关,但在实际的生产环境中,可能会遇到一些性能瓶颈。以下是一些SpringCloudGateway的性能优化方面:调整线程池...

你对Android中的okHttp的使用真的了解吗

框架下载地址:https://github.com/square/okhttp今天给大家讲解下网络框架okhttp的使用,这个框架非常强大,很多框架都用它来加载网络资源,目前很多开发者还在用As...

京东大佬问我,Nginx并发连接如何设置?详细说明

京东大佬问我,Nginx并发连接如何设置?详细说明首先,我需要回忆一下Nginx的并发模型。Nginx是基于事件驱动的异步架构,所以它的并发处理能力和配置参数有很大关系。主要的参数应该包括worker...

如何实现一个连接池?一文带你深入浅出,彻底搞懂

-前言-【2w1h】是技术领域中一种非常有效的思考和学习方式,即What、Why和How;坚持【2w1h】,可以快速提升我们的深度思考能力。...

Golang 网络编程(golang 系统编程)

TCP网络编程存在的问题:拆包:对发送端来说应用程序写入的数据远大于socket缓冲区大小,不能一次性将这些数据发送到server端就会出现拆包的情况。通过网络传输的数据包最大是1500字节,当TCP...

Spring6|Spring Boot3有哪些HTTP客户端可以选择

个人博客:无奈何杨(wnhyang)个人语雀:wnhyang...

10. 常用标准库(标准库有哪些)

本章深入解析Go语言核心标准库的关键功能与生产级应用技巧,结合性能优化与安全实践,提供高效开发指南。10.1fmt/io/os10.1.1fmt高级格式化...

Nginx之连接池(nginx 长连接 连接复用)

我们知道Nginx利用连接池来增加它对资源的利用率。下面我们一起来看看Nginx是如何使用连接池的。从上一节模块开始已经慢慢会接触一些Nginx的源码部分来。每个worker进程都有一个独立的ngx...

开发者必备的Android开发资源之OkHttp

小编在这里给各位Android开发者介绍的资源包括工具、库和网站等。有效地利用它们,将有助于减轻我们的工作量,提高我们的工作效率。为什么需要一个HTTP库Android系统提供了两种HTTP通信类,H...