基于机器学习新闻文本分类系统(机器学习;新闻分类;python语言;高质量;15000字)
摘要
我国的网络用户数量在不断的增长,网络上充斥着大量的信息,为人们了解当前的国际形势、国内新闻以及潮流信息等带来了非常丰富的资源。网络的发展速度非常快,信息每天都在不断的更新,给人们带来的资源量也在逐渐的丰富。随着市场上的信息量不断的增加,同质化的信息、无用的信息等也都不断的出现,为人们在网络上查找自己想要的信息内容带来了一些负面影响,在这样的大环境下,如何更加有效的筛选信息,让信息可以更好的被人们所使用,或者能够通过计算机对信息的判断,来对人们在网络上发布的信息进行分类,是一项非常重要的技术方向。随着人工智能的不断发展,现在人机对话一直以来都是提高计算机应用的一个发展方向,如何让计算机能够读懂人类的语言,实现更好的应用是人工智能领域中最为初级的研究。
本次就是利用了计算机的编程语言来针对新闻内容让计算机软件来实现自动新闻分类,利用自然语言来对新闻分类进行内容的处理,实现依靠内容对新闻进行有效分类的开发效果。
关键词:机器学习;新闻分类;python语言
Abstract
The number of network users in China is growing, and the network is full of a large amount of information, which brings very rich resources for people to understand the current international situation, domestic news and trend information. The development of the network is very fast, the information is constantly updated every day, and the amount of resources brought to people is gradually enriched. With the increasing amount of information in the market, homogeneous information and useless information are constantly emerging, which has brought some negative effects on people to find the information content they want on the network. In such an environment, how to screen information more effectively so that information can be better used by people, or judge information through computer, To classify the information released by people on the network is a very important technical direction. With the continuous development of artificial intelligence, man-machine dialogue has always been a development direction to improve computer application. How to make computers understand human language and realize better application is the most primary research in the field of artificial intelligence.
This time is to use the computer programming language to realize the automatic news classification for the news content, and use the natural language to process the content of the news classification, so as to realize the development effect of effectively classifying the news based on the content.
Key words: machine learning; News classification; Python language
第1章 绪论
1.1开发背景
现在是一个网络化的时代,现如今人们了解当下的最新新闻信息、购买商品时对商品信息的查看以及在日常的工做学习查找资料时,第一选择都是通过网络来进行相关功能的实现。信息化的时代给人们的日常生活带来了极大的便利。这些便利的信息获取方式解决的信息传递的壁垒,为信息传递起到了很好的推动作用。而在如此发达的网络环境下,人们在日常工作和生活过程中,在网络上对于信息的处理过程中,随着信息量的不断增加,将信息的内容分类的工作则成为了一大难题,传统的新闻分类需要人们对每一条信息进行研读,之后再将其分类为其应当归属的类型中,这种分类方式工作量非常巨大,对于工作人员产生的工作压力较大,在信息化的发展当下,这种方式已经不适用于信息化建设发展。现如今的人工智能领域不断得到发展,人工智能的开发可以有效地推动计算机去识别人类的语言,通过对人类语言的识别来直接进行系统的运行,这种方式可以让计算机去代替人类自主的进行一些功能推动执行,减少了人工干预,实现了很好的计算机自动化发展推进。而利用人工智能来对新闻信息进行分类的工作,可以有效地提高新闻分类的工作效率,并且面对当下日益增长的新闻内容、新闻容量,通过利用计算机自动进行机器学习,可以更好的推动人工智能发展,实现更好的智能信息化发展。这种方式可以有效的推动网络信息的清洁完整,能够更好的将大量的网络信息进行有效的内容分类,让人们通过搜索关键词、关键语句系统就能够进行自主的内容判断,并且将输入的内容进行自主的分类。这种方式可以为当下的计算机发展起到更好的推动作用。
1.2开发意义
此次以新闻话题文本分类为主要的研究内容,以python技术来搭建一款机器学习新闻文本分类的系统,通过该系统的搭建来对输入的新闻内容进行系统分类,让整个系统可以具备自主的信息识别能力,对于用户在文本框中输入的新闻信息可以实现很好的话题分类,并且将已经实现分类的话题保存在文本管理模块中,从而让该程序可以实现更多的新闻内容存储,通过对新闻内容分类的存储来提高自身对于新闻内容的分类能力,从而实现更好的分类效果。整个系统通过文本分类、话题分类可以达成对人工智能的初步了解开发,通过利用自然语言来对整个系统的开发,可以很好的推动开发效果,实现更好的机器学习过程。整个系统的开过程能够为当下网络中繁琐的信息量提供有效的信息维护管理作用,能够通过自主分类来提高分类的效果,提升对新闻的分类效率。
1.3相关技术介绍
1.3.1 Python语言
Python语言技术是一款能够实现面向对象开发的高级脚本语言技术,这款技术是现在非常主流的开发技术。该技术能够通过简单的过程开发实现很好的系统开发效果,python技术不仅仅是在网页程序的编写上,在游戏以及一些其他的数据处理应用方面也有着非常好的应用。整个编程语言是可以通过动态的编程方式来实现功能模块的编程开发效果。在当下的编程市场中,该语言有着很好的应用效果,该语言能够基于C语言、C++语言来实现有效的系统开发方式,整个系统的开过程中,python可以通过利用简单的编程语言,强制的格式校验来提高对整个系统的编程效率,python语言可以通过简单的编程语言方式来获取更好的开发效果,能够让编程人员在以英语文章撰写的方式来实现编程的过程,让编程变得更加的有趣。这种技术可以有效的提升编程的效率,据统计,利用python进行编程所消耗的时间基本上相当于java开发所消耗时间的三分之一。这种伪代码的编写方式对于软件开发的初学者而言可以提供友好的编程开发界面,提供较好的开发效果。
Python语言是一款开源的语言,是一款极简风格的语言,解释性应用良好,编程过程可以提供很好的编程效果,是现在很多互联网公司都在使用的一种编程技术,应用广泛,对于此次的系统开发而言也能够提供很好的技术支持服务保障。
1.3.2 django框架
Django框架是python中应用非常成熟的一款框架技术,在这款框架技术中有很多涵盖在内的组件,这些组件能够进一步的对系统的能力,在开发的过程中,能够保证有很好的开发特点,通过模块化的内容开发,让系统的功能开发保持完整,底层支持结构保持高效,并且该技术也是通过三层开发的过程来完成整体的内容开发的,在该框架的开发过程中,通过三层结构来实现很好的内容开发工作,能够在业务层、逻辑层和表达层的开发工作中实现更为有效的开发效果。
1.3.3MySQL数据库
MySQL数据库是现在很常用的一款数据库管理工具,此次利用该数据库是为本次开发的机器学习的新闻分类系统提供有效的数据记录支持,通过MySQL数据库可以为此次开发的系统的数据存储提供高效的服务管理。MySQL数据库可以通过SQL语言来通过数据库表格的方式进行数据的存储服务,这种存储方式对于数据的调取而言十分有效。并且该数据库还能够通过多线程,多用户的服务操作来提高数据服务的时效性。该数据库在对应一般的网站应用上,能够提供便捷的、高效的服务,整体的运行效果好,数据维护效果稳定。
1.3.4B/S结构
此次的系统建设是基于B/S结构下实现的系统搭建,B/S系统结构是一种基于浏览器与服务器的系统架构体系,这种系统的架构体系中能够摒弃对于客户端的设计,通过以浏览器作为系统的主要入口来实现线上化的系统运行,让服务器作为对整个系统的代码运行的主要工具,来减少对客户端的资源占压,可以提升系统的运行效果,并且系统在日常的维护、日常的升级上有效的降低成本支出,系统的运行也比C/S结构而言运行更加稳定,使用效果更好。
1.3.5Tomcat服务器
Tomcat服务器是一款免费的服务器,该服务器是Apache提供的一个免费的网络服务器,也是一款轻量化的服务器。该服务器能够为本次的系统开发提供稳定的服务器运行效果,该服务器的运行稳定,对于代码的读取上能够实现完整的有效运行。
第2章 系统分析
2.1系统需求分析
系统需求的分析是基于此次开的背景,开发的意义,通过整体的开发背景调查完毕之后,来对系统的需求进行一次分析,在系统的需求分析上,重点是在于此次的机器语言的学习过程需要保证机器学习能够实现怎样的效果,要达成怎样的设计目的。整个系统的需求调查是一个十分漫长的工作过程,在需求调研的过程中需要大量的文献内容参考,通过文献内容参考来对整个系统的开发理论基础进行总结,只有通过大量的文献查阅,才能够为本次的系统开发奠定有效的开发基础。在需求的调查上,本次的系统开发是要求系统能够实现对输入的新闻内容进行类别的判断过程,通过自然语言来对输入的内容进行运算判断,从而实现新闻分类的自动归类。而在此次的开发过程中的计算方式是通过利用了自然语言来进行计算的。自然语言的是人工智能领域中应用最为广泛的一种方式,这种语言能够实现计算机对人类的常用自然语言的内容的完整处理过程,通过对语言的精准识别可以更好地实现很好的人机对话功能,而自然语言是根据数据集来进行语言的判断,数据集对于自然语言的使用来说至关重要,好的数据集能够为自然语言的运用提供充足的语言基础,能够很好的实现机器对于语言的处理能力。本次设计的系统需要在整个系统的运行上能够通过对文本框内输入的内容的分析来自动让系统进行内容判断,通过不断地输入内容来进行判断,让系统可以存储更多的分类内容,从而实现机器学习的过程。
2.2可行性分析
在进行需求调研之后,需要对整个系统的可行性进行有效的内容分析,在可行性的分析上,其主要的作用是在系统开发之前通过一次完整的内容探讨来确定所开发的程序是否有着很好的实用价值,在系统的运行和使用上是否可以达成设计之初的需求要求,从而能够更好的完成对开发效果的预测,本次的系统开发的可行性分析将会从技术层面、经济层面、操作层面等方面来进行具体的内容分析:
2.2.1技术可行性
此次的技术层面上,选择了常用的python技术以及python最为成熟的django框架,在功能模块的开发上,能够通过有效的代码编程和功能开发来提高整个系统的可用性。数据库的选择本次采用了MySQL数据库,该数据库可以为整个系统提供稳定的数据处理服务。而整个系统是搭建在B/S结构下的,在该结构下能够通过网页来实现的线上化运行效果,系统的功能开发稳定,内容设计完整。而在技术的开过程中,如果在开发过程中遇到困难,也能够通过查阅文献、向老师求助等方式来进行开发过程的问题解决。整体来看,此次开发的技术可行性强,可以通过选择的开发技术来完成对整个系统的完整内容开发。
2.2.2操作的可行性
本次的操作可行性上,通过利用网页作为系统的进入端口,在网页中通过鼠标和键盘的配合操作来实现简单的功能应用。从操作的可行性上来看,现在人们对于电脑的使用十分的广泛,对于计算机的基础知识的掌握程度较高,能够通过网页来实现功能模块的操作使用,整体而言此次所开发的系统操作难度不大,可操作性强。
2.2.3经济可行性
在此次的经济可行性上,本次所采用的python技术、django框架以及MySQL数据库等都是免费的开发工具,此次选择的服务器Tomcat也是一款免费的轻量化服务器。从真个开发出的成本投入上来看,此次开发所需要投入的资金成本较低,而且本次的系统开发是基于B/S结构下进行的内容开发,在这种结构下的系统能够有着很低的开发成本,不需要单独开发客户端,也不需要在电脑上安装任何其他的插件,所以从开发的成本控制上能够做到合理的成本空中。而整个系统的未来应用是基于人工智能的一个简单分支进行的深入研究,对人工智能的研究可以提供一些开发经验,有着一定的开发实用性。总体而言本次的系统开发经济的可行性强。
2.2.4法律可行性
此次的系统开发是对人工智能的一次研究和探讨,整体上不存在任何商业用途,整个开发是一次简单的研究,是本次所选择的技术也都是免费的技术,不存在使用盗版软件等情况出现,整个系统也是按照设计需求的要求来执行整体内容设计的,不存在盗用和抄袭,因此系统开发是符合法律法规要求的,法律的可行性强。
2.3设计的基本思想
本次系统的设计原则上,是通过自然语言来让机器对人类的应用进行系统的判断学习,整个系统的开过程中可以保证系统有着实用的功能研发,通过新闻分类来对整个系统进行具体的功能设计,确保整个系统能够按照设计之初的需求要求进行一步步的内容设计。整个系统的设计要保证在B/S结构下,实现在页面的系统良好运行效果,在整个设计上要保证内容模块设计简单,功能使用正常,可以为用户提供很好的使用效果,通过简单的内容展示完成高效的功能设计和完整使用。整个系统要保证能够对新闻进行文本的分类,能够对已经分类的新闻进行完整的内容存储。在页面上通过简洁的页面设计来提高整个系统的友好度,为用户提供一个专业新闻文本分类平台。
2.4设计的原则
系统的设计原则需要通过功能与非功能性的内容设计来更好的为整个系统的运行提供有效的内容服务。整个系统的设计有着以下的一些设计原则:
(1)系统应当具备很强的实用价值。系统的最终目的是为人提供服务,而系统的设计中需要保证系统可以通过有效功能运行来为人们提供专业化的服务保障。整个系统的实用性体现在对新闻文本的有效分类,能够有效地将新闻进行内容区分,并且可以有效地将分类后的新闻内容进行文本存储。与设计需求相对应,实现很好的功能运行效果。
(2)系统功能模块的设计上应当具备简洁的使用特点,要在系统中突出主要的使用特点,比如此次设计的是新闻文本分类,则需要在系统中重点突出软件对于系统文本的分类功能,另外还需要通过专业的文本框设计、专业的存储设计来实现机器对语言内容的存储和学习的功能实现。
(3)系统应当具备很强的安全性,本次的系统内会存储大量的人员信息、新闻信息等内容,需要系统具备一定的安全能力,能够抵御外界的攻击,从而实现系统内的数据完整存储的过程。整个系统内的数据需要保证绝对的安全,而且在数据库的设计上,MySQL本身就具备了单独口令的设计能力,因此要通过熟练运用开发技术特点来打造一款安全性强的系统。整个系统的功能模块设计上也需要保证有着很强的可操作性,通过加强系统功能模块的可操作性设计,可以保证系统在未来能够为用户提供长远的数据服务,能够更好的为用户提供有效的技术服务。
(4)在系统的维护和升级上,系统要能够具备很强的可维护性,能够通过结合自然语言,结合python技术来实现对整个系统的升级和开发工作,系统应当具备可升级和可开发的能力,能够在未来为系统提供很好的升级服务才能够更加适应新的技术时代的发展,使得系统的使用寿命的到延长,系统的运行才会更长寿,使用效果也能够持续保持在持续稳定的状态。
第3章 系统设计
3.1系统结构设计
本次设计的机器学习新闻文本分类系统,类似于一款纯后台的管理系统,在这款系统中,需要通过登录来进行具体模块的操作使用,整个系统的主要功能设计可以保证有对新闻的内容分类,对分类后的新闻进行管理,可以对个人信息进行有效的维护。整个新闻文本分类的界面中,通过输入文本内容,系统会自动对输入的内容进行校验运算,从而实现系统的自动分类,整个系统的功能模块设计简洁,内容使用上可以达到很好的使用效果。
3.2功能模块设计
对于此次的机器学习新闻文本分类系统的功能模块的设计上,本次的主要功能有以下的一些内容:
- 新闻分类模块
新闻分类模块是此次所开发的系统中最为主要的使用功能,这个功能的使用中,需要通过展示新闻分类的具体类别,通过输入新闻的标题以及输入新闻的具体内容来进行新闻分类。新闻分类的整个模块中有文本框的显示,在文本框中输入完信息内容之后,点击开始分类,系统将会自动对输入内容进行分类。
- 新闻管理
在新闻管理的模块中,能够看到已经完成分类的新闻信息内容,在新闻管理中会以列表的方式来进行新闻信息内容以及分类的结果等内容。
- 用户管理
本次的设计是在登录之后才能够实现系统的功能使用,因此对个人的信息维护功能也进行了相应的内容设计,用户可以进行个人密码的修改以及跟人信息的维护操作。
3.3数据库的设计
此次对于数据库的设计将会分为概念设计以及逻辑设计,在数据库的概念设计中,通过对数据库的内容进行实体概念的梳理,将数据库中的实体概念与属性关系进行内容的梳理。整个系统的概念设计的E-R模型展示如下:
- 管理员

图3.1管理员E-R模型图
- 新闻分类ER图

图3.2新闻分类E-R图
在数据库的逻辑设计上通过数据库表格的方式来进行相关内容的设计与分析,此次设计的系统具体的数据库表格如下:

第4章 系统实现
4.1基本任务
本次的系统开发以及数据库的开发过程已经基本完成,整个系统能够实现稳定的运行,此次设计的系统将在本节通过具体的功能模块使用来对功能的实现进行介绍:
4.2系统主要功能得实现
4.2.1登录模块的实现
在登录界面的设计中,用户需要输入权限信息之后才能够完成登录,其界面如下图:

图4.1 机器学习新闻文本分类系统登录页面图
4.2.2新闻分类系统的首页
新闻分类界面的首页展示如下,在分类系统中,有首页、新闻分类、新闻管理、个人信息管理等内容模块,在首页中可以看到当前系统中的一些基本信息内容,包括当前系统中的用户数量、新闻类别数量、新闻数量以及当前的年份等信息,如下图所示:

图4.2新闻分类系统首页界面
4.2.3系统新闻分类界面
在新闻系统分类的界面中可以看到系统所支持的分类内容,包括有娱乐、财经等等内容,用户可以通过输入新闻标题以及新闻的内容来对新闻进行分类操作。如下图所示:

图4.3新闻中心界面
4.2.4新闻管理界面的实现
在新闻管理界面中,已经分类过的新闻信息将以列表的形式展现在该模块中,在新闻管理的主界面中可以看到有主题、有分类的内容、有新闻的分类类别,新闻的创建人等。界面显示如图4.4所示。

图4.4新闻管理界面
4.2.5用户管理界面
在用户管理界面中,可以看到现在系统中已经存在的用户信息,对于存在的用户信息可以进行在线修改,也可以添加新的用户,该功能模块中可以实现用户名的搜索,如下图所示:

图4.5用户管理界面
第5章 系统测试
5.1测试目的
系统测试的目的在于对系统进行一次完整的校验,通过系统测试可以很好的将系统中可能存在的问题进行一次摸底检查,在系统正式的投入到市场使用之前,通过系统的测试可以更好地将系统中的问题进行清理,让系统在未来的使用中能够达到更好的使用效果。
5.2 测试的方法
此次的测试方法主要是对新闻文本分类进行内容的测试,在测试中通过不断地输入新闻标题和新闻内容来使用该功能,观察系统是否能够准确的对信息进行分类,并且观察分类的时效性是否可以保持较高的运算水平,能够提升保证系统有很好的使用效果。
5.3 测试结果
通过此次的开发与测试,最终本次的系统可以实现较好的操作过程,能够稳定的对输入的新闻内容、新闻标题进行分类,分类结果正确率高,整个系统的运行稳定性强,测试结果为通过。
结论
在当下的时代中,人工智能已经有了很长远的发展,结合当下的大数据时代,计算机的算法多种多样,可以为人们提供更加便捷的服务,也能够对人们输入的文字信息进行更好的理解。本次通过以新闻文本分类作为主要的研究内容,最终可以实现系统的完整运行,且系统对于新闻文本分类的过程运行流畅,分类结果准确。本次的系统开发仅仅是人工智能的一个小片段,未来本人还将继续努力,加强对该内容的研究,提升自我的编程经验,让整个系统的运行效果更加稳定,内容更加丰富。
致谢
感谢学校教会了我这么多知识,未来我一定继续努力,加强对自己的培养和管理,让自己持续的保持勤奋好学的状态,利用大学所学知识去创造改变未来。
参考文献
[1]陈宇,王强.聚类算法在Web文本挖掘中的应用研究.中国电子商情.通信市场,2019,2:62-68
[2]李恒训,张华平,秦鹏等.基于主题词的网络热点话题发现.见:中国中文信息学会.第五届全国信息检索学术会议CCIR2009论文集.中国中文信息学会,2019:134-143
[3]GabrielPui,CheongFung,JeffreyXuYu,etal.ParameterFreeBurstyEventsDetectioninTextStreams.PROCEEDINGSOFTHEINTERNATIONALCONFERENCEONVERYLARGEDATABASES,2015,1:181-192
[4]罗亚平,王枞,周延泉.基于关注度的热点话题发现模型.见:中国中文信息学会.第七届中文信息处理国际会议.中国中文信息学会,2017:402-408
[5]吴永辉,王晓龙,丁宇新等.基于主题的自适应、在线网络热点发现方法及新闻推荐系统.电子学报,2018,38(11):2620-2624
[6]董婧灵,李芳,何婷婷等.基于LDA模型的文本聚类研究.中国中文信息学会.中国计算语言学研究前沿进展(2009-2011).中国中文信息学会,2019:455-461
[7]曹立勇,郑诚.基于知网的语义相似度的改进算法.电子技术,2019,5:1-3
[8]ZheGong,DongLi,QiLi,etal.AnOnlineHotTopicsDetectionApproachUsingtheImprovedAntColonyTextClusteringAlgorithm.AdvancesinInformationSciencesandService,2018,7(2):243-252
[9]XiaodongWang,JuanWang.AMethodofHotTopicDetectioninBlogsUsingN-gramModel.JournalofSoftware,2019,8(1):184-191
[10]GongshenLi,KuiMeng,JingXie.AnImprovedTopicDetectionMethodforChineseMicroblogBasedOnIncrementalClustering.JournalofSoftware,2019,8(9):2313-2320
[11]刘红岩,陈剑,陈国青.数据挖掘中的数据分类算法综述.清华大学学报(自然科学版),2018,42(6):727-731
[12]郭亚琴,王正群.一种改进的支持向量机BS-SVM.微电子学与计算机,2019,27(6):54-56
[13]金希茜.基于语义相似度的中文文本相似度算法研究:[硕士学位论文].杭州:浙江工业大学图书馆,2019
[14]H.Han,StudyonahybridSVMmodelforchillerFDDapplications.AppliedThermalEngineering,2019,31(4):582-592
[15]李晓黎,刘继敏,史忠植.基于支持向量机与无监督聚类相结合的中文网页分类器.计算机学报,2018,24(1):62-69





openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目,面向数字基础设施四大核心场景(服务器、云计算、边缘计算、嵌入式),全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构
更多推荐

所有评论(0)