1. 研究目的与意义
在智能设备的高度普及和互联网技术高速发展的同时,信息爆炸已经成为了一个越来越棘手的问题,各类文本信息呈爆炸式增长。新闻文本作为一种重要的数据承载形式有着重要的地位,如何在巨大的信息源中准确、快速的获取到有价值的信息成为人们的迫切需要,这也是工业界和学术界一直关注的热点问题。
新闻文本分类是文本分类研究的一个细分领域,是信息搜索、推荐系统等领域中必不可少的部分,分类的目标是为每一个新闻文本分配对应标签,标签代表了该新闻期望的分类类型。分类后的新闻文本具有多种用途,如根据不同分类推荐不同广告信息;对候选新闻进行过滤,进而提高推荐系统的准确率;在信息检索中依据类别信息制定不同的检索策略等。新闻文本作为互联网信息的重要载体,可以向网民用户提供各类实时资讯,降低用户获取信息的成本。新闻已经成为广大网民用户获取各类咨询的重要信息源,担当了重要的信息传播媒介。因此,本课题拟完成基于机器学习的新闻分类系统的设计与实现,爬取网易等在线网站的新闻,对比多种分类算法(如朴素贝叶斯、决策树、BP神经网络等),选取最高准确度与最高响应时间的算法,训练一个新闻文本分类模型可以将新闻分为多类(如财经,体育,娱乐,汽车,科技,社会,游戏,旅游等),并通过web系统进行展示,以解决新闻信息量巨大、杂乱、检索慢的问题。
2. 课题关键问题和重难点
本课题的关键:
基于机器学习的新闻分类系统分为四大模块:新闻信息的实时获取与数据存储、新闻数据的数据处理与中文分词、基于机器学习的新闻分类系统的后台实现,基于机器学习的新闻分类系统前端演示。同时,本课题将对比多种基于机器学习的分类算法,选取最高响应时间和最高准确率的算法训练分类模型。
1. 实时抓取163/网易等在线网站的新闻,并进行持久化存储,掌握python的使用,如何爬取网页新闻,如何数据清洗等;
3. 国内外研究现状(文献综述)
对于文本自动分类技术的研究,国外开始的比较早,最早的分类技术主要应用于信息检索系统,这一阶段主要集中在对分类理论的研究。20世纪50年代,H.PLuhn首次提出根据词频统计来提取文章摘要信息的方法,并开创性的将其应用在文本分类领域。60年代初,国外Marton等人发表了一篇利用文章关键词对文章进行自动分类的文本分类论文,开创性的采用了贝叶斯公式来进行文本分类,Marton的工作成果极大促进了文本分类领域的发展。
20世纪80年代分类领域开始依赖于大量的人工规则和知识工程来建立分类系统[1]。这一时期的分类方法大多需要依赖于对应领域的专家干预,需要通过人工来制定大量的分类规则。这种方法看似简单但是分类效率低下,分类结果的准确性严重依赖于规则的完整度和准确性[1]。
20世纪90年代后,逐渐转为以统计机器学习方法为主的分类技术。这一阶段的主流分类方法大多是基于机器学习算法构建的,与依赖人工专家制定分类规则的分类方法相比其正确性毫不逊色,且分类速度远高于人工规则,这一阶段多种机器学习方法被应用到文本分类领域,如朴素贝叶斯、最近邻(KNN)方法、神经网络、线性分类器以及基于决策树的分类方法等。因其具有高准确度、无需人工专家干预、分类效率高等优势,文本分类的价值开始逐渐展现并被工业界广泛使用[2]。
4. 研究方案
4.1系统功能结构
5. 工作计划
2022-2023-1学期:
第15-16周:完成选题,查阅相关中英文资料,进行相关技术的学习;
第17周:与导师沟通进行课题总体规划;
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。