1. 研究目的与意义
随着信息化爆发式的增长,需要花费大量的时间才能找到自己感兴趣的内容。
这种浏览大量无关的信息找到自己关心的内容会浪费很多时间,个性化推荐系统应运而生。
个性化推荐系统是建立在海量数据挖掘基础上的一种智能平台,可以模拟商店销售人员向顾客提供商品信息和建议,为顾客购物提供完全个性化的决策支持和信息服务,它的目标是既满足用户意识到的需求,也能满足用户没有意识到的需求,或意识到,但没有表达出来的需求,让用户超越个体的视野,避免只见树木不见森林。
2. 课题关键问题和重难点
【关键问题】1.实时抓取163/网易等在线网站的新闻,并进行持久化存储,掌握python的使用,如何爬取网页新闻,如何数据清洗。
2. 使用机器学习的方法对新闻进行分类,在这过程中掌握文本分词、机器学习分类算法(如决策树、朴素贝叶斯等),会对算法效果进行调优。
3. 建议以Web方式进行具体应用展示(前端界面)。
3. 国内外研究现状(文献综述)
【开发语言】就当下而言,Python 无疑是机器学习领域最火的编程语言,这得益于 Python 对科学计算的强大支持。
因此,本毕业设计中关于机器学习算法的代码均采用 Python 机器学习库 sklearn 编写。
机器学习的最主要的一项工作就是训练模型,训练模型的过程就是机器学习算法实现的过程,这里的算法和我们经常提及的算法有些区别,比如插入排序、归并排序等,它们的结果都是计算出来的,只要确定输入,就可以给定一个值,而机器学习的算法是猜出来的,既然是猜,那么就会有对有错,机器学习会根据猜的结果,不断的优化模型,从而得出正确率最高的结果。
4. 研究方案
【设计思路】用爬虫技术获取新闻内容标题和标签存储在数据库中,模拟一些个人用户,根据其喜好,利用标签标题筛选出用户可能感兴趣的新闻,再对新闻正文数据进行具体的分类清洗,最终将筛选过的新闻展示到个人用户界面。
本系统设计为分别由三个子系统组成,分别是:网络爬虫系统即数据采集系统、新闻分析系统即中文语料相似度分析系统和最终结果展示系统,如图2所示。
图 2系统层次图【具体步骤】1. 调研阅读大量文献资料,了解当前领域的研究现状,掌握常见的机器学习算法;2. 在技术选型及方案设计上,选择熟悉的开发语言,熟悉的开发工具包,完成系统总体方案的设计;3. 在总体方案的基础上,进行系统开发,主要包括:新闻爬取、新闻清洗过滤、持久化存储、文本分词、新闻分类、内容展示;4. 完成整个系统的测试验证;5. 列写论文提纲,进行论文写作,形成初稿;6. 根据指导教师对初稿提出的修改建议,修改论文;7. 论文定稿并准备答辩。
5. 工作计划
2022-2022-1学期:第15-16周:完成选题,查阅相关中英文资料。
第17周:与导师沟通进行课题总体规划。
第18-19周:导师下发毕业设计(论文)任务书,学生根据导师的要求进行外文翻译,列出开题报告大纲,进行开题报告的撰写。
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。