1. 研究目的与意义
随着互联网技术的日益普及,人们的生活方式随之革新,越来越多的用户习惯在网络上检索自己需要的信息,例如,人们越来越热衷通过网络上的资源进行选房、购房等,但是网络上资源参差不齐,真假难辨,而且海量信息中如何快速筛选出符合自己需求的数据等,都是棘手问题。
为此,本课题提出构建一个基于网络爬虫的房产信息检索与分析平台,以南京市为例,爬取其历史房产数据,并运用数据统计及数据挖掘技术,向平台用户尽可能多角度地展示最客观、真实的数据,如:房产的基本信息、房价走势统计信息以及未来房价预估信息等,从而帮助用户更加高效地选房或购房。
2. 课题关键问题和重难点
关键问题:①房产数据爬虫:选择一些大型、可靠的房产网作为目标房产数据源网址,从中抓取数据并保存到数据库。
②数据处理与统计分析:对抓取的房产数据集进行清洗和过滤,而后进行传统方法的统计计算,以及基于数据挖掘技术的建模分析,将统计和分析结果多角度服务于用户。
③构建一个网站平台,平台包括两类用户,分别是后台管理员和网站用户,管理员负责所有平台用户管理,以及所有房产信息维护;普通用户即有购房需求的用户,注册通过后,登录平台可以按关键词检索自己需要的房产信息,以及查看所选区域的房产各种统计信息、数据挖据分析与预测结果。
3. 国内外研究现状(文献综述)
在互联网发展的早期,网站的数量相对较少,各类相关信息的数据量不大,针对其的查找也比较容易。
随着互联网井喷式的发展,各式的网络资源也出现了指数级的快速增长。
互联网上有超过16亿的网站[1],包含至少217亿的页面。
4. 研究方案
工作内容:①存储所爬虫获得的南京市房产数据进入MySQL数据库。
②分析房产数据,建模服务于用户。
③搭建网站平台,实现分用户式登录,管理员用户负责更新模型和数据,同时对已注册用户进行更新,普通用户注册登录进去可以查看一系列房产统计信息,可以根据预测算法预测未来房价走势。
5. 工作计划
2022.01:在学习网站上观看学习所运用技术的学习视频,同时寻找相关课题的文献,在电脑上安装相关的软件,配置相关的环境,试做一些小例子。
2022.02-2022.03:完成开题报告和外文翻译,进行课题总体规划和课题的详细设计,落实具体的实现思路,再进行课题模块化设计并进行模块代码编写与调试,完成相关数据的获取和分析,网站平台的搭建,网站基本功能的撰写,预测算法的使用等等。
完成课题的设计。
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。