1. 研究目的与意义(文献综述包含参考文献)
一、背景随着视频数据的持续增长,视频信息的可用性和数量显著增加,高效的视频检索与分析变得越来越重要。
结构化分析是一种有效的方法,可以使数据更容易被访问。
与文本分析中,对单词、句子、段落的细粒度进行分析类似,视频数据也可以在帧(frame),镜头(shot)和场景(scene)级别进行分析。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
2. 研究的基本内容、问题解决措施及方案
二、拟采用的研究手段本课题基于Rao等人与2020年提出的视频拆条模型LGSS模型进行改进,该模型通过三个阶段执行场景分割:1)从地点、演员、动作和音频四个方面提取镜头的特征;2)定义边界预测网络(BNet)来预测场景边界,使用滑动窗口输入镜头特征数据,使用时间卷积计算镜头之间的差异与关联度,再使用时序模型(如Bi-LSTM)预测镜头为场景边界的概率;3)通过动态规划(DP)来解决全局优化问题,得到最优的场景分割结果。
本课题在该模型的基础上,应用对比学习进行模型预训练,以得到更好的镜头特征。
预训练任务分为两阶段:(1)伪边界生成。
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。