当前位置:首页  科技信息

科技信息

中国科研团队突破性发布VideoChat-Flash:长视频处理效率狂飙100倍

2025-01-21 17:32:56
导读 传统视频理解模型在处理长视频时面临诸多挑战,如复杂上下文理解及训练和推理效率低下。为解决这些问题,研究团队运用HiCo技术,通过层次化...

传统视频理解模型在处理长视频时面临诸多挑战,如复杂上下文理解及训练和推理效率低下。为解决这些问题,研究团队运用HiCo技术,通过层次化压缩视频信息中的冗余部分,显著降低了计算需求并保留了关键信息。同时,利用与用户查询的语义关联进一步减少了视频标记数量。

VideoChat-Flash模型采用多阶段短视频到长视频的学习方案,通过监督微调及逐步引入长视频进行训练,实现了对混合长度语料的全面理解。研究团队还构建了包含300,000小时视频和2亿字注释的庞大数据集,并提出改进的“干草堆中的针”任务以提高模型对上下文的理解能力。实验结果显示,该方法在计算上减少了两个数量级,并在短视频和长视频基准测试中表现优异,超越了现有开源模型。

免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。