基于Transformer网络多模态融合的密集视频描述方法
李想, 桑海峰
Dense Video Description Method Based on Multi-modal Fusion in Transformer Network
Li Xiang, Sang Haifeng
系统仿真学报 . 2024, (5): 1061 -1071 .  DOI: 10.16182/j.issn1004731x.joss.23-0017