北大&腾讯打造多模态15边形战士!语言作“纽带”,拳打脚踢各模态,超越Imagebind

北大联合腾讯打造了一个多模态15边形战士!以语言为中心,“拳打脚踢”视频、音频、深度、红外理解等各模态。提出LanguageBind的多模态预训练框架。LanguageBind包含三个部分: 多模态编码器(Multi-modal Encoders),语言编码器(Language Encoder),以及多模态联合学习

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索
本网站由提供CDN加速/云存储服务