西安交大在读博士杨蜀钰:面向行人重识别的多属性和语言大模型研究
今年 9 月起,智东西公开课品牌全新升级为智猩猩。智猩猩定位「新科技」服务平台,聚焦人工智能与前沿科技,提供公开课、在线研讨会、讲座、峰会等线上线下产品。
「AI 新青年讲座」由智猩猩出品,致力于邀请青年学者,主讲他们在生成式 AI、LLM、计算机视觉、机器学习等人工智能领域的最新重要研究成果。
AI 新青年是加速人工智能前沿研究的新生力量。AI 新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与 AI 新青年的直接交流,大家在 AI 学习和应用 AI 的过程中遇到的问题,也能够尽快解决。
「AI 新青年讲座」现已完结 227 讲;有兴趣分享学术成果的朋友,可以与智猩猩教研产品团队进行邮件(class@zhidx.com)联系。
作为一种跨模态学习任务,基于文本的行人检索很少从大规模的跨模态预训练中获益。一个原因是由于隐私问题所造成的数据缺乏,通常无法收集足够的数据来满足当前深度学习大模型对数据的需求量。二一个是缺乏高质量的注释。语言注释过程很繁琐,并且不可避免地引入注释者的偏见。因此,文本描述通常非常简短,无法全面描述目标人物的特征。
针对这个问题,在 ACM MM 2023 上,来自西安交通大学、新加坡国立大学的研究者提出了一个用于基于文本的行人检索的大规模多属性和语言检索数据集(MALS,Multi-Attribute and Language Search dataset),并探索在属性识别和图像 - 文本匹配任务上同时进行预训练的可行性。
考虑到隐私问题和注释成本,研究者利用现成的扩散模型生成数据集。而为了验证从生成的数据中学习的可行性,他们还提出了一个新的联合属性提示学习和文本匹配学习框架:APTM。
APTM 在包括 CUHK-PEDES、ICFG-PEDES 和 RSTPReid 在内的三个具有挑战性的真实基准数据集上实现了有竞争力的召回率,并获得了 SOTA 的检索性能,同时也验证了在 ? MALS 上进行预训练的有效性。
10 月 19 日晚 7 点,「AI 新青年讲座」第 228 讲邀请到西安交通大学计算机科学与技术专业在读博士杨蜀钰参与,主讲《面向行人重识别的多属性和语言大模型研究》。
讲者
杨蜀钰,西安交通大学计算机科学与技术专业在读博士;指导老师为朱利教授;主要研究计算机视觉、行人重识别等内容;目前有一篇论文被 ACM MM23 接收。
第 228 讲
主 题
《面向行人重识别的多属性和语言大模型研究》
提 纲
1、大模型时代的行人检索任务
2、基于文本的行人检索数据集 MALS
3、联合属性提示学习和文本匹配的预训练框架 APTM
4、在真实世界基准上的有效性验证及 SOTA 检索性能
直 播 信 息
直播时间:10 月 19 日 19:00
直播地点:智东西公开课知识店铺
成果
论文标题:《Towards Unified Text-based Person Retrieval: A Large-scale Multi-Attribute and Language Search Benchmark》
论文地址:http://arxiv.org/abs/2306.02898
开源代码:https://github.com/Shuyu-XJTU/APTM