关闭广告

南洋理工、腾讯等机构联手突破:让AI像人一样"指点"图片中的东西

科技行者406人阅读


你有没有试过这样的体验:跟朋友聊天时,你想让他看看照片里的某个东西,但又不知道怎么准确描述它的位置?你可能会说"就是那个红色的杯子",朋友却问"哪个红色杯子?"这种沟通障碍在人工智能领域同样存在,而且更加复杂。

由南洋理工大学、腾讯微信视觉团队、新加坡科技研究局等多家知名机构组成的国际研究团队,最近在这个问题上取得了重要突破。他们的研究成果发表在了计算机视觉领域的顶级学术平台上,论文题目是"PATCH-AS-DECODABLE-TOKEN: TOWARDS UNIFIED MULTI-MODAL VISION TASKS IN MLLMS"(arXiv:2510.01954v1),感兴趣的读者可以通过这个编号查阅完整论文。

这项研究解决的核心问题可以用一个简单场景来理解:当你问AI"这张照片里有什么?"时,传统AI只能告诉你"有一只猫、一个杯子、一张桌子",但它无法像人一样直接"指出"这些东西的具体位置。更糟糕的是,当你要求AI找到"桌子上那个蓝色杯子"时,它往往会给出一串看起来很专业但实际上并不准确的数字坐标,比如"[245, 156, 378, 298]",普通人根本无法理解这些数字代表什么。

研究团队开发的新方法叫做PaDT(Patch-as-Decodable Token),它最大的创新在于让AI能够像人一样自然地"指点"图片。当你问AI关于图片内容时,它不再生成那些让人头疼的数字坐标,而是直接在图片上标出具体位置,就像你用手指指着照片说"就是这里"一样直观。

这种方法的革命性在于它统一了AI处理视觉任务的方式。以往,不同的视觉任务需要不同的解决方案:识别物体是一套方法,分割图像区域又是另一套方法,描述图片内容则需要第三套方法。而PaDT就像一个多才多艺的管家,能够同时胜任所有这些工作,而且做得更好。

一、传统方法的困境:数字的迷宫

要理解这项研究的价值,我们先要明白传统AI在处理视觉任务时遇到的困难。现在的多模态大型语言模型虽然很聪明,能够理解图片和文字,但它们在表达视觉信息时就像一个只会说"官话"的翻译官。

当AI要告诉你图片中某个物体的位置时,它只能用数学坐标来表达,比如说"检测到的猫咪位于[123, 45, 267, 189]"。这些数字对计算机来说很有用,但对人类来说完全是天书。更麻烦的是,即使是同一个AI,在不同时候可能用不同的格式表达坐标:有时候用小数,有时候用整数;有时候用相对位置,有时候用绝对位置。这就像一个导游有时候说"向北走100米",有时候又说"走到那棵大树那里",让人无所适从。

研究团队发现,这种用数字表达位置的方法还有一个更深层的问题:AI在学习时会把连续的数字拆分成一个个独立的数字符号。比如坐标"489"会被拆解成"4"、"8"、"9"三个独立的符号来处理。这就像你在记电话号码时,把"138"记成"1"、"3"、"8"三个不相关的数字,自然容易出错。

更糟糕的是,数字坐标虽然能精确描述位置,但它们缺乏语义信息。当AI说"[123, 45, 267, 189]"时,它无法传达这个区域里到底是什么东西,为什么它很重要。这就像GPS只能告诉你经纬度,却不能告诉你那里是个美丽的公园还是一家好吃的餐厅。

二、视觉参考令牌:AI的新"手指"

面对这些问题,研究团队提出了一个巧妙的解决方案:视觉参考令牌(Visual Reference Tokens,简称VRT)。这个概念听起来很高深,但实际上可以用一个简单的比喻来理解。

传统的方法就像让AI用复杂的地址来描述位置,比如"某某街道123号的2楼第3个房间的左上角"。而VRT的方法就像给AI一根"手指",让它能够直接指着照片说"就是这里"。这根"手指"不是真实的手指,而是一种特殊的数字标记,它直接对应着图片中的具体区域。

VRT的工作原理可以这样理解:首先,AI会把整张图片分成很多小块,就像把一张拼图分解成许多拼图片。每个小块都有自己独特的"身份证",记录着它在图片中的位置和包含的视觉信息。当AI需要指出某个物体时,它不再生成抽象的数字坐标,而是直接选择相关的图片小块,就像从拼图盒子里挑出需要的几块拼图片来组成完整的物体轮廓。

这种方法的巧妙之处在于,每个视觉参考令牌都保持着与原始图片的直接联系。它们不是凭空产生的抽象符号,而是从实际图片中提取出来的真实视觉信息。这就确保了AI的回答始终与图片内容保持一致,避免了传统方法中可能出现的"胡说八道"问题。

更重要的是,这些视觉参考令牌能够无缝地融入AI的语言表达中。AI可以在一句话中自然地混合使用文字和视觉令牌,比如说"这张照片中有一只猫[VRT指向猫]坐在桌子[VRT指向桌子]上"。这种表达方式既保持了语言的自然流畅,又提供了精确的视觉定位信息。

三、动态嵌入:让AI的"词汇表"会变魔术

PaDT系统的另一个创新是动态嵌入模块,这个名字听起来很复杂,但可以用一个生动的比喻来理解。

传统的AI就像一个只能使用固定词典的翻译,无论遇到什么内容都只能用词典里现有的词汇来表达。如果遇到词典里没有的新概念,就只能用近似的词汇来凑合,难免出现偏差。

而PaDT的动态嵌入模块就像一个会变魔术的词典,它能够根据当前处理的图片临时创造出专门适用的新"词汇"。每当AI看到一张新图片时,这个模块就会根据图片的具体内容,为这张图片量身定制一套专门的视觉词汇表。这些词汇表不是从别处借来的通用模板,而是完全基于当前图片生成的个性化工具。

这种动态生成的方法带来了显著的优势。首先,它避免了传统方法中的一个重要问题:在固定的词汇表中,AI可能会选择那些在当前图片中根本不存在的视觉元素。这就像一个人明明在描述北京的景色,却突然提到了巴黎铁塔,显然是搞错了。

其次,动态嵌入确保了每个视觉令牌都有其独特的位置信息。在传统方法中,两个看起来相似的物体可能会被分配到同一个通用标签下,AI就分不清到底指的是哪一个。而在PaDT系统中,即使是两只完全一样的猫,它们也会有各自独特的视觉令牌,AI能够准确区分"左边的那只猫"和"右边的那只猫"。

这种设计还带来了效率上的优势。因为系统只需要处理当前图片中实际存在的视觉元素,而不需要维护一个包含所有可能视觉模式的庞大数据库,所以运行速度更快,占用的计算资源也更少。

四、轻量级解码器:从"指点"到"行动"

有了视觉参考令牌这个"手指",AI还需要一个翻译官来把"指点"转换成具体的视觉输出。这就是PaDT系统中的轻量级解码器的作用。

这个解码器的工作可以用餐厅点菜的过程来类比。当你在菜单上指着某道菜说"我要这个"时,服务员需要理解你的指示,然后告诉厨房具体做什么菜。同样,当AI通过视觉参考令牌"指出"图片中的某个区域时,解码器需要理解这个指示,然后生成相应的视觉输出,比如画出边框、标出轮廓或者计算准确度分数。

PaDT的解码器采用了一种巧妙的三合一设计。它同时准备三种不同类型的"画笔":一支用来画边框的画笔、一支用来画详细轮廓的画笔,还有一支用来标注可信度的画笔。当AI指出某个物体时,这三支画笔会同时工作,分别生成边界框、分割掩码和置信度分数。

这种设计的优势在于灵活性和效率。根据不同的任务需求,用户可以选择使用其中的一种或多种输出。如果只需要知道物体的大概位置,边界框就足够了;如果需要精确的轮廓信息,可以使用分割掩码;如果想知道AI对自己判断的把握程度,可以参考置信度分数。

更重要的是,这个解码器被设计得非常"轻量",就像一个小巧但功能齐全的瑞士军刀。它不需要复杂的计算过程就能完成工作,这意味着整个系统能够快速响应,适合实时应用场景。

五、训练策略:教AI学会"举一反三"

为了让PaDT系统真正发挥作用,研究团队还开发了一套特殊的训练策略。这个策略的核心理念可以用教小孩学画画的过程来理解。

传统的AI训练就像让小孩临摹同一幅画一千遍,希望通过重复来达到熟练。但这种方法容易让小孩形成固化思维,只会画这一种特定的内容,遇到新情况就不知所措。

PaDT的训练策略则更像一个有经验的美术老师的教学方法。它不会让AI每次都关注图片中的所有细节,而是随机选择其中的几个重点区域进行训练。这就像老师每次课都重点讲解不同的绘画技巧,让学生逐步掌握各种情况的处理方法。

具体来说,在每次训练中,系统会从图片中随机选择5个视觉参考令牌作为"今日重点"。这种随机性确保了AI不会过度依赖某些固定的视觉模式,而是学会从不同角度理解和描述图片内容。这就像让学生有时候重点观察颜色,有时候重点观察形状,有时候重点观察光影,培养全面的观察能力。

为了进一步提高训练效果,研究团队还开发了一种名为"鲁棒交叉熵损失"的特殊评分机制。这个名字听起来很学术,但实际上就是一个更公平的考试评分方法。传统的评分会对所有错误一视同仁,而这种新方法会区分"重要错误"和"次要错误",让AI更专注于学习真正重要的技能。

六、实验成果:数字背后的突破

PaDT系统在各种测试中都表现出色,这些成果可以用几个直观的比较来展示。

在物体识别任务中,PaDT就像一个眼力极佳的侦探。传统方法在标准测试集上的准确率大约是13.7%,相当于在100个案子中只能正确破解14个。而PaDT的准确率达到了38.2%,相当于能够正确处理38个案子,准确率提升了近三倍。更令人印象深刻的是,这个成果是用一个只有30亿参数的"小个子"AI实现的,而它的表现超过了许多体型大十倍以上的"巨无霸"AI。

在指令理解任务中,PaDT展现出了类似于一个优秀翻译的能力。当人们用自然语言描述图片中的某个物体,比如"那个蓝色花盆里的植物"时,PaDT能够准确找到目标的概率达到了93.6%。这个数字意味着,在100次这样的对话中,它有93到94次都能准确理解用户的意图并找到正确的目标。

在图像分割任务中,PaDT表现得像一个精细的裁缝,能够准确地"剪出"物体的精确轮廓。它的分割准确度达到了79.4%,这在该领域是一个相当优秀的成绩。更重要的是,PaDT实现这个成绩使用的计算资源比传统方法少得多,就像用更少的线程织出了更精美的布料。

研究团队还测试了PaDT在图像描述任务上的表现。在这个任务中,AI需要同时做两件事:描述图片内容和准确指出每个物体的位置。PaDT在描述质量上的得分是1.45(专业评分标准),而其他先进方法通常只能达到0.3到0.4的水平。这相当于PaDT写出了一篇优秀的图片说明文,而其他方法只能写出几个零散的词汇。

七、技术细节:深入机制的奥秘

PaDT系统的技术架构体现了研究团队对人工智能工作原理的深刻理解。整个系统的设计哲学可以用"简约而不简单"来概括。

系统的核心创新在于重新定义了AI处理视觉信息的方式。传统方法将视觉任务和语言任务分开处理,就像让一个人用左手画画、右手写字,然后再想办法协调两只手的动作。而PaDT采用了一种统一的处理方式,让AI能够同时"思考"视觉和语言信息,就像一个熟练的书法家能够在挥毫泼墨的同时构思诗句。

在数据处理层面,PaDT采用了一种动态的词汇扩展机制。每当处理一张新图片时,系统会临时扩展其"词汇表",为这张图片中的每个视觉区域创建专门的表示符号。这些符号不是预先定义好的固定模板,而是根据图片的实际内容量身定制的。这种方法确保了每个视觉令牌都承载着丰富的上下文信息,避免了传统方法中可能出现的语义模糊问题。

系统还采用了一种巧妙的注意力机制来处理视觉和文本信息的融合。这个机制可以理解为一个智能的"注意力分配器",它能够根据任务需求动态调整对不同信息源的关注程度。当需要精确定位时,更多注意力会分配给视觉信息;当需要语义理解时,更多注意力会分配给文本信息。这种动态平衡确保了系统在各种任务中都能发挥最佳性能。

八、应用前景:从实验室到现实生活

PaDT技术的应用潜力远远超出了学术研究的范围,它可能会在多个实际领域带来革命性的改变。

在教育领域,PaDT可以成为一个理想的智能助教。当学生学习生物课时,AI可以准确指出细胞图片中的各个结构,比如"这里是细胞核,那里是线粒体"。在历史课上,AI可以在古代地图上准确标出各个重要城市和贸易路线。这种精确的视觉指导能够大大提高学习效率,让抽象的知识变得具体可感。

在医疗领域,PaDT的应用前景同样令人兴奋。医生可以使用这项技术来分析医学影像,AI不仅能够识别出异常区域,还能够用自然语言准确描述发现的问题。比如,在分析X光片时,AI可以说"左肺下叶有一个直径约2厘米的阴影",同时精确标出位置。这种能力对于医学培训和远程诊断都具有重要价值。

在智能驾驶领域,PaDT可以帮助车载AI系统更好地理解和描述道路状况。当检测到前方有障碍物时,系统不仅能够采取避让行动,还能够向乘客清楚地解释"前方左侧有一辆违规停放的红色轿车,我们正在向右变道避让"。这种解释能力对于提高乘客对自动驾驶系统的信任度至关重要。

在内容创作和媒体制作领域,PaDT可以大大简化视频和图片的标注工作。创作者只需要用自然语言描述想要的效果,AI就能够自动识别并标注相关区域。这对于制作教学视频、新闻报道和广告宣传都具有重要价值。

九、局限性与未来发展

尽管PaDT系统表现出色,但研究团队也坦诚地承认了当前技术的一些局限性。

首先,系统的性能仍然受到底层视觉编码器质量的影响。如果输入图片的质量很差,或者包含的物体过于复杂,系统的准确率会有所下降。这就像即使是最优秀的翻译家,面对模糊不清的原文时也可能出现理解偏差。

其次,系统在处理一些特殊情况时仍有改进空间。比如,当图片中包含大量相似物体时,系统有时会在精确区分不同个体时遇到困难。这类似于在拥挤的停车场中准确描述"第三排左边第五辆白色轿车"的挑战。

在计算效率方面,虽然PaDT已经比传统方法更加高效,但在处理超高分辨率图像或者需要实时响应的应用场景中,仍然有进一步优化的空间。研究团队正在探索更加轻量化的模型架构和更高效的训练方法。

展望未来,研究团队计划在几个方向上继续深化这项技术。首先是扩展系统的多语言支持能力,让不同语言背景的用户都能享受到这项技术的便利。其次是增强系统的时间序列处理能力,使其能够处理视频内容,实现对动态场景的理解和描述。

另一个重要的发展方向是提高系统的交互性。未来的版本可能会支持更复杂的对话模式,用户可以通过多轮对话逐步细化查询需求,AI也能够主动询问澄清性问题,确保理解的准确性。

十、技术意义与行业影响

PaDT技术的出现标志着人工智能在视觉理解领域的一个重要里程碑。它不仅仅是一个技术改进,更代表了一种思维方式的转变。

从技术角度来看,PaDT解决了长期困扰研究者的"多模态对齐"问题。以往,让AI同时理解图像和文本就像让两个说不同语言的人进行对话,需要复杂的翻译机制。而PaDT创造了一种"共同语言",让视觉和文本信息能够在同一个框架内自然交流。

这种统一性带来的不仅仅是技术上的简化,更重要的是为AI系统的进一步发展奠定了基础。当AI能够自然地将视觉感知和语言表达结合在一起时,它就更接近于人类的认知方式,这为开发更智能、更直观的AI系统开辟了新的可能性。

从行业角度来看,PaDT技术可能会推动整个AI产业的发展模式发生变化。传统的AI应用往往需要针对特定任务开发专门的解决方案,这导致了技术的碎片化和开发成本的高昂。而PaDT提供的统一框架可能会让AI应用的开发变得更加标准化和规模化。

这种变化对于AI技术的普及具有重要意义。当技术门槛降低、开发成本减少时,更多的创新者和开发者就能够参与到AI应用的开发中来,这将加速AI技术在各个领域的应用和创新。

说到底,PaDT这项研究让我们看到了AI技术发展的一个重要趋势:从专业化走向通用化,从复杂化走向直观化。就像早期的计算机需要专业人员用复杂的命令行操作,而现在的电脑可以通过直观的图形界面让普通人轻松使用,AI技术也正在朝着更加人性化、更加易用的方向发展。

这项由南洋理工大学、腾讯等多家机构合作完成的研究,不仅在技术上取得了突破,更为整个AI行业指明了未来发展的方向。当AI能够像人一样自然地"看"和"说"时,我们距离真正智能的机器助手就又近了一步。虽然这项技术目前还在研究阶段,但可以预见,在不久的将来,我们可能会在各种实际应用中见到它的身影,让我们的数字生活变得更加便利和智能。

Q&A

Q1:PaDT是什么?它和传统AI有什么不同?

A:PaDT是一种新的AI技术,全称"Patch-as-Decodable Token"。传统AI在描述图片中物体位置时只能给出复杂的数字坐标,而PaDT能让AI像人一样直接"指出"图片中的具体位置,就像用手指指着照片说"就是这里"一样直观。它统一了多种视觉任务的处理方式,一个系统就能完成物体识别、图像分割、位置定位等多项工作。

Q2:视觉参考令牌是怎么工作的?为什么比数字坐标更好?

A:视觉参考令牌就像给AI一根"手指",让它能直接指向图片的具体区域。AI会把图片分成许多小块,每个小块都有独特的"身份证"记录位置和视觉信息。当需要指出物体时,AI直接选择相关的图片小块,而不是生成抽象的数字坐标。这样避免了数字被拆分成独立符号的问题,也保持了与原始图片的直接联系,让AI的回答更准确、更自然。

Q3:PaDT技术有哪些实际应用?普通人什么时候能用到?

A:PaDT可以用于教育辅导(AI指出生物图片中的细胞结构)、医疗诊断(AI标注X光片异常区域)、智能驾驶(AI解释道路状况)、内容创作(自动标注视频图片)等领域。目前这项技术还在研究阶段,但研究团队的实验结果很有希望,预计在不久的将来会出现在各种实际应用中,让我们的数字生活更加便利和智能。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

中国人寿前三季归母净利润超1678亿元,高基数基础上同比增60.5%

证券市场周刊 浏览 554

瑞信被"5折"收购 压力来到美国这家银行!

每日经济新闻 浏览 13951

两人涉嫌切割小区23部电梯钢绳被拘 原物管称被迫退场

红星新闻 浏览 2926

海军四川舰顺利完成首次航行试验

央视新闻客户端 浏览 368

罗晋父亲离世后唐嫣首发声

娱乐圈圈圆 浏览 291

星巴克中国股权出售进入倒计时

虎嗅APP 浏览 695

“玻璃大王”曹德旺提前退休,儿子曹晖接班后福耀帝国走向何方?

尺度商业 浏览 665

全球大飞机生产供应链紧张,波音CEO:解决问题进展“慢得令人挠头”

环球网资讯 浏览 16258

名记:保罗风格和勇士不搭,交易只是为了摆脱普尔合同

OnFire 浏览 13000

全球股市遭遇“黑天鹅”,A股会跌出“黄金坑”吗?

郭施亮 浏览 857

深圳1900亿央企换将,去年人均薪酬超51万

华美财经 浏览 48

云南外援奥斯卡连续七场联赛参与进球,刷新个人中超最长纪录

懂球帝 浏览 522

NVIDIA推出ChronoEdit:让AI图像编辑拥有物理常识的革命性技术

科技行者 浏览 488

甄子丹称约杨紫琼庆功要排队 合作可能排到30年后

网易娱乐 浏览 15893

突破西方封锁 万里眼超高速实时示波器全球首发

网易科技报道 浏览 725

美国将打造全球首座可移动核反应堆工厂,落户“曼哈顿计划”旧址

IT之家 浏览 808

疑一则广告惹祸 特朗普宣布终止与加拿大所有贸易谈判

财联社 浏览 2840

纯电续航215km 全新阿尔法T5增程版10月底将上市

网易汽车 浏览 851

普通人秋天就该这么穿,准备几件黑色单品和牛仔服饰,简约又百搭

静儿时尚达人 浏览 683

13.99万元起 深度解读深蓝L06三大黑科技

第五冲程 浏览 540

MIT最新发现:这十年,算法进步被高估了

机器之心Pro 浏览 89
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2022,版权所有 qukanredian.com
沪ICP备20002587号-1