11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
面向用户意图理解,可灵团队提出的Any2Caption按照一种统一的方式理解多模态用户输入信息,进而生成语义丰富的结构化描述,可显著提升视频生成的成功率……
中科慧远视觉技术在CVPR2025工业视觉异常检测挑战赛中夺冠。其创新方案"少样本学习下的逻辑与结构缺陷异常检测方法"融合CLIP、DINOv2和BEIT多模态特征,采用免训练架构和零样本学习技术,最终以0.936的Avg Image Score创下赛会最佳成绩。这是继2023年获奖后,该公司再次在国际计算机视觉顶级会议斩获殊荣,彰显了其在工业AI质检领域的技术实力。作为国内工业AI质检先行者,中科慧远持续深耕多模态大模型技术,其解决方案已在3C电子、半导体晶圆等制造领域积累丰富经验。未来公司将继续突破小样本学习等关键技术,为全球制造业智能化转型提供更精准的AI质检方案。
IEEE国际计算机视觉与模式识别会议CVPR2025公布论文录用结果,社交平台SoulApp技术论文《Teller:Real-TimeStreamingAudio-DrivenPortraitAnimationwithAutoregressiveMotionGeneration》被接收。SoulApp团队在论文中提出了一个新的面向实时音频驱动人像动画的自回归框架,解决了视频画面生成耗时长的行业挑战外实现了说话时头部生成以及人体各部位运动的自然性和逼真性。Soul将把最新的AI能力尽快落地到站内多元场景中,如即将上线的实时视频通话能力将融入平台的AI虚拟人情感化陪伴体系“虚拟伴侣”、多对多互动场景“群聊派对”等功能中,进一步提升平台AI虚拟人的交互能力,以及人机交互的在场感和情感温度,为用户带来有趣、温暖的社交体验。
视觉语言模型屡屡出现新突破,但ViT仍是图像编码器的首选网络结构。字节提出新基础模型——ViTamin,专为视觉语言时代设计。更多大模型算法相关岗位开放中。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
中山大学HCP实验室联合SeaAILab和哈佛大学等单位开展的一项研究,成功地让大型人工智能模型通过讲笑话的方式,探索多模态大模型的创造力,并因此获得了计算机视觉和模式识别领域的顶级会议CVPR的认可。这项研究的关键在于使用来自日本的“大喜利”创新响应游戏作为数据源。此次研究的成功,不仅展示了该实验室在AI领域的创新能力,也为未来的人工智能研究提供了新的
一篇最佳论文,一篇最佳论文候选,共计54篇论文被接收,商汤科技及联合实验室交出CVPR2023闪亮的成绩单。6月18日-22日,全球计算机视觉盛会CVPR2023在加拿大温哥华举行。商汤将继续与产学研各界共同拥抱和探索大模型带来的范式革新,为AI的前沿探索开拓新方向和新路径。
矩阵世界是AI精心设计的模拟世界!普林斯顿用Infinigen这把钥匙,打开矩阵大门,AI生成的大自然比真实世界还真!尼奥在「黑客帝国」中发现自己生活的世界并非真实存在是被精心设计的模拟现实。有没有那么一瞬间,认为我们生活的世界,就是模拟的矩阵世界。目前的研究重点是多视图3D重建和程序数据生成。
英伟达一出手,3D建模师都馋哭了。制作一个纹理超细致的大卫3D模型,需要几步?刚刚靠着AI,市值一度飚破万亿美元的英伟达给出最新答案:给AI投喂一段普通视频,它就能自动搞定。他还曾在Meta的RealityLabs实习。
计算机视觉三大顶 级会议之一CVPR正式公布了2023 年的接收结果,如视首席科学家潘慈辉带领团队提交的最 新研究成果《TexIR: Multi-view Inverse Rendering for Large-scale Real-world Indoor Scenes》成功入围。在真实空间的更深层次数字化层面取得突破进展。本届CVPR有效投稿 9155 篇,比去年增加了 12%,创下新纪录;收录2360 篇,接收率为 25.78%。