11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、生图能力超越Flux1.1Pro!神秘AI模型红熊猫Red_panda横空出世一款名为red_panda的神秘AI图像生成模型在ArtificialAnalysis的基准测试中表现惊人,超越了行业领军企业的产品。研究旨在提前了解技术发展带来的后果,提出减少废物的建议。
【新智元导读】能识别并转录18世纪手稿、还能推测无地标照片拍摄地……马斯克本人也出来官宣:Grok现在能够理解图像了!就在刚刚,xAI为Grok增加了图像理解功能!马斯克本人也出来官宣了,并称「Grok现在能够理解图像了,甚至还可以解释笑话」。在马斯克举的例子中,Grok根据给出的这张meme图,从场景设置、笑话的前提、转折、幽默之处、额外的幽默层面、视觉笑点6个方面来解释了它。我们在几个月内完成的事情是其他人花费数年时间才能做到的。
一个可以自动分析PDF、网页、海报、Excel图表内容的大模型,对于打工人来说简直不要太方便。上海AILab,香港中文大学等研究机构提出的InternLM-XComposer2-4KHD模型让这成为了现实。IXC2-4KHD将多模态大模型支持的分辨率提升到了4K的水平,研究人员表示目前这种通过增加切块个数支持更大图像输入的策略遇到了计算代价和显存的瓶颈,因此他们计划提出更加高效的策略在未来实现�
过去一年扩散模型风头正劲,彻底改变了文生图领域!那么,扩散模型能否处理视觉感知任务?字节跳动和复旦大学技术团队在最新研究中提出了一个简单有效的方案。扩散模型在生成高清晰度图像方面显示出了卓越的能力,这一成就得益于其在大规模图像-文本对上的预训练。随着技术的进步,这些方法可能会进一步完善。
来自南加州大学、华盛顿大学、巴伊兰大学和谷歌研究团队的研究人员推出了DreamSync,这是一种新型人工智能框架,致力于解决扩散型文本到图像模型中对齐和审美吸引力的问题无需进行人工标注、修改模型架构或使用强化学习。DreamSync的方法是通过生成候选图像,利用视觉问答模型对其进行评估,然后对文本到图像模型进行微调。拓展DreamSync的应用到其他模型架构,并在不同场景中进行性能评估和额外研究也是未来持续调查的方向。
研究人员在最新的一项研究中介绍了Ferret,这是一款多模式语言模型,旨在实现高级图像理解和描述。该研究聚焦于视觉-语言学习中的关键问题,即如何融合地理信息和语义知识,以便模型能够同时引用和定位图像中的元素。这一研究为多模式语言模型领域带来了突破性进展,为图像理解和描述提供了新的可能性。