11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
蔚来汽车官方宣布,备受瞩目的NOMIGPT领航版现已正式开启招募,标志着2024款蔚来汽车将迈入全新的体验升级阶段。NOMI作为蔚来汽车的智能助手,在过去的迭代更新中,已经为用户带来了超过2000项实用功能。与8155芯片相比,8295的CPU算力提升了约2倍,GPU算力提升了8倍,为蔚来汽车的智能化发展提供了坚实的基础。
具身智能领域的“癫”,已经进入nextlevel了!来看这段视频:人形机器人在前面跑,一群机器狗在后面追;然后人追着狗,接着狗追着人……最后那位机器人还有很重的「偷感」在身上。这样它就真的很真狗啊!第二点是BabyAlphaA2拥有SuperChat功能。机器人对人类的价值,从来不只是“科幻”和冷冰冰的硬件已。
【新智元导读】Meta首个理解图文的多模态Llama3.2来了!这次,除了11B和90B两个基础版本,Meta还推出了仅有1B和3B轻量级版本,适配了Arm处理器,手机、AR眼镜边缘设备皆可用。Llama3.1超大杯405B刚过去两个月,全新升级后的Llama3.2来了!这次,最大的亮点在于,Llama3.2成为羊驼家族中,首个支持多模态能力的模型。这些新解决方案已经集成到了Meta的参考实现、演示和应用程序中,开源
北京2024年9月24日,悦享控股有限公司,一家以技术驱动的新一代移动互联网基础设施与平台服务提供商今天宣布,悦灵犀AI多模态全面升级2.3版本,使悦灵犀AI具有更为强大的应用能力。在本次更新升级中,除新增AIlive图功能外,悦灵犀AI实现了支持部分国家和地区的海外用户使用。随着悦享控股的大模型底层技术不断取得突破和进步,悦灵犀AI已经在应用层面实现了超越式发展,其丰富、多样和真实的生成效果,为全球更多用户带来前所未有的超级应用体验。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里国际推出最新多模态大模型Ovis,看菜品就能提供烹饪步骤阿里国际AI团队发布了多模态大模型Ovis,为各行业带来新机遇。英特尔在2024年计划中稳步推进,展望2025年推出的FalconShores将进一步提升其在AI领域的竞争力。
中国科学院地理科学与资源研究所正式发布全球首个多模态地理科学大模型坤元”。作为专为地理科学领域量身打造的专业语言大模型,坤元”不仅精通地理学的精髓,更在懂地理”、精配图”、知人心”、智生图”四大核心功能上展现出非凡能力。他们还将打造地理科研协作大平台,为每一位科学家和科研团队提供专属的地理大模型服务,通过共享数据、模型与研究思路等�
随着大语言模型的飞速发展,角色扮演智能体正逐渐成为AI领域的热门话题。这类智能体不仅能够为人们提供陪伴、互动和娱乐在教育、社会模拟等领域展现出重要的应用潜力。在多模态角色扮演智能体的开发中,多模态理解能力和角色扮演质量是更具挑战性的方面,需要在未来的研究和优化中予以特别关注。
在生成式人工智能领域,大模型多模态交互能力的升级正掀起一股新的AI浪潮,在RTC能力的加持下,人与AI的交互不再局限于文字,也可以通过语音通话进行生动、流畅的低延时交互,这也成为当下国内外大模型厂商新的发力点。今年5月,GPT-4o的发布开创了AI实时语音交互的先河。声网的实时多模态对话式AI解决方案目前已经上线,如您想进一步体验我们的Demo或者接入该方案,可在声网公众号找到这篇文章,扫描文章底部的二维码联系我们。
科技日新月异的今天,教育行业正经历着前所未有的变革松鼠Ai作为这一领域的佼佼者,正以其创新的多模态智适应教育大模型,引领着教育行业的未来发展方向。松鼠Ai在多个重要场合的亮相和成果展示,再次证明了其在人工智能教育领域的领先地位。我们有理由相信,在松鼠Ai的引领下,未来的教育将更加个性化、智能化和高效化。
让AI像人类一样借助多模态线索定位感兴趣的物体,有新招了!来自人大高瓴GeWu-Lab、北邮、上海AILab等机构的研究人员提出Ref-AVS,让AI能看、会听,更懂真实物理世界。相关论文已入选顶会ECCV2024。更多详情欢迎查阅原论文。
【新智元导读】就在刚刚,Meta最新发布的Transfusion,能够训练生成文本和图像的统一模型了!完美融合Transformer和扩散领域之后,语言模型和图像大一统,又近了一步。真正的多模态AI模型,可能很快就要来了!Transformer和Diffusion,终于有了一次出色的融合。他在卡耐基梅隆大学语言技术研究所获得博士学位,师从EduardHovy教授,并在上海交通大学获得了计算机科学硕士和学士学位�
ACM国际多媒体会议上组织的多模态与可靠性情感计算研讨会MRAC24公布论文接收结果,社交平台SoulApp研究成果《MultimodalEmotionRecognitionwithVision-languagePromptingandModalityDropout》成功入选。作为较早思考将AI应用于社交领域的平台,Soul积极推动AI情感互动能力的研究,目前相关技术已应用于异世界回响、AI苟蛋、群聊派对等AI陪伴、AI辅助的创新场景。对Soul来说,接下来,将继续加大技�
【新智元导读】Mini-Monkey是一个轻量级的多模态大型语言模型,通过采用多尺度自适应切分策略和尺度压缩机制,有效缓解了传统图像切分策略带来的锯齿效应,提升了模型在高分辨率图像处理和文档理解任务的性能。它在多项基准测试中取得了领先的成绩,证明了其在多模态理解和文档智能领域的潜力。作者也验证了多尺度自适应切分策略在别的架构的多模态大模型上的有效性,为缓解由切分增大分辨率导致的「后遗症」提供了一种简单有效的解决方案。
提升多模态大模型处理高分辨率图像的能力越来越引起这个领域的关注。绝大多数方法致力于通过对图像进行切分再融合的策略,来提升多模态大模型对图像细节的理解能力。作者也验证了多尺度自适应切分策略在别的架构的多模态大模型上的有效性,为缓解由切分增大分辨率导致的「后遗症」提供了一种简单有效的解决方案。
国内著名开源社区OpenBMB发布了最新开源多模态大模型——MiniCPM-V2.6。MiniCPM-V2.6一共有80亿参数,在单图像、多图像和视频理解方面超越了GPT-4V;在单图像理解方面优于GPT-4omini、Gemini1.5Pro和Claude3.5Sonnet。易用扩展性强:可以通过多种方式轻松使用,包括llama.cpp和ollama支持在本地设备上进行高效的CPU推理,提供int4和GGUF格式的量化模型,支持vLLM进行高吞吐量和内存高效的推理,支持在新领域和任务上进行微调目前,MiniCPM-V2.6在Github的评分超过9000颗星,是开源多模态中性能非常好用的一款模型。
国产大模型,多模态能力都开始超越GPT-4-Turbo了??权威榜单,中文多模态大模型测评基准SuperCLUE-V,新鲜出炉:特别是腾讯的hunyuan-vision、上海AILab的InternVL2-40B,分别成为国内闭源和开源界两大领跑者,甚至超过Claude-3.5-Sonnet和谷歌王牌Gemini-1.5-Pro。虽然这次都还是被GPT-4o压过,差距也确确实实缩小了很多。在多模态“图生文”场景下,腾讯又能整出什么实用好活,就非常值得期待了。
近日,ISC.AI2024多模态时代的大模型关键技术与应用论坛成功召开。本次论坛由360人工智能研究院、中国图象图形学学会联合主办,集结业界知名学者、行业技术领袖等前沿代表,围绕多模态时代大模型的技术变革、研发挑战、应用场景等问题展开深入探讨,致力共同探索出多模态大模型发展的“中国路径”,为全行业的数转智改提质加速。在开场致辞环节中,360集团副总裁、3
在2024世界人工智能大会上,上海岩芯数智携Yan1.2多模态大模型亮相,不仅可以让大模型在手机、电脑、甚至树莓派端无损运行可以让机器人准确理解用户的模糊指令和意图。研发团队展示了一款部署Yan1.2多模态大模型的智能机器人“小智”,它能够基于Yan1.2的语音和视觉处理能力,实时识别环境、准确理解用户的模糊指令和意图,并据此控制其机械躯体高效完成各类复杂任务。当有人问“小智,你现在看到了什么”或手捧书籍邀请“小智”一同看书时,它能够基于多模态能力进行学习和创作,精确描述环境和人物特征、学习书籍信息。
没等到GPT-4o,商汤先把《Her》给发布出来了!就在刚刚,商汤直接在现场来了个炸裂的LiveShow,话不多说,直接看效果:不仅声音非常拟人还是实时、随时可以打断的那种!它宛如被安上了一对儿眼睛,可以做到精准无误的所见即所得。就连手绘的粗糙的简笔画,AI也能俏皮地跟人类做互动:一波LiveShow秀下来,引得观众掌声连连、“哇”声一片。思路已然清晰,技术不断进步,属于A
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、百度文心智能体平台免费开放文心4.0版本百度文心智能体平台最新推出的文心大模型4.0版本免费开放给公众使用,极大地扩展了平台的功能和应用范围。这一投资有望降低电影�
全球知名权威科技刊物《麻省理工科技评论》最新发布报告显示,数字经济时代,以“Deepfake”为代表的深度换脸技术更加智能化和高度真实化。深度伪造技术被非法用于经济、政治、社会等领域,形成严重危害,深度伪造检测面临更大挑战。马上消费已将防伪大模型引入日常风控反欺诈管理流程中,呈现迭代周期短、拦截性能强、可解释性强等特性,大幅提升用户体验,实现了人机协同的金融防伪新应用模式。
快科技6月27日消息,科大讯飞在今天的讯飞星火V4.0发布会上,还揭晓了机器人超脑平台2.0项目,将以视听融合的多模感知交互和基于大模型的机器人大脑。通过软硬件一体的方式构建机器人新交互,将讯飞星火大模型进一步赋能机器人领域。据悉,讯飞机器人超脑平台解决了机器人在嘈杂环境下听、说、理解和思考的难题。借助这套系统,机器人不仅能实现语音识别、自然语�
在数字化浪潮的推动下,教育领域正经历着前所未有的变革。上海松鼠云上人工智能技术有限公司于上海盛大召开全新多模态智适应教育大模型发布会,再次引发了业界的广泛关注。我们有理由相信松鼠Ai将继续引领教育科技的新潮流和新方向。
OpenAI和谷歌接连两场发布会,把AI视频推理卷到新高度。但业界还缺少可以全面评估大模型视频推理能力的基准。综合实验结果可以看出,当前的多模态大模型在视频理解,尤其是长视频理解方向仍然有很长进步空间,一方面是要提升模型的多模态长上下文理解能力,Gemini1.5Pro最高支持百万长度的上下文窗口,这是其表现优异的依仗,另一方面也亟需构建相应的高质量长视频理解数据集,这方面当下仍处于空白。
北京2024年6月11日,悦享控股有限公司,一家以技术驱动的新一代移动互联网基础设施与平台服务提供商今天宣布,悦灵犀AI发布2.0多模态重磅更新,采用了更加先进复杂的算法和模型,拥有更强大的应用能力,以及更全面的人工智能新交互功能。这标志着悦灵犀AI在底层技术层面取得重大突破,在应用层面实现了质的飞跃,为用户带来前所未有的应用体验,以及更加丰富、多样和真实的生成效果。悦享控股致力于以"悦享"为核心的产业生态布局,巩固和强化核心竞争力,实现长期可持续的规模化发展。
生数科技完成数亿元Pre-A轮融资,该轮融资由北京市人工智能产业投资基金、百度联合领投,中关村科学城公司等跟投,启明创投等数位老股东继续支持。生数科技已经获得来自蚂蚁集团、BV百度风投、卓源亚洲、锦秋基金、达泰资本、智谱AI等机构的投资。2022年提出了Diffusion与Transformer融合架构U-ViT,进一步开源了多模态扩散模型UniDiffuser,验证了大规模训练融合架构的可行性和效果。
在科技领域,多模态模型的决策能力一直是研究的热点。UC伯克利等高校的研究团队提出了一种名为RL4VLM的全新强化学习框架,成功地提升了多模态大模型在决策任务上的表现。这项研究不仅为多模态模型的性能提升提供了新的思路,也为未来人工智能的发展开辟了新的可能性。
只用强化学习来微调,无需人类反馈,就能让多模态大模型学会做决策!这种方法得到的模型,已经学会了看图玩扑克、算“12点”等任务,表现甚至超越了GPT-4v。这是来自UC伯克利等高校最新提出的微调方法,研究阵容也是相当豪华:图灵奖三巨头之一、Meta首席AI科学家、纽约大学教授LeCunUC伯克利大牛、ALOHA团队成员SergryLevineResNeXt一作、Sora基础技术DiT作者谢赛宁香港大学数据科学学院院长、UC伯克利教授马毅该方法名为RL4VLM,论文预印本已经上线,相关代码也已在GitHub中开源。从提示词上看,这项研究采取了如下的提示过程作为多模态模型的输入,并且给出了期望的输出形式:消融实验结果表明,如果这一过程中不采用思维链,则任务成功率会出现大幅下降。
最近的一系列研究表明,纯解码器生成模型可以通过训练利用下一个token预测生成有用的表征,从成功地生成多种模态的新序列,从文本、蛋白质、音频到图像,甚至是状态序列。能够同时生成多种模态输出的多模态模型一般是通过某种形式的词汇扩展来实现的,即在预训练阶段或在后期微调阶段进行跨模态对齐。更多研究细节,可参考原论文。