11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
Meta公司日前宣布与传感器制造商GelSight及韩国机器人企业WonikRobotics达成战略合作,共同推进新一代触觉传感技术的商业化进程。这套面向科研领域的创新设备将为科学家提供更精确的物理世界观测与模拟能力。这次跨界合作标志着触觉传感技术在科研领域的重要突破,有望为相关领域研究带来新的发展机遇。
10月25日~26日,由声网和RTE开发者社区联合主办的RTE2024实时互联网大会在北京举行。在AI技术突破式发展引发各行业革新浪潮的当下,此次大会主题聚焦“AI爱”,汇聚行业代表企业、技术大咖、专家学者等嘉宾,共同深度探讨AI为互联网生态带来的新发展。”这也意味着,Soul将实现真正意义上的AI多模态交互,集合文字、语音、动作交互的多模态大模型,让用户可以在平台实现更接近人类模式的互动体验和更高效、自然、丰富维度的信息传递,真正获得社交体验的颠覆式升级。
【新智元导读】北京大学的研究人员开发了一种新型多模态框架FakeShield,能够检测图像伪造、定位篡改区域,并提供基于像素和图像语义错误的合理解释,可以提高图像伪造检测的可解释性和泛化能力。随着生成式人工智能的迅猛发展,图像编辑与合成技术变得愈加成熟与普及。表3:FakeShield与主流IFDL方法的定位性能比较另外,图4的主观结果对比也表明,FakeShield能够生成更加�
如今的AI看起来已经无所不能,不仅能够胜任感知、学习、推理、决策等不同层面的任务,甚至可以打造虚拟数字分析,为人类带来多模态AI交互体验。新型社交平台SoulApp在GITEXGLOBAL海湾信息技术博览会上展出了其最新自研的多模态大模型,该模型具备多模态理解、真实拟人、文字对话、语音通话、多语种等特性,实现打破次元壁的互动,让现场的观众们惊艳不已。Soul将持续加大对AI技术的投入,致力于通过AI技术更好地帮助用户进行社交破冰,助力人设搭建和认知决策,提升社交沟通效率。
通过理解自身的行为方式、记忆、偏好等内容,复刻一个专属于自己的虚拟化身,实现打破次元壁的互动,结识好友,获得陪伴......如今,科幻电影中描绘的场景正走向现实。2024年10月14日-18日,GITEXGLOBAL海湾信息技术博览会在迪拜举办。预计今年年底,Soul多模态端到端大模型将再次升级,推出全双工视频通话能力,让用户可以真正便捷、自然的体验到包括文字、语音、视觉在内的多模态创新交互。
通过理解自身的行为方式、记忆、偏好等内容,复刻一个专属于自己的虚拟化身,实现打破次元壁的互动,结识好友,获得陪伴......如今,科幻电影中描绘的场景正走向现实。2024年10月14日-18日,GITEXGLOBAL海湾信息技术博览会在迪拜举办。预计今年年底,Soul多模态端到端大模型将再次升级,推出全双工视频通话能力,让用户可以真正便捷、自然的体验到包括文字、语音、视觉在内的多模态创新交互。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里发布FLUX.1-Turbo-Alpha:基于FLUX.1-dev、8步提炼Lora阿里妈妈创意团队发布了基于FLUX.1-dev模型训练的FLUX.1-Turbo-Alpha,采用8步蒸馏Lora模型,多头判别器显著提高蒸馏质量,支持多种FLU
它早已不是一家单纯的通信运营商是通过构建多模态基座大模型,打造全要素“AI”服务运营体系,成为通用人工智能时代的供给者、汇聚者和运营者。
深思考人工智能于2024年10月10日在长沙湖南大数据交易所,成功举办了以“深耕行业垂直场景,规模化落地”为主题的云、端、边侧AI产品发布会。本次发布会发布的产品矩阵简单概括是“一个中心,两个基本点”,即:以深思考的云侧Dongni.ai大模型和端侧TinyDongni大模型为基础模型,形成一个搜索引擎入口,聚焦两个深度垂直场景“智能终端”和“重疾早筛”,具体产品包含“一个中心”AI多模态搜索引擎“Dongni.so”;“智能终端“场景产品:AIPCSuite套件、AI摄像头、AI显微镜、”,“重疾早筛“场景产品:巧思、慧眼等产品。AI重疾早筛平台-慧眼未来展望深思考以AI大模型的场景化、垂直化、产品化和服务化为目标,持续提高大模型在垂域场景中解决客户痛点问题的能力,打造专用场景AI的产品,深耕业务,并与生态伙伴紧密合作,继续推进大模型在垂域场景中的大规模应用落地,相信不久的将来,就可以在各种智能终端和垂直行业应用中看到深思考的应用落地,未来可期,未来已来。
【新智元导读】近日,一向画风精致的「苹果牌AI」,也推出了升级版的多模态大模型,从1B到30B参数,涵盖密集和专家混合模型,密集文本、多图理解,多项能力大提升。多模态大语言模型如今已是大势所趋。最后一栏表明,作者优化的组合实现了最佳的整体性能,平衡了基准测试中的所有功能。
近日,苹果公司推出了300亿参数的多模态AI大模型MM1.5,该版本是在前代MM1的架构基础上发展来的。该模型继续遵循数据驱动的训练原则,着重探究在不同训练周期中混合各类数据对模型性能产生的影响,相关模型文档已在HuggingFace上发布。尽管MM1.5模型在多项基准测试中表现优异,但苹果团队仍计划通过进一步融合文本、图像和用户交互数据,并设计更复杂的架构,来提升模型对移动设备UI的理解能力,从让苹果牌”AI更强大。
具身智能领域的“癫”,已经进入nextlevel了!来看这段视频:人形机器人在前面跑,一群机器狗在后面追;然后人追着狗,接着狗追着人……最后那位机器人还有很重的「偷感」在身上。这样它就真的很真狗啊!第二点是BabyAlphaA2拥有SuperChat功能。机器人对人类的价值,从来不只是“科幻”和冷冰冰的硬件已。
【新智元导读】Meta首个理解图文的多模态Llama3.2来了!这次,除了11B和90B两个基础版本,Meta还推出了仅有1B和3B轻量级版本,适配了Arm处理器,手机、AR眼镜边缘设备皆可用。Llama3.1超大杯405B刚过去两个月,全新升级后的Llama3.2来了!这次,最大的亮点在于,Llama3.2成为羊驼家族中,首个支持多模态能力的模型。这些新解决方案已经集成到了Meta的参考实现、演示和应用程序中,开源
北京2024年9月24日,悦享控股有限公司,一家以技术驱动的新一代移动互联网基础设施与平台服务提供商今天宣布,悦灵犀AI多模态全面升级2.3版本,使悦灵犀AI具有更为强大的应用能力。在本次更新升级中,除新增AIlive图功能外,悦灵犀AI实现了支持部分国家和地区的海外用户使用。随着悦享控股的大模型底层技术不断取得突破和进步,悦灵犀AI已经在应用层面实现了超越式发展,其丰富、多样和真实的生成效果,为全球更多用户带来前所未有的超级应用体验。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里国际推出最新多模态大模型Ovis,看菜品就能提供烹饪步骤阿里国际AI团队发布了多模态大模型Ovis,为各行业带来新机遇。英特尔在2024年计划中稳步推进,展望2025年推出的FalconShores将进一步提升其在AI领域的竞争力。
中国科学院地理科学与资源研究所正式发布全球首个多模态地理科学大模型坤元”。作为专为地理科学领域量身打造的专业语言大模型,坤元”不仅精通地理学的精髓,更在懂地理”、精配图”、知人心”、智生图”四大核心功能上展现出非凡能力。他们还将打造地理科研协作大平台,为每一位科学家和科研团队提供专属的地理大模型服务,通过共享数据、模型与研究思路等�
随着大语言模型的飞速发展,角色扮演智能体正逐渐成为AI领域的热门话题。这类智能体不仅能够为人们提供陪伴、互动和娱乐在教育、社会模拟等领域展现出重要的应用潜力。在多模态角色扮演智能体的开发中,多模态理解能力和角色扮演质量是更具挑战性的方面,需要在未来的研究和优化中予以特别关注。
在生成式人工智能领域,大模型多模态交互能力的升级正掀起一股新的AI浪潮,在RTC能力的加持下,人与AI的交互不再局限于文字,也可以通过语音通话进行生动、流畅的低延时交互,这也成为当下国内外大模型厂商新的发力点。今年5月,GPT-4o的发布开创了AI实时语音交互的先河。声网的实时多模态对话式AI解决方案目前已经上线,如您想进一步体验我们的Demo或者接入该方案,可在声网公众号找到这篇文章,扫描文章底部的二维码联系我们。
科技日新月异的今天,教育行业正经历着前所未有的变革松鼠Ai作为这一领域的佼佼者,正以其创新的多模态智适应教育大模型,引领着教育行业的未来发展方向。松鼠Ai在多个重要场合的亮相和成果展示,再次证明了其在人工智能教育领域的领先地位。我们有理由相信,在松鼠Ai的引领下,未来的教育将更加个性化、智能化和高效化。
让AI像人类一样借助多模态线索定位感兴趣的物体,有新招了!来自人大高瓴GeWu-Lab、北邮、上海AILab等机构的研究人员提出Ref-AVS,让AI能看、会听,更懂真实物理世界。相关论文已入选顶会ECCV2024。更多详情欢迎查阅原论文。
【新智元导读】就在刚刚,Meta最新发布的Transfusion,能够训练生成文本和图像的统一模型了!完美融合Transformer和扩散领域之后,语言模型和图像大一统,又近了一步。真正的多模态AI模型,可能很快就要来了!Transformer和Diffusion,终于有了一次出色的融合。他在卡耐基梅隆大学语言技术研究所获得博士学位,师从EduardHovy教授,并在上海交通大学获得了计算机科学硕士和学士学位�
ACM国际多媒体会议上组织的多模态与可靠性情感计算研讨会MRAC24公布论文接收结果,社交平台SoulApp研究成果《MultimodalEmotionRecognitionwithVision-languagePromptingandModalityDropout》成功入选。作为较早思考将AI应用于社交领域的平台,Soul积极推动AI情感互动能力的研究,目前相关技术已应用于异世界回响、AI苟蛋、群聊派对等AI陪伴、AI辅助的创新场景。对Soul来说,接下来,将继续加大技�
【新智元导读】Mini-Monkey是一个轻量级的多模态大型语言模型,通过采用多尺度自适应切分策略和尺度压缩机制,有效缓解了传统图像切分策略带来的锯齿效应,提升了模型在高分辨率图像处理和文档理解任务的性能。它在多项基准测试中取得了领先的成绩,证明了其在多模态理解和文档智能领域的潜力。作者也验证了多尺度自适应切分策略在别的架构的多模态大模型上的有效性,为缓解由切分增大分辨率导致的「后遗症」提供了一种简单有效的解决方案。
提升多模态大模型处理高分辨率图像的能力越来越引起这个领域的关注。绝大多数方法致力于通过对图像进行切分再融合的策略,来提升多模态大模型对图像细节的理解能力。作者也验证了多尺度自适应切分策略在别的架构的多模态大模型上的有效性,为缓解由切分增大分辨率导致的「后遗症」提供了一种简单有效的解决方案。
国内著名开源社区OpenBMB发布了最新开源多模态大模型——MiniCPM-V2.6。MiniCPM-V2.6一共有80亿参数,在单图像、多图像和视频理解方面超越了GPT-4V;在单图像理解方面优于GPT-4omini、Gemini1.5Pro和Claude3.5Sonnet。易用扩展性强:可以通过多种方式轻松使用,包括llama.cpp和ollama支持在本地设备上进行高效的CPU推理,提供int4和GGUF格式的量化模型,支持vLLM进行高吞吐量和内存高效的推理,支持在新领域和任务上进行微调目前,MiniCPM-V2.6在Github的评分超过9000颗星,是开源多模态中性能非常好用的一款模型。
国产大模型,多模态能力都开始超越GPT-4-Turbo了??权威榜单,中文多模态大模型测评基准SuperCLUE-V,新鲜出炉:特别是腾讯的hunyuan-vision、上海AILab的InternVL2-40B,分别成为国内闭源和开源界两大领跑者,甚至超过Claude-3.5-Sonnet和谷歌王牌Gemini-1.5-Pro。虽然这次都还是被GPT-4o压过,差距也确确实实缩小了很多。在多模态“图生文”场景下,腾讯又能整出什么实用好活,就非常值得期待了。
近日,ISC.AI2024多模态时代的大模型关键技术与应用论坛成功召开。本次论坛由360人工智能研究院、中国图象图形学学会联合主办,集结业界知名学者、行业技术领袖等前沿代表,围绕多模态时代大模型的技术变革、研发挑战、应用场景等问题展开深入探讨,致力共同探索出多模态大模型发展的“中国路径”,为全行业的数转智改提质加速。在开场致辞环节中,360集团副总裁、3
在2024世界人工智能大会上,上海岩芯数智携Yan1.2多模态大模型亮相,不仅可以让大模型在手机、电脑、甚至树莓派端无损运行可以让机器人准确理解用户的模糊指令和意图。研发团队展示了一款部署Yan1.2多模态大模型的智能机器人“小智”,它能够基于Yan1.2的语音和视觉处理能力,实时识别环境、准确理解用户的模糊指令和意图,并据此控制其机械躯体高效完成各类复杂任务。当有人问“小智,你现在看到了什么”或手捧书籍邀请“小智”一同看书时,它能够基于多模态能力进行学习和创作,精确描述环境和人物特征、学习书籍信息。
没等到GPT-4o,商汤先把《Her》给发布出来了!就在刚刚,商汤直接在现场来了个炸裂的LiveShow,话不多说,直接看效果:不仅声音非常拟人还是实时、随时可以打断的那种!它宛如被安上了一对儿眼睛,可以做到精准无误的所见即所得。就连手绘的粗糙的简笔画,AI也能俏皮地跟人类做互动:一波LiveShow秀下来,引得观众掌声连连、“哇”声一片。思路已然清晰,技术不断进步,属于A