首页 > 关键词 > 跨模态最新资讯
跨模态

跨模态

AI这把火,烧了一年多。有AI可以帮你写PPT,有的会写歌,有的能帮公司批量生成营销素材,有的擅长“量子速读”提炼长文本。AI时代的增长曲线,显然越来越陡峭了。...

特别声明:本页面标签名称与页面内容,系网站系统为资讯内容分类自动生成,仅提供资讯内容索引使用,旨在方便用户索引相关资讯报道。如标签名称涉及商标信息,请访问商标品牌官方了解详情,请勿以本站标签页面内容为参考信息,本站与可能出现的商标名称信息不存在任何关联关系,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述反馈文件后,将会依法依规核实信息,第一时间沟通删除相关内容或断开相关链接。

与“跨模态”的相关热搜词:

相关“跨模态” 的资讯257篇

  • 零门槛用AI画漫画,跨模态内容创作进入next level

    AI这把火,烧了一年多。有AI可以帮你写PPT,有的会写歌,有的能帮公司批量生成营销素材,有的擅长“量子速读”提炼长文本。AI时代的增长曲线,显然越来越陡峭了。

  • 百度文库重磅发布「跨模态AI漫画及画本创作能力」,让「人人都能成为漫画师」

    4月16日,Create2024百度AI开发者大会在深圳举行。百度创始人、董事长兼首席执行官李彦宏全面展示了百度文库全新推出的「智能漫画」、「智能画本」功能,引领内容创作进入跨模态时代。百度文库「一站式AI内容创作平台」在跨模态能力和场景上的延伸,将为更多普通人提供低门槛创作体验,引领全民化、大众化的内容生产浪潮。

  • 走在GPT 4.5前面?3D、视频直接扔进对话框,大模型掌握跨模态推理

    给你一首曲子的音频和一件乐器的3D模型,然后问你这件乐器能否演奏出这首曲子。你可以通过听觉来辨认这首曲子的音色,看它是钢琴曲还是小提琴曲又或是来自吉他;同时用视觉识别那是件什么乐器。用等价的线性投影模块替换其中一个Q-Former后,图像-3D的性能会下降一半以上,音频-视频的性能会下降超过10个点。

    GPT
  • 百度回应文心一言文生图套壳质疑:能力来自文心跨模态大模型

    针对部分网友有关“文心一言文生图功能”的反馈,百度官方回应称,文心一言完全是百度自研的大语言模型,文生图能力来自文心跨模态大模型ERNIE-ViLG。在大模型训练中,百度使用的是全球互联网公开数据,符合行业惯例。百度还表示,文心一言正在大家的使用过程中不断学习和成长,请大家给自研技术和产品一点信心和时间,不传谣信谣,也希望文心一言能够给大家带来�

  • 蜜度携“跨模态信息检索”与“智能校对”两大应用开启数智化新未来

    在刚刚落幕的2022世界人工智能大会(WAIC)中,上海蜜度信息技术有限公司不仅与上海市人工智能行业协会主办了“数据智能与内容认知高峰论坛”,邀请数据智能领域的国内外学者共同深度探讨了技术演进与未来愿景;在展览活动中更通过“蜜小智”“蜜小度”“蜜小校”等虚拟形象,带领观众沉浸式地感受了跨模态信息检索与智能校对两大数据智能应用在具体场景中的赋能...蜜度旗下AI智能校对平台“蜜度校对通”就是基于智能校对应用而开发的专业软件......

  • 蜜度发布人工智能前沿应用成果MiduCMR 实现多模态信息跨模态搜索

    基于MiduCMR,蜜度索骥推出跨模态检索功能,实现视频、音频、图片、文本等不同模态信息在统一语义空间中的跨模态检索;蜜度版权通推出文本、图片、视频的版权保护与监测功能,实现多模态信息融合的一站式知识产权保护...引擎从微博、论坛、App、短视频等来源的多模态信息中,提取视频、音频、图片、文本内容并对其进行单模态理解和多模态融合,将海量全媒体信息映射到统一语义空间,跨越不同模态内容间的语义鸿沟,自动理解、关联多模态间的关键要素......

  • 写真视频击败Sora?人大自研全新多模态大模型Awaker 1.0震撼登场

    在人工智能领域,人大系初创公司智子引擎近日发布了一款名为Awaker1.0的全新多模态大模型,标志着向通用人工智能迈出了重要一步。该模型在写真视频效果上超越了Sora,展现了其在视觉生成方面的卓越能力。Awaker1.0在理解侧和生成侧都实现了效果突破,有望加速多模态大模型行业的发展,最终让人类实现AGI。

  • 开源多模态LLM InternVL 1.5:具备OCR能力 可解读4K图片

    InternVL家族的开源套件提供了一种商用多模态模型的可行开源替代方案。最新发布的InternVL-Chat-V1.5模型在多个基准测试上取得了接近GPT-4V和GeminiPro的性能,这使得InternVL家族成为了当前最接近GPT-4V表现的可商用开源模型之一。InternVL家族的开源套件为多模态模型领域的发展注入了新的活力。

  • 元象开源首个多模态大模型XVERSE-V 支持任意宽高比图像输入

    元象公司发布了首个多模态大型模型XVERSE-V,并将其开源。这一模型支持任意宽高比的图像输入,并在多个权威评测中取得了优异的成绩。除了图像识别,XVERSE-V还在多个实际应用场景中表现突出,包括信息图理解、视障场景处理、文本生成、教育解题等。

  • 比Gemini Pro1.5强!可解读视频的多模态模型​Pegasus-1公测

    TwelveLabs最新发布了Pegasus-1的公测版本,这款视频-语言基础模型在视频理解领域取得了新突破。Pegasus-1是一款具有约17亿参数的视频-语言模型,能够以卓越的准确性和细节处理能力从视频输入中生成语言描述。Pegasus-1的不断进化与创新,为视频理解技术开辟新的可能性。

  • 轻松拿捏4K高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

    一个可以自动分析PDF、网页、海报、Excel图表内容的大模型,对于打工人来说简直不要太方便。上海AILab,香港中文大学等研究机构提出的InternLM-XComposer2-4KHD模型让这成为了现实。IXC2-4KHD将多模态大模型支持的分辨率提升到了4K的水平,研究人员表示目前这种通过增加切块个数支持更大图像输入的策略遇到了计算代价和显存的瓶颈,因此他们计划提出更加高效的策略在未来实现�

  • 李未可科技正式推出WAKE-AI多模态AI大模型

    4月18日,2024中国生成式AI大会上李未可科技正式发布为眼镜等未来终端定向优化等自研WAKE-AI多模态大模型,具备文本生成、语言理解、图像识别及视频生成等多模态交互能力。该大模型围绕GPS轨迹视觉语音打造新一代LLM-Based的自然交互,同时多模态问答技术的加持,能实现所见即所问、所问即所得的精准服务。李未可科技合伙人&AI负责人古鉴表示WAKE-AI将逐步开放平台能力,便于更多企业及开发者调用WAKE-AI能力,共建AI硬件生态。

  • 多模态大模型Reka Core发布 性能与GPT-4相媲美

    RekaCore是一款最新发布的多模态大型语言模型,其性能可与GPT-4相媲美,甚至在某些方面超越了现有的前沿模型。这一技术突破为人工智能领域带来了新的里程碑,特别是在图像、视频和音频的上下文理解能力方面。随着Core的进一步优化和应用,我们有理由相信,它将在多个领域产生深远的影响,推动人工智能技术的进步和社会的发展。

  • 多模态语言模型Reka Core:可分析图片、视频、音频 评测得分与GPT-4接近

    RekaAI近日宣布推出其最新力作——RekaCore,这是一款前沿的多模态语言模型,拥有强大的性能和灵活的部署方式。该模型像Gemini一样可以直接分析图片、视频、音频,评测得分与GPT-4和Gemini-Ultra接近。通过Edge、Flash和Core等系列模型的全面支持,Reka已经准备好迎接更广泛的挑战,展望未来,我们期待着与更多愿意加入我们的伙伴共同探索多模态世界的无限可能。

  • AI日报:首个AI程序员Devin造假被抓;​Sora平替?StreamingT2V试玩地址公布;Udio AI还可以创作喜剧、演讲;XAI发布Grok-1.5Vision多模态模型

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/🤖📱💼AI应用Sora平替?2分钟超长AI视频模型StreamingT2V免费开源试玩地址公布UdioAI提供多功能音频生成还可以创作喜剧、演讲、电台广播等美图Wink“AI动漫”功能升级可将短剧作品转化为动漫风格StableDesign:适用于室内装修设计的SD方案文字提示就可修改室内设计图比换脸更强大!SwapAnything:替换图片中的任意元素AI延时视频生成工具MagicTime在线体验地址放出自动化写作工具STORM:可生成像维基百科一样的深度长篇内容Meta推出ViewDiff模型:文本生成多视角3D图像📰🤖📢AI新鲜事首个AI程序员造假被抓,Devin再次“震撼”硅谷!扒皮视频文字详解附上马斯克XAI发布Grok-1.5Vision多模态模型,可处理文本和图片信息360智脑7B参数大模型正式开源最长支持约50万字输入Adobe图像生成AI“Firefly”训练集中约有5%为AI图像代码、模型全开源!贾佳亚团队多模态模型Mini-Gemini登上热榜面壁智能开源MiniCPM2.0系列模型OCR等能力显著增强竞争升温!ChatGPT增长疲软3月全球访问量17.7亿次,Claude逐渐崛起InstantID团队推新风格迁移方法InstantStyle一键置身“梵高星空”——————每日midjourneyprompt:小说古风美女图源备注:图片由AI生成,图片授权服务商MidjourneyAbeautifulwomanfromancientChina,dressedinagorgeousredHanfu,withlonghairdrapedoverhershoulders,satinherboudoirwithasmile.Ancientstyle,hanfu,boudoir,gorgeous,palace,screen,carpet,softlight,eleganttemperament,ancientculture,inlinewithorientalaesthetics,richdetails,bestquality,exquisitemakeup,cleareyelinerpen,slendereyebrows,texturedskin,whiteskin,charmingheaddress,--ar3:4--niji6--styleraw一个中国古代美女,穿着华丽的红色汉服,长发披肩,微笑着坐在闺房内。

  • 代码、模型全开源!贾佳亚团队多模态模型 Mini-Gemini登上热榜

    香港中文大学终身教授贾佳亚团队最近推出了一款名为Mini-Gemini的多模态模型,该模型在多模态任务榜单上取得了显著成绩,其性能堪比GPT-4与DALLE3的结合。Mini-Gemini模型以其更精确的图像理解能力、更高质量的训练数据和更强的图像解析推理能力著称。这一成果不仅为开源社区带来了新的活力,也为多模态模型的发展和应用开辟了新的可能性。

  • 马斯克XAI发布Grok-1.5 Vision 多模态模型 可处理文本和图片信息

    在人工智能领域,多模态模型的发展一直是行业关注的焦点。马斯克XAI公司发布了其最新的多模态模型——Grok-1.5Vision,这一模型不仅能够处理文本信息能够理解和分析各种视觉数据,如文档、图表、截图和照片,标志着公司在人工智能技术上迈出了重要一步。随着该模型的进一步优化和应用,我们有理由相信,它将在多个领域发挥重要作用,推动人工智能技术向前发展。

  • Grok-1.5 Vision Preview官网体验入口 X.AI多模态AI模型详细介绍

    Grok-1.5VisionPreview是X.AI公司推出的首个多模态模型。除了强大的文本处理能力,Grok还能处理各种视觉信息,如文档、图表、截图和照片等。点击前往Grok-1.5VisionPreview官网体验入口需求人群:辅助决策分析内容生成工作效率提升使用场景示例:使用Grok-1.5V分析复杂的商业报告,快速提取关键数据和见解利用Grok-1.5V自动生成项目计划草稿,并优化资源分配通过Grok-1.5V理解工厂设备使用说明,提高维修效率产品特色:多学科推理文档理解图表解读现实世界理解图像处理掌握Grok-1.5VisionPreview,体验多模态AI的强大功能和无限潜力。

  • Meta AI推MA-LMM:用于长视频理解的记忆增强多模态大模型

    MetaAI近日推出了一种名为MA-LMM的新型模型,旨在解决长期视频理解中的挑战。LLMs在处理文本数据时表现出了令人印象深刻的能力,但在处理视频输入方面存在一些限制,例如上下文长度限制和GPU内存限制。其创新性的设计以及利用长期记忆库和顺序处理的方法使得该模型能够在各种复杂场景下取得显著成果,证明了其在多模态视频理解应用中的有效性和多功能性。

  • MiniGPT4-Video官网体验入口 视频理解多模态AI大模型使用地址

    MiniGPT4-Video是什么?MiniGPT4-Video是为视频理解设计的多模态大模型,能处理时态视觉数据和文本数据,配标题、宣传语,适用于视频问答。用户可以上传视频,让模型生成标题与宣传语,理解特效处理,或作超美抒情诗。

  • 谷歌推多模态视频模型VLOGGER,自动生成丰富动作视频

    谷歌的研究人员最近推出了一款名为VLOGGER的多模态扩散模型,能够自动生成带语音、丰富动作的人物视频。用户只需向VLOGGER输入图像和语音,就可以获得逼真的视频效果。VLOGGER的推出为虚拟数字人的制作提供了更便捷、高效的解决方案,同时也在多模态视频生成领域取得了重要的技术突破。

  • 冒泡鸭AI体验入口 多模态AI智能体互动平台使用指南

    冒泡鸭AI 是基于自研多模态大模型开发的AI互动平台,提供拟人、工具、内容、游戏、娱乐等多个领域的海量智能体。平台具有超长的上下文记忆能力和实时联网搜索能力,能够深度理解用户意图,并提供即时、准确、个性化的回复和选择。用户还可以定制个性化的AI智能体,以满足个性化的需求和偏好。点击前往冒泡鸭AI官网体验入口谁适合使用冒泡鸭AI?冒泡鸭AI适用于寻求�

  • Mini-Gemini:简单有效的AI框架,增强多模态视觉语言模型

    中国香港中文大学和SmartMore的研究人员推出了一种名为Mini-Gemini的新颖框架,通过增强多模态输入处理来推动VLMs的发展。Mini-Gemini采用了双编码器系统和一种新颖的补丁信息挖掘技术,结合一个特别策划的高质量数据集,使其能够有效处理高分辨率图像并生成内容丰富的视觉和文本内容,从使其脱颖出。正如研究人员所承认的那样,Mini-Gemini在视觉理解和推理能力方面仍有改进�

  • 李未可WAKE-AI大模型:让多类终端能快速低成本的定制多模态AI

    36kr研究院发布了《2024年AIGC行业研究:多模态大模型与商业应用》,文中基于AIGC产业生态现状和技术发展路径,深入分析AIGC商业化应用的方向与产业发展趋势。其中在36kr研究院梳理的产业图谱中,发现杭州李未可科技与字节跳动的豆包、腾讯云混元及华为云盘古等大模型等一起出现在闭源模型层,甚至在跨模态生成应用层也占据一地。李未可科技这类结合自身业务垂类场景,提前布局中间层及终端应用层的自研大模型或许能给市场带来不小的惊喜。

  • 理想汽车 Mind GPT 多模态认知大模型通过国家备案

    理想汽车宣布其全自研的多模态认知大模型——MindGPT,已正式通过国家《生成式人工智能服务管理暂行办法》的备案。这一里程碑式的事件标志着理想汽车成为首个通过该备案的汽车厂商自研大模型。它不仅支持方言自由说、指令自由说具备简洁模式以及全时全车免唤醒的能力,为用户提供了更加便捷、智能的交互体验。

  • 钉钉 AI 升级:加入多模态、工作流等能力

    3月28日,钉钉AI助理进行了重磅升级,新增了图片理解、文档速读、工作流等功能。这次升级使得钉钉AI助理率先尝试了多模态和长文本处理技术,展现出更强大的能力。用户可以在钉钉APP或PC客户端直接体验这些功能,享受AI带来的便捷与高效。

  • MathVerse:全方位可视化数学基准,对多模态大型语言模型进行公平和深入的评估

    多模态大型语言模型在视觉情境下的表现异常出色,引起了广泛关注。它们解决视觉数学问题的能力仍需全面评估和理解。这表明需要更先进的数学专用视觉编码器,突显了MLLM发展的潜在未来方向。

  • 零一万物API开放 多模态中文图表体验超越GPT-4V

    零一万物API正式向开发者开放,其中包含三款强大的模型。首先是Yi-34B-Chat-0205,支持通用聊天、问答、对话、写作和翻译等功能;其次是Yi-34B-Chat-200K,能处理多文档阅读理解和构建超长知识库;最后是Yi-VL-Plus多模态模型,支持文本、视觉多模态输入,中文图表体验超越GPT-4V。无论是在图表识别、文本理解还是长篇文本分析方面,这些模型都展现出了令人惊叹的性能。

  • HPT官网体验入口 HyperGAI多模态语言开源模型框架免费使用地址

    HPT是HyperGAI研究团队推出的新型多模态大型语言模型框架。它具有高效且可扩展地训练大型多模态基础模型的能力,能够理解包括文本、图像、视频等多种输入模态。点击前往HPT官网体验入口需求人群:"适用于需要处理和理解多模态数据的研究人员和开发者,如进行视觉-语言任务、图像分析、图表解读等。

    HPT
  • 苹果大模型MM1杀入场:300亿参数、多模态、MoE架构,超半数作者是华人

    苹果显然已经加大了对生成式人工智能的重视和投入。此前在2024苹果股东大会上,苹果CEO蒂姆・库克表示,今年将在GenAI领域实现重大进展。更多研究细节,可参考原论文。