11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
4月26日,科大讯飞发布讯飞星火大模型V3.5的功能上新,其中一个重点就是面向用户各种场景中高效获取信息需求,发布首个长文本、长图文、长语音的大模型,能够支持文档、图文资料、会议录音等各种信息来源的快速理解和学习能够结合各种行业场景知识给出专业、准确回答。效果到底如何?今年人形机器人发展火热,我们将一份长达70多页的人形机器人报告,丢给了讯飞星火。科大讯飞将在6月27日发布讯飞星火大模型V4.0,进一步实现对GPT-4Turbo的对标。
科大讯飞今日发布重大更新,讯飞星火大模型V3.5升级,不仅推出了首个长文本、长图文、长语音大模型首次将多情感超拟人合成技术引入市场,并同步推出了星火智能体平台。这一系列创新举措,旨在为招投标应用和合同应用提供更为强大的技术支持。插件市场和原生应用也为开发者和用户提供更多功能和工具选择,共同构建讯飞星火大模型生态。
AdobePhotoshop的最新测试版现已引入一项革命性的功能,允许用户通过简单的文本提示,利用人工智能技术生成图像。该功能的核心在于Adobe新发布的生成式AI模型系列FireflyImage3。包括谷歌和微软在内的多家科技巨头都在AI领域取得了显著的进展和突破。
亚马逊音乐推出了一项名为Maestro的人工智能功能,旨在让用户通过简单的文本提示构建个性化的音乐播放列表。该功能可在iOS和Android应用程序上使用,利用自然语言生成播放列表,为用户带来更加便捷的音乐体验。这一创新性的AI功能为音乐爱好者带来了更多探索和发现音乐的乐趣,为亚马逊音乐平台增添了更多吸引力和竞争优势。
一种名为DynamicTypography的创新“动态排版”技术,正在为文本表达开辟新天地。这项技术通过视频扩散先验,将文本字母转化为动画,从增强语义表达和动态效果。利用向量图形技术,动画在任何分辨率下都能保持高质量,同时用户可以轻松调整文本样式。
知名生成式AI平台BlockadeLabs在官网重磅发布了全新模型——Model3。与Model2相比,Model3的生成效果实现质的提升,原生支持超高清8192x4096分辨率,增强了文本提示器能更好的描述生成世界,并且大幅度减少了生成世界的灰度值,使建筑、风景、人物等看起来更加高清、细腻。经过一年多的技术创新与业务积累,Blockade的用户超过150万,生成的作品超过1000万,成为很多游戏开发工作室、3D建模等常用工具,尤其是与Unity开发引擎集成后,迎来了一波用户增长高峰。
纵观生成式AI领域中的两个主导者:自回归和扩散模型。一个专攻文本等离散数据,一个长于图像等连续数据。通讯作者为一二作的导师StefanoErmon,他是斯坦福计算机科学系副教授。
2txt是一个基于AI的图像转文字工具,使用ClaudeHaiku和VercelAISDK创建。这个工具不仅可以将任意图像上的文字识别出来能将其转换成可编辑的文本格式。用户只需上传图片,系统就会自动识别图片中的文字,并将其转换成可编辑的文本格式,极大地提高了工作效率。
在人工智能领域,多模态模型的发展一直是行业关注的焦点。马斯克XAI公司发布了其最新的多模态模型——Grok-1.5Vision,这一模型不仅能够处理文本信息能够理解和分析各种视觉数据,如文档、图表、截图和照片,标志着公司在人工智能技术上迈出了重要一步。随着该模型的进一步优化和应用,我们有理由相信,它将在多个领域发挥重要作用,推动人工智能技术向前发展。
Meta与德国慕尼黑工业大学研发出创新模型ViewDiff,旨在帮助用户通过文本、图像或二者结合使用,快速生成高质量多视角3D图像。该模型解决了传统文本生成多视角3D图像领域的三大难点:无法生成真实背景环境、图像质量和多样性不理想、缺乏多视角和一致性。该模型的推出不仅在技术层面上具有重大意义,也将为未来的3D图像生成领域带来更多创新可能。
VQAScore是一种新的评估指标,旨在更好地评估复杂的文本到视觉生成效果。这一指标结合了CLIP-FlanT5模型,能够在文本到图像/视频/3D生成评估中实现最佳性能,是评估和优化文本到视觉生成模型的强大工具。如果您希望了解更多信息并开始使用VQAScore进行评估,请访问VQAScore官方网站。
一个名为Parler-TTS的全新开源项目引起了业界的广泛关注。Parler-TTS是一个高质量的文本到语音模型,它能够生成听起来非常自然的语音,为用户提供了前所未有的语音合成体验。项目团队还提供了交互式的演示和详细的训练指南,帮助用户快速上手并根据自己的需求对模型进行定制。
Mixtral-8x22B是一个预训练的生成式稀疏专家语言模型,由MistralAI团队开发。该模型拥有141B个参数,支持多种优化部署方式,旨在推进人工智能的开放发展。
ELLA是一种轻量级方法,可将现有的基于CLIP的扩散模型配备强大的LLM。ELLA提高了模型的提示跟随能力,使文本到图像模型能够理解长文本。ELLA的产品特色通过LLM增强扩散模型的文本对齐能力无需训练U-Net和LLM即可提高模型的提示跟随能力设计了时间感知语义连接器,提取LLM中的时间步相关条件提供了DensePromptGraphBenchmark基准测试,评估文本对图像模型的密集提示跟随能力能够与社区模型和下游工具无缝整合,提高其文本-图像对齐能力为了获取更多关于ELLA的信息和体验该工具,请访问ELLA官网。
一个名为MagicTime的新模型引起了业界的广泛关注。这个模型专注于生成变形时间延迟视频,基于DiT的架构,解决了现有文本到视频生成模型未能充分编码现实世界物理知识的问题。MagicTime还计划将额外的变形景观时间延迟视频集成到相同的注释框架中,查找ChronoMagic-Landscape数据集,然后使用该数据集Open-Sora-Planv1.0.0,获得MagicTime-DiT模型。
在帮助听障人士获取信息方面,HandTalk应用的开发无疑是一项重要的创新。这款应用由人工智能驱动,能够自动将文本和音频翻译成美国手语和巴西手语,为全球约4.66亿聋人和重听人士提供了一个融入社会的新途径。该平台自在巴西推出HandTalk插件以来,已翻译了近20亿个单词,这一数字足以证明其在全球范围内的影响力和重要性。
Open-Sora-Planv1.0.0模型正式发布,这一最新版本的AI模型在视频生成质量和文本控制能力方面取得了显著的提升。该模型能够生成10秒、24FPS的1024×1024高清视频,同时还支持生成高分辨率图像,为用户提供更加丰富和精细的视觉体验。在国内市场上,用户可以借助华为昇腾910b芯片的强大计算能力,更加高效地运行Open-Sora-Planv1.0.0模型,进一步提升视频生成的速度和质量。
Midreal.ai是什么?Midreal.ai是一个基于先进人工智能技术的文本冒险游戏平台。回答:Midreal.ai目前支持英语和简体中文,更多语言将陆续推出。
InstantStyle是一个通用框架,旨在在文本到图像生成过程中实现风格与内容的有效分离。该框架采用了两种简单但强大的技术,以实现对风格和内容的有效解耦。InstantStyle还将继续改进和扩展,为用户提供更多功能和选择,助力他们在图像生成领域取得更大的成功。
随着人工智能技术的发展,视频生成领域取得了长足的进步。在现有的文本到视频生成模型中,对镜头姿势的精确控制往往被忽视镜头姿势在视频生成中扮演着表达更深层叙事细微差别的影视语言角色。这一技术的应用前景广阔,有望在视频生成领域发挥重要作用。
4月4日,著名开源大模型平台Stability.ai在官网正式发布了,音频模型StableAudio2.0。StableAudio2.0支持用户通过文本或音频,一次性可生成3分钟44.1kHz的摇滚、爵士、电子、嘻哈、重金属、民谣、流行、乡村等20多种类型的高质量音乐。StableAudio2.0免费赠送20积分,生成的音乐可以商业化,这对于抖音、快手、B站的视频自媒体用户来说挺有帮助的。
大模型长文本能力测试,又有新方法了!腾讯MLPD实验室,用全新开源的“数星星”方法替代了传统的“大海捞针”测试。新方法更注重对模型处理长依赖关系能力的考察,对模型的评估更加全面精准。CountingStars的出现,或许正好有助于我们了解这些模型的真实表现。
Picsart人工智能研究所、德克萨斯大学和SHI实验室的研究人员联合推出了StreamingT2V视频模型。通过文本就能直接生成2分钟、1分钟等不同时间,动作一致、连贯、没有卡顿的高质量视频。视频中的物体运动姿态丰富,场景和物体随时间的演变更加自然流畅,没有突兀的断层或冻结情况出现。
还记得黑客帝国经典的子弹时间吗?IDEA研究院最新检测模型T-Rex2,可以齐刷刷给全部识别出来~面对难倒一众大模型「吉娃娃or松饼」的难题,它只需被投喂一张吉娃娃的照片,就能瞬间迎刃解。也是同样的团队,推出了基于视觉提示的检测模型T-Rex。T-Rex2让通用物体检测又迈出了新的一步。
日前,360创始人周鸿祎发文,称自己是开源的信徒”,信奉开源的力量。他还宣布即将开源360智脑7B,支持360k长文本输入。月之暗面宣布Kimi智能助手启动200万字内测,文心一言计划在下个月将字数上限提高至200万-500万字。
在人工智能领域,一项名为TextCraftor的新技术引起了广泛关注。这是一种端到端的文本编码器微调技术,旨在解决现有模型在生成与文本提示高度对齐的图像方面的挑战。TextCraftor的控制生成能力也为个性化内容创作提供了新的可能性。
当地时间3月28日,人工智能初创公司xAI宣布即将推出Grok-1.5模型,该模型具有长语境理解和高级推理能力。Grok-1.5将向X平台的用户和早期测试者开放。要了解更多关于Grok-1.5的信息,请访问官方网站。
现在随便打开一个大模型应用,支持的文本都有那————么长。7亿人在用的钉钉也加入战局,一出手就是长文本、多模态和工作流三大能力升级,全是最热门的AI迭代方向。“AIGC一天,人间一年”,我们离真正的第一个AI超级应用,已经不远了。
Kimi有多火爆?凭一己之力搅乱A股和大模型圈。Kimi概念股连日引爆资本市场,多个概念股随之涨停。对大模型厂商,特别是创业公司来说试错的机会并不多,不能刚从技术的坑出来,又一头扎进投流的坑,跟风长文本不能解决所有问题,跑出商业化模式才是。
国产大模型打起了长文本大战。从昨晚到今天凌晨,各大厂排队官宣跟进长文本能力:百度文心一言下个月版本升级,开放200万-500万长度360智脑正在内测500万字,一完成就要入驻360AI浏览器阿里通义千问则一出手就是1000万字,且不用等,当场就开始。卷长文本处理能力、团队扩充、大规模广告投放……这些账,怎么算都是天文数字。