首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:GPT-4.1正式上线ChatGPT;阿里通义万相Wan2.1-VACE开源;可灵大模型视频生成量约占30%份额

2025-05-15 15:58 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、阿里通义万相Wan2.1-VACE开源 号称首个开源的视频编辑统一模型

通义万相宣布VACE开源,支持多种分辨率和任务,提供一站式视频创作体验,通过多模态输入机制实现高效灵活的视频编辑。

image.png

【AiBase提要:】

✨ 支持文生视频、图像参考生成、局部编辑与视频扩展等多种任务,提高创作效率。

🌟 强大的可控重绘能力,基于人体姿态、运动光流等控制生成,支持主体和背景参考。

🔧 提出视频条件单元VCU,统一多模态输入,实现多任务自由组合与灵活编辑。

详情链接:https://github.com/Wan-Video/Wan2.1

2、OpenAI 升级 ChatGPT:正式引入GPT-4.1代码能力超强

OpenAI发布了GPT-4.1及其轻量级版本GPT-4.1mini,显著增强了编码能力和指令执行体验,同时优化了用户体验和多模态支持,巩固了其在AI领域的领先地位。

image.png

【AiBase提要:】

🚀 GPT-4.1具备强大的编码能力,处理复杂编程需求更高效,运行速度更快,是开发者和指令处理场景的理想选择。

🌐 GPT-4.1mini轻量级且高效,在资源受限设备上仍能流畅运行,为免费和付费用户提供广泛访问渠道。

🌟 ChatGPT新增多项功能如长按复制、表格复制和流式传输,界面优化显著提升用户体验。

3、Stability AI开源341M超轻量文字转语音模型,手机本地可跑,音频生成仅需8秒!

Stability AI发布了一款名为‘Adversarial Post-Training加速的快速文字转音频生成’的超轻量文字转语音模型,参数仅为341M,却能在H100GPU上75毫秒生成12秒音频,在手机CPU上7秒完成同样任务,性能炸裂且多样性强。

【AiBase提要:】

⚡️ARC后训练方法不基于蒸馏,提升模型生成速度与质量。

📱模型轻量化设计,支持手机本地运行,大幅提升移动端创意应用体验。

💫音频转音频功能实现风格迁移,激发更多创作灵感。

详情链接:https://arxiv.org/pdf/2505.08175

4、Poe 报告:可灵大模型视频生成量约占30%份额 领先Runway

近日发布的2025年春季AI模型使用趋势报告显示,中国快手的可灵多款视频生成模型在文生视频领域表现突出,市场份额达30%,其中可灵2.0模型仅三周就占21%使用比例。自去年6月发布以来,全球用户突破2200万,月活跃用户增长25倍,生成视频和图片数量显著。

【AiBase提要:】

🌟 可灵大模型在文生视频领域市场份额达30%,领先Runway等竞争者。

📈 可灵2.0模型自4月发布后三周内即占据21%视频生成市场。

👥 可灵AI全球用户超2200万,月活跃用户增长25倍,生成视频与图片数量显著增加。

5、微软 WizardLM 团队“集体跳槽”腾讯,或已并入混元大模型研发体系

微软的人工智能研究团队 WizardLM 整体加入腾讯 AI 实验室的“混元”团队,标志着腾讯在大模型领域进一步发力。该团队不仅带来了多项技术突破,还通过开源模型展示了其研发实力。

image.png

【AiBase提要:】

✨ 曾隶属于微软的 WizardLM 团队整体加入腾讯混元团队,强化了腾讯在大模型领域的竞争力。

🚀 Hunyuan-TurboS0416模型首次使用“混元”命名,象征着团队与腾讯的深度融合。

💼 腾讯计划大幅增加 AI 投资,目标是在全球 AI 竞争中占据更为主导的地位。

6、腾讯宣布混元图像2.0将于5月16日全新发布

腾讯混元大模型团队宣布,混元图像2.0将在5月16日发布,这是腾讯在AI视觉领域的重要突破,以‘更智能、更开放、更中国’为核心理念。

image.png

【AiBase提要:】

🌟 混元图像2.0将于5月16日发布,标志着腾讯在AI视觉领域的又一重要进展。

🌐 新工具强调‘更智能、更开放、更中国’,助力创作者和企业迈向AI驱动的视觉生产新时代。

🚀 继去年混元大模型升级后,腾讯再次展示其在人工智能领域的持续创新力。

7、上海启动人工智能标识生态联盟,小红书和 MiniMax 等首批入盟

本文介绍了上海市成立的人工智能标识生态联盟,该联盟旨在推动人工智能领域的标识技术发展,提高生成内容的透明度和安全性,并通过政策解读和企业合作,为构建可信的人工智能环境奠定基础。

【AiBase提要:】

🌟 联盟由上海市委网信办指导,汇聚多家知名企业,目标是提升AI生成内容的透明度和安全性。

🔍 国家互联网应急中心和中国电子技术标准化研究院解读相关政策,强调国际规则与中国特色的结合。

🤝 小红书、MiniMax等企业参与标识工作实践,探索多种内容的标识方案并积累治理经验。

8、Lightricks发布LTX-Video-13B精炼模型!10秒生成高清AI视频,速度与质量双飞跃!

以色列科技公司Lightricks发布的开源AI视频生成模型LTX-Video-13B精炼模型,以130亿参数为基础,结合多尺度渲染技术和高效量化优化,将视频生成速度提升至10秒以内,同时保持高质量输出。

image.png

【AiBase提要:】

🚀 采用多尺度渲染技术,10秒内生成高清视频,速度提升5倍以上。

🌍 开源模型,支持低显存设备运行,降低AI视频制作成本。

🌟 生成速度提升30倍,媲美专业影视作品,重塑内容创作生态。

详情链接:https://github.com/Lightricks/LTX-Video

9、谷歌AlphaEvolve发布!Gemini自进化AI破解数学难题,优化芯片与数据中心,训练速度飙升32.5%

谷歌DeepMind发布的AlphaEvolve是一款结合Gemini大语言模型与进化算法的AI编码代理,它在多个领域展现了强大的自优化能力,包括数据中心调度、芯片设计、AI训练以及数学研究。

image.png

【AiBase提要:】

🌟 Gemini与进化算法结合,解决复杂问题如芯片优化和数学难题。

🚀 AlphaEvolve优化数据中心调度,回收0.7%全球算力,节省运营成本。

🔍 提升AI训练效率,Gemini模型训练速度提升32.5%,展现强大自我优化能力。

10、腾讯元宝浏览器插件尝鲜版上线Chrome

腾讯元宝浏览器插件尝鲜版上线Chrome平台,提供悬浮球、常驻侧边栏和划词工具栏等功能,提升网页浏览与信息处理效率。

image.png

【AiBase提要:】

✨悬浮球功能支持一键翻译和总结网页内容,轻松跨越语言障碍并节省阅读时间。

💬常驻侧边栏可高效答疑,支持截图提问,大幅提升信息获取效率。

🔍划词工具栏实现选中文本后的即时搜索或翻译,让信息处理更流畅。

详情链接:https://yuanbao.tencent.com/download

举报

  • 相关推荐
  • 卓世科技亮相 2026海南(三亚)人工智能科技大会,具身智能通用大脑赋能自贸港产业升级

    5月19日-25日,2026海南(三亚)人工智能科技大会以“睿见未来”为主题举办。卓世科技作为国家级专精特新“小巨人”企业受邀参展,创始人李伟伟发表主题演讲,展示自研“璇玑玉衡”大模型与具身智能通用大脑技术体系,深度对接海南自贸港AI产业生态。大会聚焦物理AI、智能制造、医疗康养等前沿赛道,搭建政产学研资用一体化平台。卓世科技针对行业痛点,提出分层赋能、即插即用的通用大脑解决方案,涵盖AI数字员工、陪伴交互大脑、非人形协同大脑及人形自主作业大脑等,并公布“数据资产、模型能力、场景方案、适配服务、验证认证”五大货架体系,助力海南打造全球人工智能“自贸高地”。

  • 跻身全球第一梯队!京东开源JoyAI-Echo框架:解决长视频生成三大难题

    今日,京东宣布推出JoyAI-Echo长音视频生成框架,号称解决行业长期头疼的长视频生成三大难题:角色易崩、声音乱变、生成缓慢。 目前,JoyAI-Echo代码与权重已全部开源,项目页和GitHub代码仓库均已上线,开发者和创作者可进行体验和二次开发。 京东表示,JoyAI-Echo的推出,标志着京东在长视频生成领域实现重大突破,进入全球第一梯队。 据了解,JoyAI-Echo内置跨模态音视频�

  • 日本熊袭击人清晰视频流出:工人被狂追后扑倒在地

    当地时间6月2日上午,日本福岛钢铁厂的监控视频记录下一头亚洲黑熊袭击人类的过程,当天它先后袭击了工厂两名男性员工、附近住宅的一名80多岁女性,以及另一家公司一名60多岁男性。 监控画面显示,这头黑熊在工厂入口穷追一名20多岁的工人,虽然工人已经绕着圈子闪躲,但最终还是不敌,被黑熊扑倒在地,好在有人驾驶一辆汽车驱赶,这才将黑熊给吓退,否则后果怕�

  • 闯视频赛道,小红书动真格了

    5月26日晚,杭州太阳剧场的颁奖台上,一位英国教授的名字出现在大屏幕上。 他叫Alan Macfarlane,已经84岁,是剑桥大学社会人类学系荣休教授,研究领域横跨英国巫术史、尼泊尔社会、现代世界起源。他参赛的视频毫不“流量向”,没有三分钟抓人眼球的叙事,没有精心设计的剪辑节奏,开头只是用略带口音的中文道一句“你好”,然后娓娓讲述关于文明、历史或人类社会的�

  • 卓世科技荣膺「2026 福布斯中国人工智能科技企业 TOP50」

    近日,《福布斯》发布“2026福布斯中国人工智能科技企业TOP50”榜单,卓世科技凭借其行业大模型创新、自主可控的“璀璨玉衡”大模型体系、Tri-Core三核协同具身智能通用大脑,以及在工业制造、企业服务、健康养老、教育等多领域的深度商业化落地能力成功入选。同时,其创始人屠静女士也入选“人工智能影响力人物”。这标志着卓世科技已跻身中国人工智能产业核心阵营,其技术实力与产业价值获得高度认可。

  • AI日报:字节开源统一多模态大模型Lance 3B;智谱发布GLM-5.1高速版;CapCut与Gemini合作推出深度集成

    本期AI日报聚焦8大热点:字节跳动开源3B参数多模态大模型Lance,实现图像视频理解与生成统一;智谱发布GLM-5.1高速版API,以400 tokens/s刷新全球纪录;CapCut与Gemini合作实现AI创作智能互联;OpenAI推出ChatGPT for PowerPoint插件,一句话生成PPT;WordPress 7.0原生集成AI,开启智能建站新时代;Spotify联手环球音乐推出正版AI翻唱与混音功能;美团开源LongCat-Video-Avatar1.5数字人视频生成模型,�

  • 微信正与手机厂商合作推出A2A助手:可语音发消息、视频通话

    微信正在与华为、荣耀、小米、OPPO、vivo等手机厂商合作推出A2A(Agent-to-Agent)助手能力,可通过手机语音助理发起微信的音视频通话,或向好友发送消息。 目前,荣耀部分机型已经支持该功能,把YOYO智能体和微信更新到最新版本,即可唤醒YOYO直接语音下达指令,比如语音发微信消息、拨打微信语音、视频通话。 A2A为跨应用智能体通信标准,打破APP生态壁垒,运行逻辑为手�

  • 从技术叙事走向商业化拐点,AI视频公司集体迎来价值重估?

    刚刚,快手发布2026年一季度财报。比起集团整体表现,市场的注意力更聚焦在可灵AI的经营数据。 财报显示,2026年第一季度,可灵AI营业收入超过人民币6.5亿元,同比增长超300%;2026年3月,其年化收入运行率(ARR)已接近5亿美元,较去年3月的1亿美元增长4倍,其商业化进程进一步加速。 几乎就在同一个时间窗口里,另外两件行业标志性事件同步发生。 一边是戛纳电影节上,

  • 快手亮相2026金砖产融合作论坛:直播短视频出海赋能金砖合作

    5月28日,2026金砖国家新工业革命伙伴关系系列活动之金砖产融合作论坛在厦门举行。论坛以“深化金砖产融协同,赋能企业国际化发展”为主题,围绕产业合作、企业国际化、技术创新出海等议题展开交流。快手受邀参会,副总裁、快手研究院院长蔡雄山发表题为《直播短视频出海赋能金砖合作》的主旨演讲,分享了快手在技术、商业模式和文化出海方面的实践。快手通过AI技术降低视频创作门槛,助力AIGC在影视、广告等领域落地;在巴西等市场深耕本土化,推动数字平台赋能当地商业生态;并强调文化深度融合,以长期责任服务当地社会发展,助力构建开放、包容、互利共赢的数字经济合作生态。

  • 辽宁小伙听劝模仿黄仁勋爆火:视频播放量破百万

    近日辽宁一名小伙听从网友建议模仿英伟达CEO黄仁勋,相关内容迅速在全网走红,多条模仿视频的播放量突破百万,相关模仿内容短时间内刷遍了各大短视频平台。 这名走红小伙的抖音ID名叫黄银勋,他本人先后发布了多条模仿黄仁勋神态动作的短视频,还特意复刻了黄仁勋此前中国行的行程,专门拍了喝蜜雪冰城和北京豆汁的相关内容。 今年5月,黄仁勋到访国内期间,曾�

今日大家都在搜的词: