首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:昆仑万维开源SkyReels-V2;讯飞星火X1全新升级;扣子空间Coze Space内测

2025-04-21 15:51 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用

新鲜AI产品点击了解:https://top.aibase.com/

1、昆仑万维开源SkyReels-V2:无限时长电影生成模型

昆仑万维的SkyReels团队推出了SkyReels-V2,这是全球首个基于扩散强迫框架的无限时长电影生成模型。该模型通过结合多模态大语言模型、强化学习等技术,显著提升了视频生成的质量和效率。SkyReels-V2不仅在技术上取得突破,还拓展了应用场景,包括故事生成和图生视频等,展现了其在创意内容制作领域的广泛潜力。

image.png

【AiBase提要:】

🚀 SkyReels-V2是全球首个使用扩散强迫框架的无限时长电影生成模型,标志着视频生成技术的新阶段。

🎬 该模型在运动动态、视觉质量和视频时长协调方面表现出色,支持生成高运动质量和高一致性的视频。

📊 在性能评估中,SkyReels-V2在多个关键维度上优于对比模型,展现了其卓越的指令遵循和视频一致性。

详情链接:https://github.com/SkyworkAI/SkyReels-V2

2、讯飞星火X1全新升级:在AI领域力争与OpenAI对抗

科大讯飞于4月21日推出了其最新的人工智能模型——讯飞星火X1,旨在与OpenAI的o1和DeepSeek R1竞争。该模型在多个领域表现出色,尤其是在教育、医疗和司法等行业。尽管其模型参数较小,但整体效果与行业领先者相当。此外,讯飞星火X1的“快思考、慢思考”统一模型为用户提供了灵活的思考方式,降低了企业使用AI的门槛。

image.png

【AiBase提要:】

✨ 讯飞星火X1通过复杂场景数据提升了模型的泛化能力,适用于教育、医疗和司法等行业。

💡 尽管模型参数小于同类产品,但整体效果媲美行业领先者,展现出强大的竞争力。

🔧 新的模型定制优化工具链支持多种定制方案,简化了企业的AI应用部署流程。

3、宇树科技宣布全球首场人形机器人格斗大赛将于2025年震撼开战

宇树科技将在2025年举办全球首场人形机器人格斗大赛,展示尖端技术与机器人格斗的魅力。参赛的G1人形机器人经过高强度训练,展现出卓越的灵活性和强大的战斗能力,尤其是在被击倒后能迅速恢复战斗,令人印象深刻。这场赛事不仅是技术的盛会,更将推动人工智能和机器人技术的发展,吸引全球科技爱好者的关注。

image.png

【AiBase提要:】

🤖2025年5月至6月,宇树科技将在杭州举办全球首场人形机器人格斗大赛,展示前所未有的视觉盛宴。

💪 G1人形机器人经过高强度的算法训练与硬件调试,展现出卓越的灵活性和强劲的出拳能力。

📺 比赛将通过中央广播电视总台全网直播,观众将亲眼目睹机器人格斗的巅峰对决。

4、扣子空间Coze Space正式开启内测

字节跳动的全新AI协同办公平台“扣子空间”已进入内测阶段,旨在提升用户与AI Agent的协作效率。该平台具备自动分析用户需求、拆解任务、调用工具等多项创新功能,能够生成完整的结果报告。此外,平台引入了专家Agent生态,用户可选择不同领域的专家进行深度分析,帮助获取更多洞察。

image.png

【AiBase提要:】

🤖 扣子空间提供全方位服务,支持用户与AI Agent高效协作,自动分析需求并拆解任务。

📊 引入专家Agent生态,用户可选择专业领域的Agent进行深度分析和报告生成。

🔧 支持MCP扩展集成,首批支持多种工具,未来将允许用户发布自定义MCP。

5、谷歌发布 Gemma3QAT 模型:一张3090显卡也能轻松驾驭

谷歌近期推出了Gemma3系列的新版本,特别是经过量化感知训练(QAT)优化的Gemma327B模型,显著降低了内存需求,使得用户能够在消费级GPU上本地运行大型模型。QAT技术通过在训练过程中融入量化操作,减少了性能损失,提升了模型在小型设备上的运行效果。

image.png

【AiBase提要:】

💡 QAT优化的Gemma327B模型显存需求从54GB降低到14.1GB,用户可在消费级GPU上运行。

⚙️ 经过5000步QAT训练,模型困惑度下降54%,在小型设备上保持高效运行。

🌐 多个开发者工具如Ollama、LM Studio和MLX已支持Gemma3QAT模型,用户体验更佳。

6、Intel 开源 AI Playground,可用intel Arc 显卡使用各种AI模型

Intel 宣布将其生成式 AI 软件 AI Playground 正式开源,标志着在推动生成式 AI 技术普及和社区协作方面的重要一步。AI Playground 是一款专为 Intel Arc GPU 和集成显卡优化的工具,支持多种生成式 AI 模型,允许用户在本地生成 AI 图像并确保数据隐私。

image.png

【AiBase提要:】

🛠️ AI Playground 是一款功能强大的 AI 工具,支持多种生成式 AI 模型,包括图像扩散模型和大语言模型,确保本地数据隐私。

🌍 开源 AI Playground 以 MIT 许可协议发布,鼓励开发者自由下载、定制和贡献代码,降低了开发门槛,促进社区协作。

🚀 Intel 的开源举措被视为生成式 AI 领域的重要突破,预计将推动更多基于 Intel 硬件的 AI 解决方案的开发。

详情链接:https://github.com/intel/AI-Playground

7、Reachy2机器人发布:互动自然,售价7万美元

Hugging Face通过收购Pollen Robotics推出开源人形机器人Reachy2,标志着人形机器人与生成式AI结合的重要里程碑。Reachy2以其友好的外观、先进的传感器和开源特性,迅速成为全球顶尖实验室的关注焦点。该机器人不仅推动了机器人技术的主流化,也为AI和机器人研究提供了低成本的创新机会,展现了未来人形机器人市场的巨大潜力。

image.png

【AiBase提要:】

🤝 Reachy2是Hugging Face收购Pollen Robotics后推出的开源人形机器人,售价7万美元。

🛠️ 该机器人配备先进传感器和VR遥控操作,支持灵活编程与定制,促进机器人技术的民主化。

📈 市场预测到2050年人形机器人市场规模将达1.7万亿美元,Reachy2的开源模式为研究和教育提供了创新机会。

8、字节跳动研究开源 ChatTS-14B:原生理解并随着时间的推移进行推理

字节跳动研究团队推出了ChatTS-14B,这是一款专为时间序列数据设计的140亿参数大型语言模型,旨在通过自然语言接口降低时间序列分析的使用门槛。该模型的开源引发了广泛关注,标志着时间序列分析与生成式AI结合的重大进展。ChatTS-14B不仅提供了模型权重,还包括详细的使用文档和代码库,助力开发者在金融、医疗等领域的应用。

image.png

【AiBase提要:】

📊 ChatTS-14B是一个140亿参数的语言模型,专为时间序列数据理解和推理而设计。

🌐 开源的ChatTS-14B使得非专业用户也能通过自然语言轻松处理时间序列任务,降低了使用门槛。

🚀 该模型的发布标志着字节跳动在AI领域的战略性突破,推动了时间序列分析的广泛应用。

详情链接:https://huggingface.co/bytedance-research/ChatTS-14B

9、Figma 推 AI 革命:开发智能应用制作器与网站创建工具

Figma正积极布局人工智能领域,计划推出一款AI应用程序制作器和Figma Sites网站创建工具。这些新工具旨在通过自然语言和现有设计资源快速生成应用程序和网站,降低开发门槛,使非技术背景的设计师也能轻松构建功能性应用。Figma的这一系列创新不仅提升了设计与开发的智能化水平,还可能重新定义行业协作模式,尽管面临来自Webflow和Wix等平台的竞争。

image.png

【AiBase提要:】

🛠️ Figma推出AI应用程序制作器,支持多种输入形式,降低开发门槛。

🌐 Figma Sites工具将帮助用户直接从设计稿生成可用网站,扩展设计生态。

🤖 Figma借助Claude Sonnet模型提升智能化水平,可能重塑设计与开发的协作模式。

10、微软MarkItDown MCP,可把Word、Excel等转换成markdown格式

在数字化时代,微软推出的MarkItDown MCP(Model Context Protocol)为文档处理带来了革命性的变化。该工具支持多种文件格式如PDF、Word、PowerPoint等,能够高效地将其转换为Markdown格式,极大地方便了文本分析及大型语言模型的应用。

image.png

【AiBase提要:】

📄 **多格式支持**: 支持PDF、Word、PowerPoint等多种文件格式,满足不同场景的需求。

🔍 **智能文档结构保持**: 转换过程中,智能识别并保留文档的核心结构,确保信息完整无损。

⚙️ **插件扩展功能**: 支持第三方插件,用户可根据需求进行扩展,满足特定文档处理要求。

详情链接:https://github.com/microsoft/markitdown

举报

  • 相关推荐
  • AI日报昆仑万维天工超级智能体发布;OpenAI核心API支持MCP;百度飞桨PaddleOCR 3.0开源

    【AI日报】汇总了近期AI领域重要动态:1)百度飞桨发布PaddleOCR3.0,提升文字识别精度13%;2)昆仑万维发布天工超级智能体,AI办公成本仅为OpenAI的40%;3)OpenAI API新增MCP支持简化开发流程;4)xAI推出实时网页搜索API;5)谷歌Sparkify可将问题秒变动画;6)Mistral发布高效代码模型Devstral;7)Video Ocean推出4K视频生成工具;8)谷歌推出AI内容识别工具SynthID;9)谷歌NotebookLM使用量半年增长56%;10)硅基流动升级128K长文本模型;11)DeepMind发布音乐生成模型Lyria2;12)多模态大模型MMaDA实现跨模态推理;13)微软发布网页智能体Magentic-UI;14)Framer推出AI建站套件。

  • 生成视频好看还不够,还要能自由探索!昆仑万维开源Matrix-Game,单图打造游戏世界

    世界模型的进度条,最近坐上了火箭。 去年11月,两家创业公司打造的 Oasis,首次在开源世界模型中实现了实时、可玩、可交互。生成的虚拟环境不仅包含画面,也体现出了对物理和游戏规则的理解。

  • AI日报昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

    本文介绍了AI领域最新动态:1)昆仑万维推出全球首款AI+Agent架构的Office智能体应用;2)研究显示ChatGPT能提升K12学生成绩近87%;3)谷歌视频生成工具Veo3扩展至更多地区;4)谷歌发布三款Gemma模型变体,覆盖医疗、手语翻译和海豚语言研究;5)VideoTutor实现一句话生成定制教学视频;6)字节跳动开源多模态模型BAGEL;7)Rork支持无代码开发iOS/Android应用;8)AingDesk降低AI助手开发门槛;9)Claude4登陆亚马逊Bedrock平台;10)Youware通过MCP协议提升网页生成能力。这些创新展示了AI技术在各领域的快速发展和应用潜力。

  • 7个月ARR 1.2亿美元,昆仑万维靠“短剧+AI”找到了新增长点

    据某头部媒体发布的行业白皮书显示,海外短剧月均用户已达2000-4000万,未来短剧预计将覆盖亿级的海外用户,市场规模或突破百亿美元。正是在这一行业窗口期,昆仑万维以“后来者”姿态切入赛道,却迅速在全球市场中突围,吸引了我

  • AI日报:DeepSeek开源新版R1-0528;字节发布图像Agent小云雀AI;可灵2.1重磅上线

    本期AI日报聚焦多项AI领域突破:1)DeepSeek发布R1-0528模型,支持128K上下文且性能媲美GPT-4;2)字节推出"小云雀AI"图像创作工具;3)可画2.1版本价格降65%性能提升;4)Opera发布全球首款AI浏览器Neon;5)Meta推出多模态空间理解模型;6)北大团队研发ZeroSearch框架降低大模型训练成本88%;7)字节推出AI视频剪辑应用"剪小映";8)MotionPro实现40ms/帧精准视频控制;9)xAI与Telegram达成3亿美元合作部署Grok聊天机器人;10)OpenAI重组架构为IPO铺路;11)像素蛋糕"方糖大模型"获国内首个影像行业备案;12)Paper2Poster实现论文自动转海报;13)Resemble AI开源TTS模型性能比肩ElevenLabs;14)蚂蚁集团开源对标GPT-4o的多模态模型Ming-lite-omni。

  • SpaceX星舰第九次试飞失败:返航途中爆炸 又成了大烟花

    5月28日,SpaceX星舰第九次试飞在得克萨斯州发射升空,但最终未能成功着陆返航。火箭发射初期顺利,星舰成功入轨并完成发动机关机程序,但在再入大气层阶段突然失控,遥测信号中断。SpaceX确认飞船因失控启动自毁程序,最终在印度洋上空解体爆炸。此次试飞核心目标是测试超重型助推器的首次复用技术和星舰再入返回能力,但均未完成。这是继今年1月和3月两次失败后,星舰项目的第三次连续失败,凸显了可重复使用航天器技术的复杂性。

  • AI日报:阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • AI日报:DeepSeek入选2025年度十大IP;快手推出AI作图工具 Poify;字节跳动开源代码模型Seed-Coder

    本文介绍了AI领域多项最新进展:1)快手推出电商AI作图工具Poify,提升商品展示效率;2)字节跳动开源8B参数代码模型Seed-Coder,展现强大编程能力;3)DeepSeek App入选2025全球十大IP;4)Claude AI新增网页搜索功能;5)苹果发布移动端视觉语言模型FastVLM;6)腾讯推出3D形状生成框架PrimitiveAnything;7)首个智能文档处理基准发布;8)谷歌Gemini2.5Pro实现6小时视频理解;9)研究显示简洁提问易致AI错误;10)首款AI智能浏览器Fellou发布;11)NVIDIA推出音频生成技术Audio-SDS;12)Kimi入驻小红书,转向内容深耕。这些创新展现了AI在电商、编程、多模态理解等领域的快速发展。

  • 从课堂到诊室,国计民生领域为何总有讯飞星火身影?

    2023 年,美国奥数队总教练罗博教授曾预言:“GPT对人类社会最为根本的改变,将发生在教育领域。”历经两年发展,以GPT为代表的的大模型,不仅极大程度改变乃至重塑了各行各业,更引发了官产学研各界对人工智能时代应该培养什么样人才的思考。

  • AI日报:QQ浏览器升级AI浏览器;OpenAI全新编程智能体Codex;B站团队推动漫视频生成模型AniSora

    本文介绍了AI领域多项最新进展:1)B站团队推出开源动漫视频生成模型AniSora,支持多种风格创作;2)OpenAI发布编程智能体Codex,提升开发效率;3)Google测试AI问答功能AI Mode;4)ChatGPT将整合MCP协议,支持第三方AI服务对接;5)阿里推出ZeroSearch框架,减少对搜索引擎的依赖;6)Stability AI与Arm合作推出手机端音频生成AI;7)Qwen发布WorldPM系列大模型;8)GPT-5将整合多款产品功能;9)ListenHub上线AI播客生成工具;10)QQ浏览器升级为AI浏览器;11)数学建模AI助手MathModelAgent面世;12)GenSpark推出全球首个智能下载代理;13)谷歌NotebookLM将推出视频摘要功能。这些创新展现了AI技术在各领域的快速发展和广泛应用。