首页 > 原创 > 关键词  > 正文

AI日报:腾讯混元推3D生成大模型Hunyuan3D-PolyGen;钉钉AI表格重磅来袭;阿里推多模态大语言模型HumanOmniV2

2025-07-08 16:26 · 稿源:aibase

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、腾讯混元推出业界首个美术级3D生成大模型Hunyuan3D-PolyGen

腾讯混元3D团队推出的Hunyuan3D-PolyGen模型,通过创新的BPT技术和自回归网格生成框架,解决了传统3D生成算法中布线质量差、面数过高和后期编辑难的问题,显著提升了美术师建模效率。

image.png

【AiBase提要:】

🔥 实现上万面复杂几何模型的精准生成,提升建模效率超70%。

💡 采用‘网格序列化-自回归建模-序列解码’三步框架,压缩单个面的表征Token数量74%。

🎯 引入强化学习训练框架,提升模型生成优质结果的概率40%以上。

体验网址:3d.hunyuan.tencent.com

2、阿里HumanOmniV2震撼发布:多模态AI新王者,准确率飙升至69.33%

阿里巴巴集团推出的多模态大语言模型HumanOmniV2在AI领域引发广泛关注。其强大的全局上下文理解能力和多模态推理能力显著提升了复杂场景的理解能力,并在多个权威基准测试中表现出色,展现了其在日常对话、复杂场景感知和用户意图理解方面的优势。

image.png

【AiBase提要:】

🧠 HumanOmniV2引入强制性上下文总结机制,提升多模态推理能力。

📊 在Daily-Omni、WorldSense和IntentBench等数据集上表现优异,准确率分别达到58.47%、47.1%和69.33%。

🌐 支持多种语言输入,增强国际化适用性,推动AI在教育、医疗、金融等领域的应用。

详情链接:https://github.com/HumanMLLM/HumanOmniV2

3、钉钉AI表格重磅来袭:1小时处理1000个任务,零门槛搞定数据分析

钉钉AI表格的发布标志着企业办公进入AI驱动的新时代,其智能化优势体现在智能字段处理、零门槛数据分析和自动化流程创建三个方面,同时首创‘表格即文档’功能,大幅提升数据处理效率和用户体验。

微信截图_20250708113649.png

【AiBase提要:】

🧠 智能字段处理:内置80多种字段模板,支持智能提取、分类和匹配信息。

📊 零门槛数据分析:自然语言描述需求,AI自动生成计算公式和图表。

🔄 自动化流程创建:设定触发条件与执行动作,实现全天候智能协作。

4、百度AI团队推出PaddleOCR3.1版 关键能力支持MCP

image.png

百度AI团队推出的PaddleOCR3.1版本在多语种识别、复杂文档翻译和大模型连接能力上实现了显著升级,为开发者提供了更高效、精准的AI工具。

微信截图_20250708091203.png

【AiBase提要:】

🧠 PP-OCRv5多语种模型支持37种语言,提升识别准确率超30%。

📄 PP-DocTranslation翻译产线可处理复杂文档并实现专业术语精准翻译。

⚙️ MCP服务器功能简化AI应用开发流程,支持标准化协议接入。

详情链接:https://github.com/PaddlePaddle/PaddleOCR

5、微软推出 Deep Research:自动化研究助力科研和商业分析

微软推出了 Deep Research,这是一款支持 API 和 SDK 的智能体,能够自动化研究流程,提高科研和分析效率。它适用于多个领域,如金融和医疗,并且其 API 已经开放,方便开发者集成到自己的应用中。

【AiBase提要:】

🔍 Deep Research 自动化研究流程,显著提升科研和分析效率。

📊 支持多领域应用,金融和医疗报告生成同样适用。

🔗 API 现已开放,开发者可将其能力集成到自有应用中。

详情链接:https://customervoice.microsoft.com/Pages/ResponsePage.aspx?id=v4j5cvGGr0GRqy180BHbR7en2Ais5pxKtso_Pz4b1_xUQ1VGQUEzRlBIMVU2UFlHSFpSNkpOR0paRSQlQCN0PWcu

6、DLoRAL:开源视频高清化框架,香港理工与OPPO联合打造

文章介绍了由香港理工大学与OPPO研究院联合推出的开源框架DLoRAL,该框架基于扩散模型,实现一步生成高质量视频,突破传统视频超分辨率方法的瓶颈。其双LoRA架构和双阶段训练策略显著提升了视频清晰度和流畅性,为视频内容创作提供了高效工具。

【AiBase提要:】

🎥 DLoRAL采用双LoRA架构,C-LoRA确保时间一致性,D-LoRA增强空间细节。

🔄 双阶段训练策略优化时间连贯性和高频信息,提升画面细节表现。

⚡ 推理速度提升约10倍,性能超越传统方法,助力视频内容创作。

7、谷歌开源MCP Toolbox for Databases:10行代码解锁AI与数据库的无限可能

文章介绍了谷歌推出的MCP Toolbox for Databases,该工具通过模型上下文协议(MCP)简化了AI智能体与SQL数据库的集成流程。它具备极简集成、内置安全机制和广泛的应用场景,为开发者提供了高效、可靠的解决方案。

image.png

【AiBase提要:】

🔐 内置连接池管理和身份验证机制,提升数据库交互安全性。

🧩 支持多种数据库,如AlloyDB、Spanner、Cloud SQL等,满足多样化需求。

📦 开源特性,提供详细安装指南和示例代码,便于快速上手使用。

详情链接:https://github.com/googleapis/genai-toolbox

8、微软 Win11即将推出 AI 动态壁纸功能,预览版代码已现

微软在最新 Windows11预览版中引入了 AI 动态壁纸功能的代码,虽然该功能尚未激活,但其潜在的智能更新和时间响应机制引发了广泛关注。这一功能可能为用户带来更加个性化和智能的桌面体验,同时延续了微软在视觉设计方面的探索。

image.png

【AiBase提要:】

🌟 微软 Win11新增 AI 动态壁纸功能,已在预览版中添加代码但尚未激活。

🖼️ 用户可选择主题,系统将自动更新壁纸,可能包含时间响应机制。

🔍 相关功能曾在其他设备和系统中探索,当前开发旨在提升 Windows11的视觉体验。

举报

  • 相关推荐
  • AI日报:智谱发布GLM-5V-Turbo多模态Coding大模型;Seedance 2.0 API正式全量开放;美团 LongCat-AudioDiT 开源

    本期AI日报聚焦多领域进展:智谱发布GLM-5V-Turbo多模态编程模型,实现视觉与编程深度融合;字节跳动火山引擎开放Seedance 2.0视频生成API;美团开源LongCat-AudioDiT,刷新语音克隆SOTA;字节豆包大模型日消耗Token破120万亿,国产模型调用量持续增长;蚂蚁数科推出专业级AI智能体DTClaw;Anthropic测试常驻代理Conway,支持独立UI与Webhook;谷歌即将开源120B参数Gemma 4模型;通义实验室发布Qwen3.6-Plus,提升编程智能体稳定性。

  • AI日报:阿里发布Wan2.7视频模型;红果下架AI剧桃花簪;广电严禁AI演员换脸

    本期AI日报聚焦多领域进展:阿里通义实验室发布Wan2.7-Video模型,提升视频创作自由度;红果短剧因AI换脸侵权下架,引发行业法律风险讨论;腾讯云推出“龙虾”记忆服务,增强AI代理长期记忆能力;千问3.6发布,编程能力达国际先进水平;广电行业组织严禁AI换脸和声音克隆侵权;ElevenLabs进军AI音乐创作市场;谷歌开源Gemma4模型;小米MiMo大模型推出商业化订阅套餐。

  • AI日报:腾讯研发新AI产品探梦DreamNow;MiniMax 2.7 确认本周开源;千问3.6Plus登顶OpenRouter 全球大模型调用榜

    本期AI日报聚焦多领域进展:腾讯推出AI互动影游平台“探梦DreamNow”,降低创作门槛;阿里千问3.6 Plus单日调用量破万亿Token,登顶全球模型调用榜;谷歌发布离线AI听写应用Eloquent,保障数据安全;国产模型MiniMax 2.7确认开源,降低成本提升可用性;宇树科技移动机器人专利获授权,简化感知架构;专业动画工具OiiOii上线,AI赋能动画制作;通义千问上线财经分析模块,接入实时行情与财报;前迪士尼工程师与Midjourney打造仿生机器人Éloi,探索情感交互。

  • 谷歌Gemini再升级!解锁新玩法:输入提示词即可生成交互式3D模型

    近日,谷歌Gemini AI推出最新升级,用户只需输入提示词,就能让聊天机器人生成交互式3D模型和实时模拟。 这一新功能支持多种互动操作,包括旋转模型、拖动滑块调整参数或输入数值改变模拟结果。 例如,用户询问月球绕地球轨道时,Gemini会创建一个3D模型,并提供轨道速度滑块、路径线切换开关以及暂停按钮。

  • AI日报:火山引擎Seedance2.0 API全面开放;阿里巴巴首款具身机器人曝光;Skywork AI发布实时视频生成系统Matrix-Game 3.0

    本期AI日报聚焦多领域前沿动态:火山引擎Seedance 2.0 API上线,提供SOTA级视频生成能力;Skywork AI发布Matrix-Game 3.0,实现720p实时高清“世界生成”;特斯拉2026春季更新将带来Grok语音助手升级与FSD一键订阅。此外,五部门联合部署“人工智能+教育”行动,计划到2030年构建深度融合格局;爱奇艺CEO预测3-6个月内或出现AI商业大片;阿里巴巴发布首款具身四足机器人;LPM1.0模型实现单图转实时交互式数字人视频;谷歌Gemini推出基于Nano Banana技术的交互式可视化图像生成功能。

  • 国内最强生图模型阿里Wan2.7-Image来了!千人千面 告别AI标准脸

    阿里巴巴今日正式发布图像生成与编辑统一模型Wan2.7-Image,直击当前 AI 生图领域标准脸”审美疲劳和色彩盲盒”等痛点。 该模型可实现千人千面”,捏出活人感”,全新的调色盘”功能可精准控制色彩。 即日起,用户可在https://tongyi.aliyun.com/wan/、wan.video网站和阿里云百炼体验Wan2.7-Image,千问App也即将接入。 据介绍,Wan2.7-Image具备文生图、图生组图、图像指令编辑和交互式�

  • 国产AI大模型GLM-5.1登顶开源第一:可独立编程8小时

    3月底智谱正式推出了GLM-5.1大模型,编程能力评分45.3分,号称比全球最强的Opus 4.6只低了2.6分。 前两天GLM-5.1大模型也正式开源,也深受开发者喜爱,现在最新的排名也来了全球权威AI评测平台LMArena(百万用户参与盲测)更新Code Arena专项榜单,GLM-5.1登顶全球开源模型第一,位列全球模型第三。 除了榜单表现优秀,根据智谱的说法,GLM-5.1不仅继承了上一代模型的开源SOTA编码能

  • AI日报:MiniMax 发布 Music 2.6;扣子2.5重磅升级;AI人格测试产品SBTI走红网络

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://app.aibase.com/zh1、AI人格测试产品SBTI走红网络:主打抽象标签与AI合成技术AI人格测试产品SBTI凭借其荒诞的“抽象标签”与解构式表达迅速走红网络,其核心在于利用AI合成技术进行内容生成,而�

  • 当健康产业换上“AI操作系统”:2026西普会发布年度主题,大模型进入垂直产业深水区

    从“通用大模型”到“产业智能体”,健康产业正在成为AI技术落地的最大试验场之一。4月9日,第十九届西普会主题正式发布——“走进AI时代:健康产业的范式革命与路径选择”,大会定于8月11日至16日在海南博鳌举行。对于AI科技圈的从业者而言,这个主题的价值不在于它提到了AI,而在于它释放了一个信号:健康产业正在将AI视为底层操作系统,而不是一个提效工具。 这意味

  • 谷歌发布Gemma 4大模型:31B登顶开源第三!手机可离线运行

    今天凌晨,谷歌DeepMind正式推出新一代开源大模型Gemma 4,该模型与谷歌闭源旗舰Gemini共享底层技术,也是时隔一年对Gemma 3的重大升级。 此次谷歌一改此前自有协议,采用Apache 2.0商业友好型许可证开源,开发者可无门槛自由修改、分发和商用。 一口气推出四款不同规格模型,覆盖从手机、边缘设备到工作站、服务器的全场景部署,在参数效率上表现亮眼,31B版本更是跻身Arena

今日大家都在搜的词: