首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:腾讯混元3D 2.1大模型开源;字节跳动AI Lab负责人李航卸任;OpenAI Codex 全新升级

2025-06-16 16:06 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、腾讯宣布混元3D2.1大模型对外开源

混元3D2.1作为首个全链路开源的工业级3D生成大模型,显著提升了几何生成质量和PBR材质生成能力,降低了开发门槛,适用于多个行业领域。

image.png

【AiBase提要:】

✨ 首个全链路开源工业级3D生成大模型,几何生成与PBR材质生成效果显著提升。

🎮 支持游戏、电影、电商等领域生成高质量3D角色、道具与产品模型,告别传统‘塑料感’。

💻 全链路开源且部署友好,适配消费级显卡,适合个人与团队快速上手开发。

详情链接:https://3d-models.hunyuan.tencent.com/

2、OpenAI Codex 全新升级:让程序员轻松获取理想代码

OpenAI Codex迎来重磅更新,通过生成多样代码版本提升开发效率,优化细节如加载进度查看、取消操作等,并支持复杂任务处理,助力开发者专注创新。

image.png

【AiBase提要:】

✨ Codex新增生成多种代码版本功能,满足不同需求,提升开发效率。

🔧 优化细节包括加载进度查看、取消操作及安装问题修复,操作更灵活。

🌟 基于codex-1模型优化,提高代码生成准确性,支持GitHub代码库提取。

3、字节跳动AI Lab负责人李航卸任,Seed团队步入调整期

字节跳动AI Lab负责人李航卸任,转为劳务/顾问身份,标志着字节跳动AI领域的核心团队正在经历重大调整。随着吴永辉、朱文佳等人的加入及团队重组,字节跳动在AI领域的战略方向逐渐清晰。

【AiBase提要:】

李航卸任AI Lab负责人,转为劳务/顾问身份,标志着字节跳动AI Lab的重大人事调整。

自2020年起,AI Lab逐步转型为技术中台,并在2023-2024年将部分大模型团队并入Seed团队。

字节跳动AI Lab自2016年成立以来,历经多位负责人领导,逐步成为支撑字节跳动多项业务的技术核心。

4、微软发布700个真实 AI 案例,探索智能化工作新模式

微软展示了700个AI应用案例,覆盖多个行业,通过AI技术提高企业效率、优化工作体验并提升客户满意度。

image.png

【AiBase提要:】

🌍 全球范围内,微软展示了700个AI应用案例,涵盖金融、医疗、教育等多个行业。

🤖 AI智能体通过自动化任务,显著减少工作时间,提升企业效率。

💼 众多企业借助AI提升客户体验,推动业务增长与运营优化。

5、微软AI重磅发布Code Researcher:58%崩溃解决率震撼业界!

我非常看好Code Researcher这款工具,它通过强大的语义分析和多步骤推理能力,显著提高了系统级软件维护的效率和准确性。作为开发者,我期待它能进一步简化我们的工作流程,减少手动调试的时间。

image.png

【AiBase提要:】

🔍 Code Researcher基于大型语言模型(LLM),能深度分析代码库和提交历史,追踪崩溃根本原因并生成修复补丁。

📈 在Linux内核崩溃修复测试中,Code Researcher的崩溃解决率高达58%,远超SWE-agent的37.5%。

🌐 它适用于多种大型代码库,为企业级软件维护提供高效解决方案,推动系统级软件开发自动化进程。

详情链接:https://www.microsoft.com/en-us/research/publication/code-researcher-deep-research-agent-for-large-systems-code-and-commit-history/

6、AI监工上线!Observer AI让屏幕自动化更高效,解放你的双手

Observer AI作为一款专为屏幕自动化工具设计的AI框架,通过实时监控屏幕内容并进行智能化分析,显著提升了操作效率,解决了传统工具效率瓶颈的问题。

【AiBase提要:】

屏幕实时记录:Observer AI通过高精度捕捉技术完整记录界面变化,确保数据无遗漏。

AI智能分析:内置先进算法快速解析屏幕内容,识别任务完成情况或潜在问题。

自动化响应:支持调用MCP或自定义方案,自动执行下一步操作,实现闭环自动化。

详情链接:https://github.com/Roy3838/Observer

7、Genspark AI 发布革新性 AI Browser,开启智能网络浏览新时代

Genspark AI Browser是一款集成先进AI技术的新型浏览器,通过自动化与智能化功能提升用户生产力。它内置AI代理,提供无广告、超高速的浏览体验,并支持模块化扩展。这款浏览器在学术研究、商业决策和内容创作等领域展现出巨大潜力。

image.png

【AiBase提要:】

🌟 Genspark AI Browser内置AI代理,提供智能导航与内容分析,例如自动搜索全网最低价。

💻 支持MCP Store模块化扩展,用户可通过定制化AI工具满足多样化需求。

🚀 适用于多种场景,包括学术研究、商业决策及内容创作,提升信息处理与任务自动化效率。

8、麻省理工利用 AI 技术迅速修复15世纪名画,仅需三个半小时

麻省理工开发出一种基于人工智能的创新修复技术,通过可拆卸的掩膜和数字地图,大幅缩短艺术品修复时间,提高修复效率。

image.png

【AiBase提要:】

🎨 麻省理工开发新技术,通过 AI 修复名画,仅需三个半小时。

⏳ 该技术将修复时间从数月缩短到几个小时,大幅提高效率。

🖼️ 采用可拆卸掩膜和数字地图,修复过程安全可逆,保护原画。

9、蚂蚁集团和Inclusion AI联合推Ming-Omni:首个开源版多模态GPT-4o

Ming-Omni是一款由蚂蚁集团和Inclusion AI联合推出的多模态模型,具备图像、文本、音频及视频处理能力,支持语音与图像生成、多模态输入融合处理,并开放源代码以促进研究与发展。

image.png

【AiBase提要:】

🌟 支持多模态输入融合处理,无需额外模型或特定任务微调,高效完成多样化任务。

🗣️ 提供语音与图像生成功能,支持方言理解、语音克隆及上下文感知对话,提升人机交互体验。

🌐 首个开源多模态模型,与GPT-4o匹敌,激励社区研究与开发,推动技术进步。

详情链接:https://lucaria-academy.github.io/Ming-Omni/

10、视频版AI换衣框架MagicTryOn,基于Wan2.1视频模型

MagicTryOn 是一种基于大型视频扩散变换器的虚拟试穿框架,通过创新的模型设计和服装保留策略,在大幅度运动场景下表现出色,提升了视频虚拟试穿的时空一致性。

image.png

【AiBase提要:】

🌟 MagicTryOn 采用扩散变换器,显著提升视频虚拟试穿的时空一致性。

👗 引入粗到细的服装保留策略,增强服装细节表现力。

🎥 在大幅度运动场景下表现优异,展现服装与人体动作的自然互动。

详情链接:https://vivocameraresearch.github.io/magictryon/

11、字节跳动Seaweed APT2震撼发布!实时互动AI视频生成,解锁3D虚拟世界新纪元

字节跳动推出的Seaweed APT2是一款高效的AI视频生成模型,具有实时视频流生成、互动相机控制和虚拟人类生成的能力,被认为是通往虚拟全息甲板的重要一步。

image.png

【AiBase提要:】

✨Seaweed APT2采用自回归对抗后训练技术,大幅降低计算复杂性,实现高效实时视频生成。

🎥支持实时3D世界探索和互动虚拟人类生成,适用于虚拟主播、游戏角色等多种场景。

🌟相比传统模型,Seaweed APT2在动作连贯性和场景多样性方面有显著提升,开启AI视频生成新篇章。

12、OpenAI升级ChatGPT Search功能,提供更精准、更智能的响应

我非常看好这次ChatGPT Search的功能升级,它不仅提升了搜索质量,还增强了用户体验,尤其是新增的图片搜索和项目管理功能,让ChatGPT变得更强大、更实用。

image.png

【AiBase提要:】

🔍 新增图片搜索功能,支持多样化交互方式。

📚 Projects功能升级,助力高效管理对话和文件。

🌐 挑战谷歌霸主地位,提供更高效、人性化搜索体验。

13、字节火山引擎澄清与老凤祥 AI 智能眼镜合作传闻

本文探讨了关于字节跳动旗下火山引擎与中国珠宝品牌老凤祥合作开发AI智能眼镜的传闻,分析了双方的声明以及实际展示的功能。

【AiBase提要:】

火山引擎否认与老凤祥合作开发AI智能眼镜,但老凤祥展示的眼镜确实使用了豆包大模型。

老凤祥AI眼镜专为老年用户设计,具备多种实用功能如语音导航、实时翻译等。

豆包大模型作为公开产品,任何合规客户均可购买并应用到自己的设备中。

举报

  • 相关推荐
  • AI日报:腾讯混元推3D生成大模型Hunyuan3D-PolyGen;钉钉AI表格重磅来袭;阿里推多模态大语言模型HumanOmniV2

    本文介绍了AI领域多项重要进展:1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen,显著提升建模效率;2)阿里发布多模态大模型HumanOmniV2,准确率达69.33%;3)钉钉AI表格实现1小时处理千项任务;4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级;5)微软推出Deep Research智能体,自动化研究流程;6)香港理工与OPPO联合开源视频超清框架DLoRAL;7)谷歌开源MCP工具箱简化AI与数据库集成;8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。

  • AI日报:智谱上线PPT生成功能AI Slides;可灵 AI 发布可图2.1模型

    本文介绍了AI日报栏目及近期AI领域多项突破性进展:1)智谱推出免费AI Slides工具,基于GLM模型快速生成高质量PPT;2)可灵AI发布可图2.1模型,支持180多种风格图像生成;3)NVIDIA推出DiffusionRenderer技术,实现视频到可编辑3D场景转换;4)墨刀AI新增30秒生成高保真原型功能;5)Higgsfield推出Soul ID工具,10张照片即可生成虚拟形象;6)谷歌DeepMind开源GenAI Processors工具库;7)谷歌Veo新增图像转视频功能;8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。

  • AI日报:xAI 震撼发布Grok4;微软开源全新Phi-4-mini版本;上海累计82款大模型通过备案

    AI日报栏目聚焦人工智能领域最新动态:1)xAI发布旗舰模型Grok4,在数学推理和代码生成表现突出,同时推出开发者专用Grok4Code;2)微软开源Phi-4-mini模型,推理效率提升10倍,适合边缘设备;3)上海82款大模型完成备案,垂直领域应用取得突破;4)Hugging Face推出开源桌面机器人Reachy Mini,支持Python编程;5)Perplexity发布AI浏览器Comet挑战Chrome;6)OpenAI将首次发布开放权重模型,打破闭源惯例;7)谷歌医疗AI模型MedGemma系列上新,单个GPU即可运行;8)OpenAI以约65亿美元收购AI硬件公司io Products,正式进军硬件市场。

  • A日报:B站升级动漫视频生成模型AniSora V3;字节开源4D视频生成框架EX-4D;DeepSWE开源AI Agent系统强势登顶

    AI日报栏目汇总了近期AI领域的重要进展:1)字节跳动开源EX-4D框架,可将单目视频转换为多视角4D视频;2)B站开源动漫视频生成模型AniSora V3,支持多种风格;3)DeepSWE+开源基于Qwen3-32B的AI Agent系统;4)字节开源3亿参数图像编辑模型VINCIE-3B;5)Stability AI推出移动端音频生成模型Stable Audio Open Small;6)谷歌发布免费教育AI工具套件Gemini for Education;7)Topview推出革命性AI数字人带货技术Avatar

  • 精臣B21Pro智能标签机全新升级,解锁相片打印新体验

    NIIMBOT精臣推出B21Pro智能标签机升级版,接入全新"拍了贴"照片打印贴纸功能。采用专业材料技术,将热敏成像升级为16色阶过渡的细腻黑白效果,配合300dpi高分辨率,能精准还原人物表情、宠物神态和风景层次。同时精臣小印APP同步上线"拍了贴"新功能,提供18款强大滤镜和丰富图标资源,支持多国语言字体,满足手账创作、旅行记录等多样化需求。这套组合完美契合出游记录、手账创作、宠物纪念等多种生活场景,让用户轻松打印高质量照片贴纸,为生活增添趣味与质感。

  • AI日报:腾讯元宝升级一句话搜索图片视频;微信支付MCP上线;谷歌在全球推出 Veo 3

    【AI日报】今日AI领域重要动态:1)腾讯元宝升级,支持一句话搜索呈现图文视频;2)微信支付MCP上线,AI与支付结合开启商业新纪元;3)谷歌Veo3视频生成模型向Pro/Ultra会员开放,新增"照片生成视频"功能;4)开源DeepSeek R1增强版推理效率提升200%;5)美图WHEE推出"一句话修图"功能;6)芯片公司Ambiq申请美国IPO,受益生成式AI需求;7)昆仑万维开源奖励模型Skywork-Reward-V2;8)Kyutai发布超低延迟开源语音合成技术;9)Figma拟以200亿美元估值登陆纽交所;10)字节跳动开源Trae-Agent智能开发工具。

  • @开发者们:百度文心大模型4.5系列模型开源,国内首发平台GitCode现已开放下载!

    6月30日,百度文心大模型4.5系列正式开源并在国内领先的开源平台GitCode首发上线。该系列包含10款模型,涵盖47B和3B参数的混合专家(MoE)模型及0.3B的稠密参数模型,采用创新的多模态异架构结构实现跨模态知识融合。模型基于飞桨框架开发,训练效率达47% MFU,在文本和多模态基准测试中达到SOTA水平。所有模型按Apache2.0协议开源,配套产业级开发套件支持多种芯片部署。GitCode平台已汇聚620万用户,为AI开发者提供代码托管、协同开发等全流程支持。此次开源将推动中国AI生态创新,加速大模型技术产业化应用。

  • 迅雷影音全新升级 支持多种网盘及百种视频格式解码播放

    迅雷影音发布全新版本,主打"下载-存储-播放"全链条服务。新版本支持阿里云盘、百度网盘、NAS设备等多网盘挂载,实现跨平台资源整合;支持MP4/AVI/MKV等百种视频格式及4K/8K/HDR高清播放;新增智能字幕匹配功能,可自动适配外挂字幕。产品还优化了跨端同步体验,支持PC/平板/TV多端访问云端资源。目前用户可限时免费享受超级会员权益,包括高清云播、倍速播放等10项特权。迅雷表示将持续深化与网盘厂商的生态合作,通过技术创新提升数字内容消费体验。

  • 英伟达Blackwell Ultra芯片商用落地,微美全息以“算力+开源”领航AI科技新程

    英伟达与CoreWeave合作推出新一代AI芯片Blackwell Ultra,该芯片已实现商业部署,采用液冷技术,包含72个GPU和36个CPU。Blackwell Ultra的AI内容生成能力是前代产品的50倍,预计今年批量出货。英伟达凭借高性能AI芯片近乎垄断市场,年利润超5000亿元,市值逼近4万亿美元,有望成为全球市值最高公司。微软推迟自研AI芯片发布,转向过渡性设计方案。微美全息专注AI芯片技术布局,构建多元化技术生态,推动产业协同,成为全球AI芯片竞赛重要参与者。当前AI产业进入大规模商业化关键阶段,算力需求持续高涨,推动企业向算力数智化迁移。消费电子领域,AI赋能传统智能终端,新型智能硬件结合AI创造增量需求,关注算力产业链技术创新配套机遇。

  • 「6月27日AI日报」腾讯开源轻量级混元-A13B模型;可灵AI推“视频音效”功能

    AI日报主要内容: 1. 腾讯开源混元A13B模型,采用MoE架构,总参数量800亿,激活参数130亿,支持低端GPU部署 2. 可灵AI推出"视频音效"功能,实现所见即所听的沉浸体验 3. Black Forest开源图像编辑模型FLUX.1Kontext,支持消费级硬件运行 4. OpenAI发布Deep Research API新模型o3/o4-mini,支持自动化网页搜索和数据分析 5. 小米推出1999元起AI眼镜,集成拍摄、支付、音乐等功能 6. 迅雷推出下载MCP服务,一句话指令让AI自动完成下载任务 7. HeyGen推出AI视频Agent,几分钟内生成专业级视频内容 8. 谷歌开源端侧多模态大模型Gemma3n,手机也能运行云端AI性能