首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:通义千问开源Qwen3向量模型;字节跳动图像编辑模型SeedEdit 3.0;ElevenLabs推v3语音模型

2025-06-06 16:09 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、通义千问正式发布Qwen3-Embedding系列模型

我作为一名AI助手,对通义千问团队推出Qwen3-Embedding系列模型感到非常兴奋。这款新模型不仅在多语言文本理解和检索任务上表现出色,而且提供了灵活的配置选项和强大的多语言支持,展现了其在文本处理领域的领先地位。

image.png

【AiBase提要:】

📚 Qwen3-Embedding系列基于Qwen3基础模型,提供从0.6B到8B参数规模的三种配置,适用于不同场景下的性能与效率需求。

🌍 支持超过100种语言,具备强大的多语言、跨语言及代码检索能力,采用双塔和单塔结构设计。

🌟 在MTEB多语言榜单中得分70.58,性能超越众多商业API服务,展现卓越的文本表征和排序能力。

详情链接:https://modelscope.cn/collections/Qwen3-Embedding-3edc3762d50f48

2、字节跳动发布图像编辑模型SeedEdit3.0细节保持能力进一步提升

SeedEdit3.0是基于 Seedream3.0开发的图像编辑模型,通过多样化数据融合和专用奖励模型,大幅提升了主体保持、背景细节处理及指令遵循能力,尤其在人像编辑、背景更换和复杂光影处理方面表现卓越。

image.png

【AiBase提要:】

✨ 引入高效数据融合策略与专用奖励模型,显著提升图像编辑保持效果。

🌟 支持4K分辨率编辑,处理复杂场景如人像、光影变换时展现强大细节处理能力。

🚀 推理加速至10秒级,23类编辑任务评测领先,可用率提升至56.1%。

详情链接:https://seed.bytedance.com/seededit

3、地表最强AI语音来了!Eleven v3Alpha版震撼发布,会说话还能‘演戏’

ElevenLabs推出的Eleven v3Alpha版以其卓越的情感表达、多语言支持和自然对话能力成为TTS领域的里程碑,重新定义了文本转语音技术。

【AiBase提要:】

🌟 Eleven v3Alpha版引入音频标签,可精确控制情感、语速并添加音效,使语音更真实且富有表现力。

🌐 支持70多种语言,具备多角色对话能力,适用于影视配音、教育及客户服务等多场景。

🚀 技术升级后,文本理解与对话生成能力显著提升,自动标签功能简化创作流程,助力非专业人士轻松生成高质量语音内容。

4、Anthropic 发布专为国家安全定制的 AI 模型,获亚马逊和谷歌支持

Anthropic 推出 Claude Gov 模型套件,专为国家安全机构设计,增强涉密材料处理能力,获得亚马逊和谷歌战略支持,但面临 Reddit 的法律诉讼。

【AiBase提要:】

🌐 Claude Gov 模型套件专为国家安全机构设计,提升涉密材料处理能力。

🤝 产品获亚马逊和谷歌支持,仅限最高安全许可机构使用。

⚖️ Anthropic 面临 Reddit 提起的法律诉讼,指控其未经授权使用用户数据训练模型。

5、可灵AI月度付费金额连续两个月超1亿元,用户规模破2200万

可灵AI在推出10个月后年化收入运行率突破1亿美元,P端付费订阅会员贡献主要收入,全球用户规模突破2200万。

image.png

【AiBase提要:】

✨ 可灵AI年化收入运行率突破1亿美元,仅10个月达成。

💰 P端付费订阅会员贡献近70%营业收入。

👥 全球用户规模突破2200万,为企业客户提供API服务。

6、Meta发布Aria Gen2技术细节:四摄像头加持,续航8小时挑战苹果Vision Pro

Meta首次全面披露Aria Gen2研究眼镜的技术细节,相比初代产品,它在硬件设计、传感器技术和AI处理能力等方面实现了全面升级。

image.png

【AiBase提要:】

四摄像头加持,全局快门传感器解决运动失真问题,深度测量精度显著提高。

新增接触式麦克风,鼻托内置结构声传导技术,嘈杂环境下仍能清晰拾音。

AI处理能力大幅增强,支持六自由度位置追踪、眼动追踪及3D手部追踪,为未来AR交互奠定基础。

7、爱诗科技PixVerse国内版“拍我AI”正式上线

爱诗科技旗下的PixVerse国内版“拍我AI”正式上线,支持网页端和移动端,并提供API开放平台,大幅降低视频制作成本与时间。

image.png

【AiBase提要:】

拍我AI通过AI特效和WoW发射器助力用户轻松创作个性化视频内容。

国内版支持V4.5版本,提供便捷的视频生成解决方案,满足多种需求。

拍我AI开放平台与多家头部企业合作,为企业用户提供高效视频生成工具。

详情链接:https://pai.video

8、富国银行大胆预测:2030年 ChatGPT 广告收入将达千亿美元

富国银行分析师预测,到2030年ChatGPT将占据全球搜索广告市场30%份额,年收入接近1000亿美元,这将对谷歌的主导地位构成挑战。

【AiBase提要:】

截至2030年,ChatGPT预计占据全球搜索广告市场30%份额,年收入接近1000亿美元。

目前,谷歌在搜索广告领域占据超90%市场份额,但预计到2030年将降至约60%。

ChatGPT的商业化进程可能受到与手机制造商合作及反垄断裁决的推动。

9、王自如感谢董明珠雷军 将以AI测评UP主身份二次创业

知名科技博主王自如宣布复更并更名为‘王自如AI’,专注AI内容创业,助力传统产业数字化转型,同时分享了在格力的经历及对董明珠和雷军的感激。

【AiBase提要:】

🚀6月6日,王自如的B站账号复更并更名为‘王自如AI’,开启AI测评UP主的二次创业。

💼 他曾在格力重塑销售体系,得益于董明珠和雷军的鼓励,怀揣理想继续前行。

💡 选择AI领域创业是因为看到其巨大潜力,认为能快速获得回报。

10、智源发布RoboOS2.0与RoboBrain2.0:首个支持MCP机制的机器人

在北京智源大会上,北京智源人工智能研究院发布了具身智能操作系统RoboOS2.0与大模型RoboBrain2.0,开源推动具身智能生态发展。

【AiBase提要:】

首个支持MCP机制的机器人操作系统RoboOS2.0,降低开发门槛并提升多机器人协作能力。

RoboBrain2.0任务规划准确率提升74%,在空间推理与智能调度方面表现卓越。

已与多家企业合作,共同构建开放、协同的智能机器人生态体系。

11、谷歌重磅新作!Portraits让你与虚拟专家对话,解锁沟通与领导力秘籍

谷歌推出的Portraits是一款基于AI技术的创新产品,用户能与虚拟专家实时互动学习沟通与领导力等技能,具有高度个性化和交互性的特点。

【AiBase提要:】

🌟沉浸式对话学习体验,与虚拟专家互动掌握实用技能。

🌐AI驱动个性化学习,动态调整内容确保针对性。

🌍应用场景广泛,从职场到教育,助力个人与职业发展。

12、OpenAudio 发布开源 TTS 模型 S1-Mini:0.5B 参数打造超自然 AI 语音

Fish Audio 推出基于 S1模型的轻量化版本 S1-Mini,参数仅0.5B,却具备高表现力和多语言支持,开源后大幅降低开发门槛,为教育、娱乐等领域带来创新可能。

image.png

【AiBase提要:】

🌟 轻量化设计:0.5B 参数,适配边缘设备,支持14种语言与50+情感表达。

🌐 开源赋能:免费下载,降低开发门槛,促进全球技术普及与创新。

🚀 性能卓越:媲美行业巨头,尤其在多语言和复杂对话场景表现突出。

详情链接:https://huggingface.co/fishaudio/openaudio-s1-mini

13、AI驱动本地视频编辑工具Diffusion Studio Pro,号称“CapCut + Cursor”结合

AI驱动的视频编辑工具Diffusion Studio Pro正式亮相,以其强大的AI功能和本地化设计受到广泛关注。它结合了CapCut和Cursor的优势,提供多模态AI赋能的非线性编辑体验,同时支持免费使用,极大降低了创作门槛。

【AiBase提要:】

🌟 多模态AI赋能非线性编辑,内置智能代理侧边栏实现自动化工作流,显著提升创作效率。

🔒 本地优先设计保护隐私,免费无限层级模式吸引独立创作者和小型团队。

🌍 支持广泛应用场景,从短视频到专业制作,提供从创意到上线的全链条支持。

14、智源研究院推出Emu3等‘悟界’系列大模型

在第七届‘北京智源大会’上,智源研究院发布了‘悟界’系列大模型,包括Emu3、见微 Brainμ、RoboOS2.0、RoboBrain2.0和OpenComplex2,涵盖多模态智能技术,推动人工智能应用落地。

【AiBase提要:】

🚀 Emu3作为原生多模态世界模型,整合视觉、听觉和触觉数据,提升机器对世界的理解能力。

🧠 见微 Brainμ结合神经科学成果,为机器智能发展提供生物学支持。

🤖 RoboOS2.0和RoboBrain2.0推动具身智能协作框架,加速机器人技术进步。

15. Luma Labs 发布 Modify Video:AI 视频后期一键改风格、换场景

Luma Labs 推出 Modify Video 工具,利用 AI 技术简化视频后期制作,实现风格重塑、场景替换等功能。

【AiBase 提要:】

🌟 风格重塑:通过文本改变视频艺术风格。

🌍 场景替换:将背景换为新的场景,增强视觉效果。

🎭 角色编辑:调整人物外观和表演,无需重新拍摄。

举报

  • 相关推荐
  • AI日报:阿里通义千问Qwen3问鼎全球开源模型;Kimi长思考模型API发布;OpenAI发布新一代GPT-4.1模型

    【AI日报】汇总了近期AI领域重要动态:1)阿里通义千问3开源模型上线7天即登顶全球开源模型榜首,在指令遵循和推理能力上超越闭源模型;2)月之暗面推出Kimi长思考模型API,可解决复杂代码和数学问题;3)OpenAI发布GPT-4.1模型,性能提升显著;4)Google推出Gemini2.5Pro模型,提升开发者编码能力;5)联想发布"天禧超级智能体",具备多模态感知能力;6)腾讯元宝上线"对话分

  • AI日报DeepSeek入选2025年度十大IP;快手推出AI作图工具 Poify;字节跳动开源代码模型Seed-Coder

    本文介绍了AI领域多项最新进展:1)快手推出电商AI作图工具Poify,提升商品展示效率;2)字节跳动开源8B参数代码模型Seed-Coder,展现强大编程能力;3)DeepSeek App入选2025全球十大IP;4)Claude AI新增网页搜索功能;5)苹果发布移动端视觉语言模型FastVLM;6)腾讯推出3D形状生成框架PrimitiveAnything;7)首个智能文档处理基准发布;8)谷歌Gemini2.5Pro实现6小时视频理解;9)研究显示简洁提问易致AI错误;10)首款AI智能浏览器Fellou发布;11)NVIDIA推出音频生成技术Audio-SDS;12)Kimi入驻小红书,转向内容深耕。这些创新展现了AI在电商、编程、多模态理解等领域的快速发展。

  • AI日报:阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • AI日报DeepSeek开源新版R1-0528;字节发布图像Agent小云雀AI;可灵2.1重磅上线

    本期AI日报聚焦多项AI领域突破:1)DeepSeek发布R1-0528模型,支持128K上下文且性能媲美GPT-4;2)字节推出"小云雀AI"图像创作工具;3)可画2.1版本价格降65%性能提升;4)Opera发布全球首款AI浏览器Neon;5)Meta推出多模态空间理解模型;6)北大团队研发ZeroSearch框架降低大模型训练成本88%;7)字节推出AI视频剪辑应用"剪小映";8)MotionPro实现40ms/帧精准视频控制;9)xAI与Telegram达成3亿美元合作部署Grok聊天机器人;10)OpenAI重组架构为IPO铺路;11)像素蛋糕"方糖大模型"获国内首个影像行业备案;12)Paper2Poster实现论文自动转海报;13)Resemble AI开源TTS模型性能比肩ElevenLabs;14)蚂蚁集团开源对标GPT-4o的多模态模型Ming-lite-omni。

  • AI日报:谷歌最强AI全家桶Google AI Ultra;腾讯混元宣布模型矩阵全面升级;豆包·语音播客模型发布

    本文汇总了近期AI领域的重要动态:1)谷歌推出249.99美元/月的AI Ultra订阅计划,提供最强AI模型和高级功能;2)腾讯混元模型升级,新增视觉推理T1-Vision和语音对话模型;3)美图获阿里2.5亿美元投资,将在电商和AI领域合作;4)豆包推出语音播客模型,实现文本快速转音频;5)百度文心X1 Turbo获信通院最高评级;6)谷歌发布Flow AI剪辑工具,集成Veo3等三大模型;7)谷歌Veo3支持4K视频生成;8)Imagen4图像模型发布;9)Gemini2.5 Pro新增并行推理功能;10)谷歌推出虚拟试衣工具;11)公测AI编程助手Jules;12)苹果计划在iOS19开放AI模型;13)京东云推五大免费AI营销工具;14)字节开源多模态模型BAGEL;15)英伟达发布物理推理模型Cosmos-Reason1。

  • AI日报:昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

    本文介绍了AI领域最新动态:1)昆仑万维推出全球首款AI+Agent架构的Office智能体应用;2)研究显示ChatGPT能提升K12学生成绩近87%;3)谷歌视频生成工具Veo3扩展至更多地区;4)谷歌发布三款Gemma模型变体,覆盖医疗、手语翻译和海豚语言研究;5)VideoTutor实现一句话生成定制教学视频;6)字节跳动开源多模态模型BAGEL;7)Rork支持无代码开发iOS/Android应用;8)AingDesk降低AI助手开发门槛;9)Claude4登陆亚马逊Bedrock平台;10)Youware通过MCP协议提升网页生成能力。这些创新展示了AI技术在各领域的快速发展和应用潜力。

  • 仅用三张图像即可生成 3D 场景,苹果新 AI 模型“很惊人”

    只需三张输入图像,Matrix3D 就能生成物体、甚至整个环境的详细 3D 重建,这显然可以为 Apple Vision Pro 等沉浸式头显带来非常有趣的应用……

  • AI日报:GPT-4.1正式上线ChatGPT;阿里通义万相Wan2.1-VACE开源;可灵大模型视频生成量约占30%份额

    本文报道了AI领域最新动态:1)阿里通义万相开源视频编辑统一模型VACE;2)OpenAI发布GPT-4.1增强编码能力;3)Stability AI推出超轻量341M文字转语音模型;4)快手可灵视频生成模型占据30%市场份额;5)微软WizardLM团队整体加入腾讯混元大模型研发体系;6)腾讯宣布混元图像2.0将于5月16日发布;7)上海成立人工智能标识生态联盟;8)Lightricks发布13B参数视频生成模型LTX-Video;9)谷歌DeepMind推出AlphaEvolve优化AI训练速度;10)腾讯元宝浏览器插件上线Chrome平台。这些进展展示了AI技术在视频处理、大模型、语音合成等领域的快速发展。

  • AI日报:阿里云通义灵码AI IDE上线;小米多模态大模型Xiaomi MiMo-VL开源;黑森林实验室推出FLUX.1Kontext

    【AI日报】今日AI领域重要动态:1)阿里云推出通义灵码AI IDE,集成千问3模型,显著提升编程效率;2)小米开源多模态大模型MiMo-VL-7B,性能超越更大规模闭源模型;3)黑森林实验室发布FLUX.1Kontext图像生成模型,支持文本和参考图像多次编辑;4)Midjourney V7渲染速度提升40%,新增用户投票功能;5)DeepSeek R1-0528大模型在AGI领域取得突破,性能超越xAI等公司;6)Hugging Face进军机器人市场,推出开源人形机器人HopeJR;7)字节跳动火山方舟接入DeepSeek最新大模型;8)Anthropic开源"电路追踪"工具,揭示大模型决策过程;9)阿里巴巴开源自主搜索AI智能体WebAgent;10)Hume发布低延迟语音语言模型EVI3;11)Manus Slides支持一键生成专业幻灯片;12)Runway Gen-4 References支持手机照片艺术化处理。

  • AI日报:Anthropic最强编码AI模型Claude4;苹果计划AI智能眼镜;QQ浏览器上线首个高考Agent

    【AI日报】今日AI领域重要动态:1)Anthropic发布Claude4系列AI模型,编程能力超越竞争对手;2)苹果计划2026年推出集成AI技术的智能眼镜;3)字节跳动与清华合作推出时序多模态大模型ChatTS;4)3DTown框架实现单张照片生成逼真3D场景;5)OpenAI秘密开发无屏幕AI设备;6)商汤科技推出儿童AI下棋机器人;7)微软记事本新增AI写作功能;8)深圳设立70亿元基金支持AI硬件初创企业;9)谷歌发布3D视频通信平台Beam;10)阿联酋推出"星际之门"计划,免费提供ChatGPT服务;11)法国Mistral推出开源模型Devstral;12)Anthropic API新增四大功能;13)美国众议院通过法案限制各州监管AI;14)QQ浏览器推出高考AI助手。