首页 > 原创 > 关键词  > 千问PC端最新资讯  > 正文

AI日报:千问PC端上线AI语音输入;字节发布全模态大模型Doubao-Seed-2.0-lite;谷歌更新AI搜索功能

2026-05-07 15:38 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://app.aibase.com/zh

1、千问PC端上线AI语音输入,各类应用里“开口”直接用

千问PC端上线AI语音输入功能,用户可通过快捷键在各类桌面应用中直接使用,具备强大的语义解析能力,能够处理口语内容并进行结构化整理,同时支持语音指令完成多种办公任务,极大提升了工作效率。

image.png

【AiBase提要:】

🗣️ 千问语音输入支持口语内容去语气词、纠错、格式化整理等,能基于上下文智能回复。

📝 用户可通过语音指令在各类应用中直接使用千问进行创作、问答、翻译等操作。

📧 千问可自动生成邮件回复,适应钉钉、微信或邮件场景,提升办公效率

2、字节跳动发布全模态大模型Doubao-Seed-2.0-lite,AI能听会看还能直接“上手”干活

字节跳动旗下火山引擎发布的Doubao-Seed-2.0-lite大模型,实现了视频、图像、音频与文本的原生统一理解,标志着其在多模态交互领域的重要进展。该模型在视觉与逻辑推理能力上表现突出,尤其在物理、医疗等高阶学科的复杂推理测试中性能超越了之前的Pro版本。此外,它还首次实现了GUI理解与执行的一体化,能够完成点击、拖拽、输入等操作,展现了强大的AI能力。

image.png

【AiBase提要:】

✅ 实现视频、图像、音频与文本的原生统一理解

🧠 在物理、医疗等高阶学科的复杂推理测试中性能超越Pro版本

🖱️ 首次实现GUI理解与执行的一体化,能完成点击、拖拽、输入等操作

3、腾讯发布OpenSearch-VL:开源多模态深度搜索 agent 的“全家桶”方案

腾讯混元联合多所高校发布OpenSearch-VL,这是一个开源的多模态深度搜索智能体方案,通过强化学习技术提升模型能力。文章详细介绍了其创新的数据生产流程、强大的工具环境以及故障感知算法,实验表现优异,已计划全量开源,推动多模态智能体研究发展。

image.png

【AiBase提要:】

🧠 创新数据生产线,克服“搜索捷径”

🛠 强大的工具箱:不仅仅是搜索

🔄 “故障感知”算法:让模型从失败中学习

详情链接:https://arxiv.org/pdf/2605.05185

4、月之暗面申请注册KimiClaw商标 或有硬件大动作?

月之暗面近期提交了多枚“KimiClaw”商标注册申请,涵盖科学仪器、网站服务和通讯服务等多个核心领域,表明其在人工智能生态链上的野心逐步显露。公司成立于2023年,由杨植麟创办,专注于通用人工智能领域,并已获得20亿美元融资,估值有望突破200亿美元。

【AiBase提要:】

🧠 月之暗面申请注册“KimiClaw”商标,涉及科学仪器、网站服务及通讯服务领域。

🚀 公司成立时间短,但已获得20亿美元融资,估值有望突破200亿美元。

🔍 商标布局可能预示公司从软件算法向硬件设备或物理交互产品延伸的野心。

5、Mininglamp 开源 Cider+Mano-P,让你的 Mac 变身私有 AI 工作站

Mininglamp 开源了 Cider 和 Mano-P 两个本地 AI 项目,分别解决 Mac 端侧推理加速和 GUI 智能体操作问题,为用户打造完整的本地 AI 工作站,提升效率并保障隐私安全。

image.png

【AiBase提要:】

🧠 Cider 优化 M 系列芯片性能,提升 LLM/VLM 推理速度和效率。

🖱️ Mano-P 实现纯视觉 GUI 操作,支持复杂桌面任务自动化。

🔒 两大项目结合,构建本地私有 AI 基础设施,保障隐私安全。

6、OpenAI携手硬件巨头发布MRC协议,欲终结GPU闲置浪费

OpenAI携手AMD、英特尔、微软及英伟达等企业推出全新开放网络协议MRC,旨在解决超大规模AI集群的效率瓶颈,提升数据传输稳定性并减少GPU闲置浪费,推动算力集群向更高效、绿色的方向发展。

【AiBase提要:】

🧠 MRC协议旨在优化大型AI训练集群的运行表现,提升数据传输稳定性。

⚡ 通过多路径连接方案降低GPU闲置浪费,提高计算效率。

🌐 OpenAI联合多家行业巨头发布MRC协议,推动超大规模算力集群进入高效、绿色新阶段。

7、谷歌更新AI搜索功能:集成Reddit与社交媒体一手观点

谷歌对其生成式AI搜索功能进行了重大升级,通过整合社交媒体、论坛及新闻订阅等一手信息源,优化用户获取信任资讯的效率。此次更新引入了“观点预览”功能,将Reddit和各类网络论坛的真实在线对话与用户查询直接关联,同时在AI回复中嵌入专家建议,并添加创作者名称和社区昵称以增强信源可靠性。

【AiBase提要:】

🧠 引入“观点预览”功能,将Reddit和网络论坛的真实对话与用户查询直接关联。

📊 在AI回复中嵌入专家建议,并添加创作者名称和社区昵称以增强信源可靠性。

🌐 增设延伸链接和建议主题,鼓励用户从单一搜索向深度研究转变。

8、xAI 发布 Grok Imagine 质量模式 API:视觉生成迈入写实新纪元

xAI 公司正式推出 Grok Imagine API 的“质量模式”,在画面写实度、文字渲染精度和创意控制力方面实现重大突破,标志着图像生成迈入写实新纪元。

【AiBase提要:】

🖼️ 提升图像的细腻程度,捕捉自然的皮肤纹理、毛孔细节以及复杂的光影变化。

✍️ 解决了图像生成模型在处理复杂文本时的字符错误或排版混乱问题。

🚀 增强视频生成能力,品牌方可以更高效地产出社交媒体资产、产品展示短片及各类商业广告。

举报

  • 相关推荐
  • 千问电脑版上线AI语音输入法功能

    千问电脑版正式上线AI语音输入法,全面开放免费使用。用户只需按下快捷键(Windows右Alt键/Mac右Command键),即可在微博、QQ邮箱、PS等桌面应用中直接调用。该功能支持“边想边说、边说边改”,自动去除口语化表达如“嗯”“啊”,并进行纠错和格式化。此外,它还能结合上下文智能回复,支持创作、问答、翻译等指令,如自动生成邮件回复、制作PPT、整理表格或输出Word文档,大幅提升办公效率。

  • 微信PC版大更新:长截图、发语音、表情连发都来了

    微信电脑版4.1.9版本更新,新增滚动长截图功能,用户只需截图后选择滚动截图并滑动鼠标滚轮,即可完整保存长文章。同时支持直接发送语音,点击话筒图标或按Alt键即可说话,快捷键可自定义设置。表情输入也更便捷,选择后按方向键可快速复制发送,无需重复点选。这些实用功能贴近日常需求,更新后即可使用,让办公聊天更省事。

  • AI日报:腾讯发布设计智能体Ardot;千问5月20日将发布重大模型;OpenAI推出ChatGPT个人理财工具

    本期AI日报聚焦八大热点:腾讯发布AI设计平台Ardot,一句话生成可编辑设计稿并一键转代码;通义千问“重量级”大模型将于5月20日阿里云峰会亮相,实现全面升级;AI大模型在基层警务中落地,豆包助力破获柴油盗窃案;Google I/O大会将推出Gemini 4.0等创新产品;索尼澄清Xperia 1XIII的AI相机助手仅提供拍摄建议;OpenAI推出ChatGPT个人理财工具,结合GPT-5.5支持连接银行账户;中国大模型周调用量连续三周超越美国,腾讯Hy3 preview以2.66万亿Token领先;红果短剧回应取消AI仿真人剧本保底传闻,称部分剧本仍保留保底政策。

  • 为Agent而生!阿里云全新AI产品官网千问云上线 模型服务全量 Skill/CLI 化

    今日,在2026阿里云峰会上,阿里云发布为Agent而生的全新AI产品官网千问云”(www.qianwenai.com),提供Qwen、GLM、Kimi、DeepSeek、Wan、HappyHorse等150多款主流模型API ,并将模型服务的核心能力封装为Skills和CLI工具,可让Agent工具高效地用模型和开发AI应用。 据介绍,千问云网站从原子能力到交互逻辑实现了全面重构。 千问云的UI设计以及功能模块更加简洁,在模型选择和模型调用环

  • 人声接近真人!OpenAI一口气更新三款超强语音AI

    OpenAI正式宣布对其实时API接口进行重大升级,一次性推出三款全新高阶语音智能模型,全面强化AI在实时听觉、口语交互、翻译与转录方面的能力,并大幅降低企业开发智能语音应用的技术门槛。 本次更新的核心产品包括:GPT-Realtime-2、实时翻译模型以及实时转写模型。其中,GPT-Realtime-2搭载了GPT-5级别的推理能力,人声仿真度进一步提升。 相比前代产品,它能够更精准地理�

  • 今年6·18,千问淘宝打通,AI电商“摩拳擦掌”

    五月中旬,一年一度的6·18大促正式拉开了帷幕。 在各大电商平台6·18发令枪陆续打响之际,AI电商的核心“战力部署”也陆续浮出水面。 5月11日,阿里巴巴集团官宣,千问与淘宝全面打通。在千问APP端,用户一句话即可完成商品挑选、比价、下单;在淘宝APP端,点击底部“消息”栏中的“千问AI购物助手”入口,即可使用AI试穿、AI省钱、AI帮你买等功能。 过去,用户在电商�

  • 千问与淘宝全面打通:正式上线AI购物功能

    千问与淘宝近日宣布全面打通,正式上线AI购物功能。用户只需一句话,即可完成从商品筛选、对比、下单、支付到查物流、退换货等全流程操作。 具体使用上,用户打开千问App与AI对话,便能完成淘宝平台上的商品挑选、对比及购买;而在淘宝App内,点击“千问AI购物助手”即可体验AI购物,并可使用AI试穿、AI算优惠、AI低价帮抢等功能。 此次上线的核心功能已覆盖全购物场�

  • AI日报:谷歌发布最強模型Gemini 3.5 Flash;阿里云“千问云”上线;苹果AI辅助功能升级

    本期AI日报聚焦六大热点:谷歌发布性能与效率显著提升的Gemini 3.5 Flash模型并免费开放;阿里云推出面向Agent时代的“千问云”平台,重构大模型服务链路;谷歌与三星联合推出两款集成Gemini的智能眼镜;苹果推出Apple Intelligence驱动的AI辅助功能及Vision Pro眼控轮椅;谷歌发布多模态交互模型Gemini Omni;通义实验室发布Qwen3.7-Max模型,采用正交解耦技术,多项评测国内第一。

  • 淘宝把“半条命”交给千问

    ​AI电商,阿里这次动真格的了。 近日,阿里把淘宝和千问打通了。简单来说,一边是用户可以在千问App完成淘宝商品挑选、对比和购买,全程无需跳转;另一边,淘宝也接入了千问,相当于在淘宝APP里嵌入了一个原生AI导购工具。 千问暂且按下不表,单就淘宝而言,为这次打通做出了不小的“让步”。 作为流量入口和交易平台,过去,淘宝一直将交易和流量的主导权紧紧握

  • 快速部署、业务出海、安全远控。向日葵直击企业远程办公三大痛点

    混合办公已成常态,企业面临部署效率低、跨境连接卡顿及安全合规三大挑战。知名品牌“贝锐向日葵”推出“小时级上线、全球化连接、体系化安全”的一站式远程办公方案:三步完成部署,适配主流IM工具;全球超200个节点保障低延迟跨境连接;以“两保一标”(等保三级、通保3级及行业标准)构建全流程安全闭环,采用银行级加密与AI审计,满足国内外最严合规要求。

今日大家都在搜的词: