AI日报：百度搜索11%结果由AI生成；腾讯混元支持生成16s视频；谷歌发布开源视觉语言模型PaliGemma；Hugging Face承诺免费提供1000万美元GPU计算资源

2024-05-17 15:26 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://top.aibase.com/

1、李彦宏：百度搜索已有11%结果由AI生成

在百度2024年第一季度财报电话会上，百度创始人李彦宏深入探讨了公司的业务表现和未来发展方向，强调人工智能技术对用户体验的推动和创新。尽管面临宏观经济挑战，百度仍致力于发展人工智能领域，取得成果并对未来充满信心。

【AiBase提要:】
💡 百度一季度在线营销收入同比增长3%，得益于搜索业务成熟。
💡 11%搜索结果通过生成式人工智能技术计算，提供更准确、有条理的答案，拓展用户任务完成能力。
💡 百度在人工智能领域持续投入，尚未商业变现，但对长期前景充满信心。

2、谷歌发布开源视觉语言模型PaliGemma

谷歌推出了开源视觉语言模型PaliGemma，结合图像处理和语言理解能力，支持多种视觉语言任务。该模型具有多任务支持、30亿参数规模和SigLiP视觉编码器与Gemma语言模型结合的特点。谷歌的贡献推动了AI领域发展，为研究人员和开发者提供强大工具。PaliGemma的开源特性意味着可以被广泛使用、改进和集成到各种产品和服务中。

【AiBase提要:】
✨ 多任务支持: PaliGemma能处理多种视觉语言任务，应用场景广泛。
🔑 参数规模: 包含30亿参数，是大型多模态模型。
💡 模型架构: 结合了SigLiP视觉编码器和Gemma语言模型，处理图像和文本输入。
详情链接:https://huggingface.co/blog/paligemma

3、腾讯混元大模型支持生成16s视频并推出AI智能体平台腾讯元器

我对腾讯在生成式AI领域的最新成果——腾讯元器以及混元大模型的展示感到印象深刻。腾讯元器是一站式的AI智能体创作与分发平台，为企业提供了全新的解决方案，极大地扩展了智能体的应用范围和影响力。腾讯混元大模型在视频生成和3D生成领域展现出强大的实力，为未来的AI应用开辟了新的可能性。

【AiBase提要:】
🚀 腾讯元器是一站式的AI智能体创作与分发平台，为企业提供全新解决方案，扩展了智能体的应用范围和影响力。
💡 腾讯混元大模型参数规模达到万亿级别，采用混合专家模型（MoE）结构，在国内技术水平处于顶尖，并在某些中文能力方面与GPT-4相媲美。
🎥 腾讯混元大模型支持多种视频生成方式，包括文生视频、图生视频、图文生视频和视频生视频，已能够生成长达16秒的视频，同时展现了在3D生成领域的强大实力。
详情链接:https://top.aibase.com/tool/tengxunyuanqi

4、ChatGPT增强数据分析功能，实现与数据表格的实时交互

ChatGPT最近推出了一系列改进的数据分析功能，包括文件上传、实时表格交互、定制和下载演示图表以及安全与隐私保护。这些功能的增强进一步扩展了ChatGPT在数据分析和可视化方面的能力，使其成为一个更加强大的工具，能够帮助用户更有效地处理和分析数据，从而做出更明智的决策。

【AiBase提要:】
📂 文件上传: 用户可以直接从Google Drive和Microsoft OneDrive上传文件，提高处理Google Sheets、Docs、Slides以及Microsoft Excel、Word和PowerPoint文件的效率。
📊 实时表格交互: ChatGPT能够创建交互式表格，用户可以全屏查看并实时跟踪更新，深入分析数据或跟进问题。
🔒 安全与隐私: ChatGPT Team和Enterprise客户数据不会用于模型训练，Plus用户可选择退出训练，保障数据安全和隐私。
详情链接:https://openai.com/index/improvements-to-data-analysis-in-chatgpt/

5、周鸿祎称留给谷歌的时间不多了建议所有产品开源对抗OpenAI

周鸿祎在谷歌I/O大会上对谷歌发布的创新产品进行了深度点评，认为谷歌应将所有产品开源以对抗竞争对手。他建议谷歌应充分发挥自身优势，关注应用场景并在安卓系统中推广，以获取数十亿用户。通过用户数据反馈推动产品改进的飞轮。

【AiBase提要:】
🔍 谷歌应将所有产品开源以应对竞争对手挑战
💡 谷歌应充分发挥搜索、Chrome浏览器和安卓等优势，关注应用场景并推广
📈 通过用户数据反馈推动产品改进的飞轮

6、Google Photos将推出Ask Photos功能动动嘴就能搜索照片和视频

Google Photos即将推出名为Ask Photos的实验性功能，利用AI模型Gemini，用户可以通过自然语言搜索查找照片和视频，辅助完成相关任务。这将进一步增强Google Photos的搜索能力，让用户更便捷地管理他们的珍贵回忆，享受个性化体验。功能预计将在未来几周内推出。

【AiBase提要:】
🔍 自然语言搜索: 用户可以通过自然语言问题搜索照片和视频，无需记住具体关键词或拍摄日期。
🧠 上下文理解和细节提取: Gemini AI模型能理解照片上下文和主题，提取细节信息。
🔄 动态调整和学习: Ask Photos可以根据用户反馈进行动态调整和学习，提供更准确的结果。
详情链接:https://blog.google/products/photos/ask-photos-google-io-2024/

7、OpenAI与Reddit合作，将用户生成独特内容整合至ChatGPT

OpenAI与Reddit宣布战略合作，旨在彻底改变在线社区互动体验和推动AI创新。这一合作将为用户带来全新的体验，同时也为AI和社交媒体融合创造新的可能性。

【AiBase提要:】
⭐ 合作旨在整合先进的AI功能和用户生成的独特内容，提升ChatGPT等AI工具的理解和展示能力。
⭐ Reddit向OpenAI开放Data API，使后者能够获取Reddit社区生成的丰富内容，推出个性化内容推荐等AI功能。
⭐ 合作标志着社交媒体和人工智能融合的重要里程碑，为用户和版主带来全新的体验。

8、Hugging Face承诺免费提供1000万美元GPU计算资源，帮助小型开发者对抗大型AI公司

Hugging Face承诺投入1000万美元的GPU计算资源，旨在降低开发AI应用的门槛，对抗人工智能领域的中心化趋势。通过分享计算资源，使每个人都能够使用先进的人工智能技术。

【AiBase提要:】
🔸 Hugging Face投入1000万美元GPU计算资源，支持小型开发者
🔸 旨在降低AI应用开发门槛，抗衡科技巨头
🔸 通过ZeroGPU项目免费共享GPU计算资源，提高成本效益和能源效率

9、OpenAI CEO：GPT-5会很特别可能类似于一个 “虚拟大脑”

在接受采访中，OpenAI CEO透露了关于GPT-4o和GPT-5的信息，揭示了这些多模态大模型的特点和应用前景。GPT-4o具有跨文本、视频、音频推理能力，低延迟和拟人化声音特点，将带来前所未有的用户体验。而GPT-5被描述为一种非常特别的产品，可能会采用新的名称和功能，更像是一种能处理各种任务的虚拟大脑。

【AiBase提要:】
🔹 GPT-4o是多模态大模型，具有跨文本、视频、音频推理能力，低延迟和拟人化声音特点，提升工作效率和生活质量。
🔹 GPT-4o可在一个平台上完成多种任务，如实时翻译、语音交互和视频分析，带来巨大改变，特别适用于开发人员和专业人士。
🔹 GPT-5被描绘为一种“虚拟大脑”，能够帮助用户处理各种任务，是一次巨大的尝试，展示了OpenAI在人工智能领域的创新和突破。

10、马斯克旗下 xAI 与甲骨文接近达成 100 亿美元协议

马斯克旗下的 xAI 公司与甲骨文接近达成100亿美元协议，将成为甲骨文最大客户之一。这一举动将加速 xAI 在人工智能领域的发展，提升其竞争力。

【AiBase提要:】
💰 马斯克的 xAI 计划投资100亿美元租用甲骨文的 AI 服务器，成为甲骨文最大客户之一。
🚀 xAI 正在进行60亿美元的股权融资，以支付云计算服务成本，提升 Grok 模型的性能和效率。
💡 马斯克计划通过融资加速 GPU 租赁扩张，目标是在2025年前达到10万个 GPU。

11、腾讯混元将发布大模型C端App腾讯元宝

腾讯在腾讯云生成式AI产业应用峰会上宣布将推出面向C端用户的全新App“腾讯元宝”，背后搭载着超万亿参数规模的通用大语言模型——混元大模型。该模型展现出卓越的中文理解、创作、逻辑推理和任务执行能力，为用户带来高效经济的智能体验。

【AiBase提要:】
🚀 腾讯元宝是基于腾讯混元大模型的全新App，展现出超强的中文理解和创作能力。
💡 腾讯混元采用混合专家模型（MoE）结构，大幅提升了性能，降低了推理成本，为用户带来更高效的体验。
💬 腾讯混元在文本生成、数理逻辑和多轮对话等关键领域达到业界领先水平，为中文用户提供前所未有的智能体验。

（举报）

相关推荐

关键词：

百度搜索

荐AI日报：昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

本文介绍了AI领域最新动态：1)昆仑万维推出全球首款AI+Agent架构的Office智能体应用；2)研究显示ChatGPT能提升K12学生成绩近87%；3)谷歌视频生成工具Veo3扩展至更多地区；4)谷歌发布三款Gemma模型变体，覆盖医疗、手语翻译和海豚语言研究；5)VideoTutor实现一句话生成定制教学视频；6)字节跳动开源多模态模型BAGEL；7)Rork支持无代码开发iOS/Android应用；8)AingDesk降低AI助手开发门槛；9)Claude4登陆亚马逊Bedrock平台；10)Youware通过MCP协议提升网页生成能力。这些创新展示了AI技术在各领域的快速发展和应用潜力。

人工智能移动办公 AI应用
荐AI日报：美团AI编程工具NoCode将上线；火山引擎发布MCP Servers；腾讯混元上线游戏视觉生成平台

本文汇总了近期AI领域的重要动态：1)美团将推出对话式编程工具"NoCode"；2)火山引擎发布大模型生态平台MCP Servers；3)B站开源动画视频生成模型Index-AniSora；4)字节跳动升级AI耳机Ola Friend的英语学习功能；5)GitHub推出AI编程助手自动修复代码漏洞；6)腾讯混元上线游戏视觉生成平台；7)微软将VS Code转型为开源AI编辑器；8)Windows 11原生支持MCP协议；9)Anthropic发布AI代理开发指南；10)谷歌推出编程AI代理Jules；11)NotebookLM推出iOS版；12)Genspark创3600万美元ARR纪录；13)Bright Data发布开源MCP服务器；14)马斯克宣布Grok模型将登陆Azure平台。这些进展展示了AI技术在编程、内容生成、操作系统等领域的快速发展和应用创新。

人工智能 AI产品编程工具
对标Sora！谷歌发布AI视频生成器Veo 3：可同时生成视频和音效

谷歌在I/O开发者大会上发布第三代视频生成模型Veo+3，对标OpenAI的Sora。该模型不仅能基于文本和图像生成高质量视频，还能为人物对话、鸟鸣等场景自动匹配音效，实现更逼真的视听体验。目前Veo+3面向美国Gemini Ultra订阅用户，月费249.99美元，并将纳入企业级Vertex AI平台。谷歌同期还发布了升级版图像模型Imagen 4、电影制作工具Flow等AI产品。值得注意的是，谷歌在AI图像生成领域并非一帆风顺，此前Imagen 3曾因生成含历史错误的图像引发争议。

谷歌视频生成模型 Veo
DeepSeek更新R1推理AI模型，已发布Hugging Face

更新后的 R1 拥有 6850 亿个参数，体量庞大。由于模型规模极大，普通消费者级别的硬件很可能无法直接运行。

DeepSeek DeepSeekR1大模型 DeepSeekR1
百度一定可以改变世界！李彦宏宣布：未来5年再为社会培养1000万AI人才

百度创始人李彦宏宣布未来5年将培养1000万AI人才。此前百度2020年提出的500万AI人才培养计划已提前完成，现推出"百度人才培养星河计划"再造500万人才。今年百度还计划开放21000个实习岗位，并推出三大实习专项计划，让学生参与核心产品研发。李彦宏表示百度在AI各层面都有领先产品，这是全体员工共同努力的结果，对未来发展充满信心。

百度 AI人才培养李彦宏
荐AI日报：谷歌推最强AI全家桶Google AI Ultra；腾讯混元宣布模型矩阵全面升级；豆包·语音播客模型发布

本文汇总了近期AI领域的重要动态：1)谷歌推出249.99美元/月的AI Ultra订阅计划，提供最强AI模型和高级功能；2)腾讯混元模型升级，新增视觉推理T1-Vision和语音对话模型；3)美图获阿里2.5亿美元投资，将在电商和AI领域合作；4)豆包推出语音播客模型，实现文本快速转音频；5)百度文心X1 Turbo获信通院最高评级；6)谷歌发布Flow AI剪辑工具，集成Veo3等三大模型；7)谷歌Veo3支持4K视频生成；8)Imagen4图像模型发布；9)Gemini2.5 Pro新增并行推理功能；10)谷歌推出虚拟试衣工具；11)公测AI编程助手Jules；12)苹果计划在iOS19开放AI模型；13)京东云推五大免费AI营销工具；14)字节开源多模态模型BAGEL；15)英伟达发布物理推理模型Cosmos-Reason1。

人工智能 AI产品技术趋势
荐AI日报：昆仑万维天工超级智能体发布；OpenAI核心API支持MCP；百度飞桨PaddleOCR 3.0开源

【AI日报】汇总了近期AI领域重要动态：1)百度飞桨发布PaddleOCR3.0，提升文字识别精度13%；2)昆仑万维发布天工超级智能体，AI办公成本仅为OpenAI的40%；3)OpenAI API新增MCP支持简化开发流程；4)xAI推出实时网页搜索API；5)谷歌Sparkify可将问题秒变动画；6)Mistral发布高效代码模型Devstral；7)Video Ocean推出4K视频生成工具；8)谷歌推出AI内容识别工具SynthID；9)谷歌NotebookLM使用量半年增长56%；10)硅基流动升级128K长文本模型；11)DeepMind发布音乐生成模型Lyria2；12)多模态大模型MMaDA实现跨模态推理；13)微软发布网页智能体Magentic-UI；14)Framer推出AI建站套件。

人工智能 OCR技术文字识别
荐这个新风口来了：用AI“点石成金”，有商家单月卖出1000万

“中国家长对AI玩具的热情很高，它处于一个新品类的红利期。”儿童早教品牌火火兔创始人李鑫介绍，其今年推出的搭载自研大模型的“AI早教机器人”，售价359元，已经卖出近1万台。在六一儿童节，玩具再次成为消费热词，而AI玩具正在成为一个新风口。它被视为在这场声势浩大的“AI+”浪潮中，最有可能落地的方向之一。自2024年下半年以来，这条赛道上已经跑出了多�

AI玩具儿童早教消费热潮
腾讯混元上线“游戏工业级”视觉生成平台：效率最高提升数十倍！

腾讯5月20日发布混元游戏视觉生成平台，该平台基于混元大模型打造，专为游戏行业内容生产设计。平台能快速生成高质量游戏素材和概念草图，支持多种主流游戏风格，实现创作闭环。通过AI技术，可将整套流程压缩至一个工作页面，用户只需输入提示词即可获得灵感参考图，并直接绘制草图和生成标准三视图及360度旋转演示视频，效率最高提升数十倍。平台还具备角色多视图自动生成能力，上传一张正面图即可自动生成标准三视图和360度展示视频，角色一致性最高达99%。腾讯表示，该平台将显著改善灵感迟滞、多视图缺失等常见问题。

腾讯混元游戏 AI内容引擎
荐AI日报：GPT-4.1正式上线ChatGPT；阿里通义万相Wan2.1-VACE开源；可灵大模型视频生成量约占30%份额

本文报道了AI领域最新动态：1)阿里通义万相开源视频编辑统一模型VACE；2)OpenAI发布GPT-4.1增强编码能力；3)Stability AI推出超轻量341M文字转语音模型；4)快手可灵视频生成模型占据30%市场份额；5)微软WizardLM团队整体加入腾讯混元大模型研发体系；6)腾讯宣布混元图像2.0将于5月16日发布；7)上海成立人工智能标识生态联盟；8)Lightricks发布13B参数视频生成模型LTX-Video；9)谷歌DeepMind推出AlphaEvolve优化AI训练速度；10)腾讯元宝浏览器插件上线Chrome平台。这些进展展示了AI技术在视频处理、大模型、语音合成等领域的快速发展。

人工智能视频编辑开源项目

热文

3 天
7天

1

iOS26的这五大“新功能”，我在安卓机上已经用了好几年！

AI日报：百度搜索11%结果由AI生成；腾讯混元支持生成16s视频；谷歌发布开源视觉语言模型PaliGemma；Hugging Face承诺免费提供1000万美元GPU计算资源

荐AI日报：昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

荐AI日报：美团AI编程工具NoCode将上线；火山引擎发布MCP Servers；腾讯混元上线游戏视觉生成平台

对标Sora！谷歌发布AI视频生成器Veo 3：可同时生成视频和音效

DeepSeek更新R1推理AI模型，已发布Hugging Face

百度一定可以改变世界！李彦宏宣布：未来5年再为社会培养1000万AI人才

荐AI日报：谷歌推最强AI全家桶Google AI Ultra；腾讯混元宣布模型矩阵全面升级；豆包·语音播客模型发布

荐AI日报：昆仑万维天工超级智能体发布；OpenAI核心API支持MCP；百度飞桨PaddleOCR 3.0开源

荐这个新风口来了：用AI“点石成金”，有商家单月卖出1000万

腾讯混元上线“游戏工业级”视觉生成平台：效率最高提升数十倍！

荐AI日报：GPT-4.1正式上线ChatGPT；阿里通义万相Wan2.1-VACE开源；可灵大模型视频生成量约占30%份额

热文

iOS26的这五大“新功能”，我在安卓机上已经用了好几年！

苹果研究发现：AI 模型在遇到复杂难题时会“崩溃放弃”

王自如：在格力工资是以前几分之一有公开资料可查

苹果举行WWDC 25开发者大会 iOS 26更新汇总

iOS26的这五大“新功能”，我在安卓机上已经用了好几年！

苹果公布 Intel Mac 支持终止时间表，Rosetta 2 也将逐步淘汰

苹果全新AirTag即将推出：将有这几点提升

格力否认董明珠孟羽童直播是策划：就是一次很自然的会面

站长商机