AI视野：百度推千帆SDK开源版本；美图推出“AI封面”功能；支付宝上线AI写真功能；三星发布生成式AI模型

2023-11-08 14:19 · 稿源：站长之家

🤖📈💻💡大模型动态

百度智能云千帆大模型平台推出千帆SDK开源版本

百度智能云升级推出免费开源的千帆SDK，包括数据集管理、模型训练、模型评估、服务部署等功能，助用户轻松构建大语言模型应用。

具体操作指引可点击链接查看:

https://github.com/baidubce/bce-qianfan-sdk/blob/main/cookbook/console-finetune/console-finetune.ipynb

【AiBase提要:】
🌟 升级免费SDK:百度智能云推出千帆SDK，全面开源，提供从数据管理到模型应用的全流程支持。
🚀 多功能应用:SDK支持对话补全、续写补全、语义向量等多种应用，助力用户开发大型语言模型应用。
📚 丰富资源:SDK提供实践案例、应用场景的cookbook，扩展了大语言模型应用的基础能力。

三星发布生成式AI模型Samsung Gauss

三星于2023年11月7日首次公开发布了生成式AI模型Samsung Gauss，旨在将其应用于未来的产品，包括语言、代码和图像模型，提高工作效率和用户体验。

【AiBase提要:】
🔹 三星首次公开发布生成式AI模型Samsung Gauss，用于未来产品。
🔹 Samsung Gauss包括语言、代码和图像模型，提高工作效率和设备控制。
🔹 三星致力于通过自己的AI红队确保AI的安全使用，保护消费者隐私。

思谋科技发布全球首个工业多模态大模型 IndustryGPT V1.0

思谋科技发布了全球首个工业多模态大模型 IndustryGPT V1.0，具备深度行业洞察和精炼数据，可应对制造业问题、识别工业缺陷，并与跨国企业合作推动智能制造进入新时代。

AiBase提要:
1. 🚀 思谋科技发布全球首个工业多模态大模型 IndustryGPT V1.0。
2. 🏭 这一大模型通过深度行业洞察和精炼数据，解答制造业问题、识别工业缺陷，并提供决策支持。
3. 🤝 思谋科技与跨国企业签署战略合作协议，共同推动全球工业制造进入智能时代。

🤖📱💼AI应用

美图旗下开拍APP推出“AI封面”功能

美图旗下开拍APP推出“AI封面”功能，利用智能生成技术根据图片和文案，帮助视频创作者更高效地制作爆款封面，包括图文生成和视频生成封面，同时支持文案润色。

微信截图_20231108113216.png

【AiBase提要】:
1. “AI封面”是美图公司推出的功能，可以根据图片和文案智能生成视频封面，提高视频创作者的创作效率。
2. 用户只需上传照片和输入封面文案，系统即可生成十款爆款封面，并支持智能优化字体颜色、边框等，满足个性化需求。
3. 对于不擅长写封面文案的创作者，该功能还提供AI文案润色服务，降低了封面制作门槛。

支付宝上线新功能:免费生成AI写真还可导出高清图

支付宝推出免费AI写真功能，用户可生成多种风格的照片，还支持导出高清图，并允许指定生成不同性别的自己。

支付宝上线新功能：免费生成AI写真还可导出高清图

【AiBase提要】
💡 支付宝新增AI写真功能，限时免费，每日登录可获得10张胶片，1张可生成4张写真。
💡 用户可选择不同风格的写真，包括古风、杂志风、航天员风格等。
💡 支付宝AI写真支持导出高清图，但保存1张照片需要扣除3张胶片。

Google Performance Max推生成式AI广告工具

Google最近推出的Performance Max将AI生成技术引入广告领域，帮助广告商生成高质量的广告内容，包括标题、描述和图像，提供更多的自定义选择和创意自由度。

【AiBase提要:】
🚀 Google Performance Max引入生成式AI广告工具，帮助广告商轻松创建高质量广告内容。
📝 广告代理和企业可以使用文本提示迭代生成广告，提高广告效果，同时避免生成相同的广告元素。
📷 AI驱动的图片编辑功能提供广告资源的图片部分编辑，提高广告吸引力，并简化创意审查流程。

PopSockets推AI定制工具支持用户定制手机壳

智能手机外壳和配件制造商PopSockets推出AI定制工具，使用大型模型引擎，让用户个性化手机壳、手柄和钱包，并奖励最佳AI艺术作品。这一创新利用人工智能技术，提供更多创意可能性。

【AiBase提要】
1. PopSockets的AI定制工具基于大型模型引擎，允许用户个性化手机配件。
2. PopSockets举办竞赛，奖励最佳AI艺术作品，推动创造性。
3. 使用PopSockets Customizer AI，用户可以轻松创建专业照片，为产品添加文本或贴纸，提供独特的设计体验。

Plai Labs推文本到视频生成器PlaiDay

Plai Labs最新推出的PlaiDay是一款文本到视频生成工具，允许用户通过上传自拍照片并输入一些文字，生成个性化的短视频，基于AI平台Orchestra的技术开发。

地址:https://plaiday.io/app/

【AiBase提要】:
📌 Plai Labs推出PlaiDay工具，允许用户生成个性化短视频。
📌 Orchestra平台支持合作和连接的AI工具，不仅限于艺术创作。
📌 Plai Labs的技术为各行业提供AI应用，拓宽了AI技术的应用范围。

📰🤖📢AI新鲜事

B站UP主用“弱智吧”测试AI智商整活视频获赞超71万

B站UP主“精致的男孩富贵”展示国内大型语言模型的智商测试，通过提出毫无逻辑的问题来考察人工智能的智能水平。结果显示大型语言模型在逻辑推理方面存在明显不足。视频获得超过71.1万的播放量和6.6万的点赞。

【AiBase提要:】
1. B站UP主测试大型语言模型智商，以“弱智吧”问题考察人工智能。
2. 人工智能在面对无逻辑问题时表现出逻辑能力的不足。
3.通过数据和算法改进，人工智能的推理和决策能力有望提高。

AI一分钟演绎普通女孩的一生抖音获赞353.8万

抖音博主“Mae”的视频《大多数普通女孩的一生》在一分钟内温暖展示了女孩从出生、上学、工作、结婚、怀孕、生子、退休的生命历程，获得353.8万点赞，23.8万网友评论，收藏转发数超264万。

【AiBase提要:】
🎥 视频温暖展现女孩一生:抖音博主“Mae”的视频在短短一分钟内生动展示了女孩的成长经历。
👍 社交媒体成功:该视频获得了超过350万点赞和数十万评论，触动了众多网友。
🤖 AI技术应用:视频反映了AI技术的快速发展，博主还制作了其他类似视频，受到欢迎。

Adobe回应有关AI生成加沙爆炸图像的争议

Adobe在拜登总统关于AI潜在社会危害的讲话后，对未标记为AI生成的加沙爆炸图像争议进行了回应。

【AiBase提要:】
💬 Adobe回应争议:Adobe就涉及未标记为AI生成的加沙爆炸图像争议发布声明，强调其库存图像标记要求。
🖼️ 图像争议引发抵制:澳大利亚媒体报道此图像，引发社交媒体上的抵制浪潮，涉及Adobe Stock上的其他逼真加沙图像。
👥 平台受到影响:争议导致库存图像贡献者担忧，认为涌入的生成AI图像损害了Adobe Stock平台，Adobe强调尊重第三方权利。

微软将租用Oracle的GPU超级集群以满足Bing Chat的GPU需求

微软计划将Bing搜索中的机器学习模型部分迁移到Oracle的GPU超级集群，以满足Bing Chat生成式AI聊天机器人的高需求，加强其AI服务。

【AiBase提要:】
🔸 微软与Oracle合作将Bing搜索中的机器学习模型部分迁移到GPU超级集群，以支持Bing Chat的高GPU需求。
🔸 合作旨在提高搜索速度和扩展客户访问，涵盖微软与Oracle在云基础设施领域的合作。
🔸 Oracle的GPU集群提供成千上万的Nvidia A100和H100GPU租赁，以满足微软的计算资源需求。

寒武纪与百川智能完成大模型适配

寒武纪的思元（MLU）云端智能加速卡与百川智能的大模型完成全面适配，加速了大模型从训练到部署的流程，提供了更高性能。

【AiBase提要】
1. 寒武纪思元（MLU）云端智能加速卡成功适配百川智能的大模型，提高了性能。
2. 合作涵盖多领域，包括大语言模型和视觉大模型。
3. 合作计划推动大模型在不同行业和场景的广泛应用。

人类或于2028年推出首个AGI?谷歌DeepMind提6条AGI标准

谷歌DeepMind的Shane Legg团队发布了AGI时间表论文，预测到2028年，有50%的可能性开发出首个AGI，同时提出AGI的6个标准和5个等级。

【AiBase提要:】
📅 AGI时间表:Shane Legg团队预测人类可能在2028年开发出首个AGI，引发广泛关注。
📚 定义标准:论文提出AGI的6个标准，包括性能、通用性、认知任务等，为AGI测评提供指导。
🤖 大语言模型:现代大语言模型已经迈向AGI雏形，展现出元认知能力和广泛任务完成潜力。

投资 Hugging Face 的 IBM 启动5亿美元企业人工智能风险基金

IBM宣布启动5亿美元的风险投资基金，专注于投资人工智能公司，以加速生成式人工智能技术的研究和应用。

【AiBase提要】
🚀 IBM启动5亿美元风险投资基金，专注于人工智能公司。
💡 基金将支持全球企业实现人工智能商业潜力。
🤝 IBM积极投资于Hugging Face等领先人工智能公司。

OpenAI发布ChatGPT更新或导致部分AI初创公司倒闭

OpenAI发布的最新ChatGPT更新可能让围绕PDF分析构建的多家AI公司失去竞争力，引发担忧，尤其是包装器的添加可能影响小型AI初创公司。

ℹ️ 【AiBase提要】:
1️⃣ OpenAI的最新更新引发担忧，特别是包装器的添加，可能影响小型AI初创公司，尤其是那些围绕PDF分析构建的公司。
2️⃣ 这一举措引发了一些公司的担忧，包括Stripe产品负责人Sahar Mor的担忧，他认为这可能导致一些车载人工智能公司倒闭。
3️⃣ OpenAI作为最大的大型语言模型开发者，具备资源来应对监管要求，而规模较小的AI初创公司可能受到监管的抑制。

👨‍💻💡🎯聚焦开发者

清华、中科院、MIT联合提出Co-Pilot人机交互框架

清华、中科院和MIT的科研人员合作研发了Co-Pilot人机交互框架，首次将大语言模型用于辅助驾驶，以描述方式控制车辆行动轨迹，并成功满足乘客的意图。

论文地址:https://www.researchgate.net/figure/Co-Pilot-for-path-tracking-control-The-system-consists-of-three-modules-the-Reference_fig2_374800815

【AiBase提要:】
🚗 首次尝试使用语言模型辅助驾驶，以描述方式控制车辆轨迹。
🤖 Co-Pilot人机交互框架能够理解和满足乘客的意图。
🔬 这项研究揭示了大语言模型在自动驾驶领域的应用潜力，为未来研究提供了方向。

斯坦福大学提出RT-Sketch 手绘轮廓助机器人完成任务

斯坦福大学研究人员提出了RT-Sketch，一种目标导向操作策略，使用手绘草图作为机器人任务规范，改进了视觉任务中的机器人操作。

项目地址:https://rt-sketch.github.io/

【AiBase提要】
📌 RT-Sketch是一目标导向策略，使用手绘草图作为机器人任务规范，提高了任务的准确性。
📌 研究人员使用生成对抗网络将图像转化为草图，构建了训练数据集，使RT-Sketch能够接受不同精细程度的草图作为输入。
📌 RT-Sketch在处理模糊语言目标或视觉干扰时表现出色，为人机交互和机器人技术带来了新可能性。

多模态音乐AI框架Video2Music 为视频生成情感相符的音乐

多模态音乐AI框架Video2Music 利用前沿Transformer模型，根据视频内容生成情感相符的音乐，为视频创作者提供更好的音乐配乐选项。

项目地址:https://github.com/amaai-lab/video2music

【AiBase提要】
🎵 Video2Music使用Transformer架构生成音乐，确保音乐与视频内容匹配。
🎶 利用独特的数据集和验证的转换器模型，捕捉视频中的情感变化并转化为音乐情感表达。
🎥 为用户创造更个性化和情感丰富的音乐与视频体验，为未来音乐和视频领域带来更多可能性。

新NeRF技术: 视频转化为可控制的3D模型

Fraunhofer Heinrich Hertz研究团队引入NeRF技术，将标准RGB视频转化为可控制的3D人体模型，降低数字人物模型制作成本，拓展电影、游戏、虚拟现实等领域的应用可能。

【AiBase提要】:
1. Fraunhofer Heinrich Hertz研究团队使用NeRF技术简化数字人物创建，从标准RGB视频生成可控制的3D人体模型。
2. NeRF技术通过预测光线与场景的交互创造逼真的3D图像，提供新途径实现多角度人物动作。
3. 这项创新有望降低数字人物模型制作成本，对电影、游戏、虚拟现实等领域带来积极影响，拓展应用可能性。

中国研究人员推ControlLLM框架:提升大语言模型处理多模态任务能力

中国的研究人员提出ControlLLM框架，旨在增强大型语言模型处理复杂多模态任务，提高准确性和效率。

【AiBase提要】
🔍 中国研究人员提出ControlLLM框架，用于增强大型语言模型（LLMs）在处理复杂任务中的表现。
🔍 ControlLLM通过任务分解、Thoughts-on-Graph方法和多功能执行引擎提高工具利用的准确性和效率。
🔍 这一创新提高了多模态任务的成功率，使LLMs能够更好地处理包括图像、音频和视频在内的不同信息类型。

（举报）

相关推荐

关键词：

百度

百度升级文心助手AIGC创作能力：支持8种模态一键调用多工具

百度搜索近日宣布对文心助手进行全面升级，显著增强其AIGC多模态创作与智能任务解决能力。目前，该平台已支持AI图片、视频、音乐、播客等8种内容形态的生成，并支持用户一键调用多种工具，应对生活、健康、教育、工作等多场景需求。数据显示，百度搜索用户通过文心助手日均生成的AIGC内容量已突破千万。与此同时，百度还发布了行业首个开放式实时互动数字人智�

百度搜索文心助手 AIGC
荐AI日报：谷歌Gemini 3.0 Pro小范围推送；爱诗科技完成1亿元B+轮融资；百度发布文档解析模型 PaddleOCR-VL

谷歌Gemini 3.0 Pro开始小范围推送，强化推理与多模态能力；百度发布全球领先文档解析模型PaddleOCR-VL，重塑OCR技术格局；爱诗科技完成亿元B+轮融资，ARR突破4000万美元；Anthropic推出Claude“skills”功能，提升AI工作效率；Pinterest推出AI内容限制工具，用户可自定义减少生成式图像；开源多模态模型LLaVA-OneVision-1.5超越Qwen2.5-VL；OpenAI视频生成模型Sora 2上线微软Azure平台，进入公共预览阶段；旅行搜索引擎Kayak推出“AI模式”，简化旅行规划与预订流程。

谷歌Gemini AI日报 DeepMind
AI日报：微软发布首款自研图像生成模型 MAI-Image-1；百度世界大会时间公布；AI大牛开源nanochat教学工具

微软发布首款自研图像生成模型MAI-Image-1，跻身LMArena前十，注重实用性与光影效果；百度世界2025大会将聚焦大模型与AI全球化战略；Meta新技术使RAG推理速度提升30倍；开源项目nanochat实现低成本构建聊天AI；谷歌NotebookLM新增动漫视频生成功能；中国农大发布神农大模型3.0助力智慧农业；腾讯启动"青云奖学金"培养AI人才；苹果FS-DFM模型长文本生成效率提升128倍；谷歌Lens整合AI图像编辑功能；港大与美团提出CodePlot-CoT方法，通过代码绘图解决数学难题，性能提升21%。

AI 图像生成微软
我国首个政务大模型安全国家标准发布百度深度参与制定

日前，我国首个针对政务大模型的安全国家标准《政务大模型应用安全规范》（下称《规范》）正式发布。百度作为核心参编单位，凭借其在人工智能安全及政务服务领域的深厚积累，深度参与了该标准的制定工作，为政务大模型的安全选用、部署运行、护栏建设和合规落地提供了专业支持。《规范》由国家工业信息安全发展研究中心牵头，联合百度等国内领先企业共同制定�

政务大模型安全国家标准百度参编
百度网盘海外版开放手机号注册，AI功能全新升级

9月22日，百度网盘海外版全面开放海外手机号注册，并针对海外华人、留学生等用户升级AI功能。iOS用户可在当地App Store直接下载，安卓版即将上线Google Play。海外版针对学习、工作、娱乐场景优化，如AI笔记可一键生成英文视频摘要，AI相机支持拍照解题、实时翻译，AI听记可智能总结线上会议，并全面兼容Teams、Zoom等应用。此外还提供数十种AIGC创意视频玩法，深受海外用户欢迎。

百度网盘海外版 AI功能
六项第一！百度文库再获国家工信安全中心认证，持续领跑智能PPT行业

国家工信安全中心发布《大模型赋能智慧办公评测报告》，对8款主流AI生成PPT产品进行综合评估。百度文库在生成质量、排版美化等六项指标中全部位列第一，持续领跑智能PPT行业。报告显示当前产品已基本满足日常需求，但专业度和时效性仍有提升空间。百度文库依托海量专业文档资源，在产业研究、教育培训等场景表现突出，月活用户超9700万，智能PPT功能月访问量全球第一。

大模型智慧办公 PPT生成
双11买百吋电视，如何避免陷入“格列佛效应”？

文章借《格列佛游记》比喻，指出选购百吋电视不应仅关注尺寸，而需重视画质系统。以海信U8系列为例，其通过"光色同控"技术、AI画质芯片及低反射率屏幕，精准处理色彩与光影细节，避免画面失真。配合分区控光与高亮度，实现沉浸式观影。强调双十一购物应追求整体体验，而非单纯放大尺寸。

百吋电视选购画质系统巨幕电视
6岁儿童常看手机近视高达1200度医生：随时可能失明

近日，因上课时总是歪头、眯眼，福州一名6岁女孩被送医检查，结果查出近视高达1200度。据了解，这已远超普通近视的范畴，属于病理性高度近视，孩子的视网膜随时面临脱落甚至失明的风险。据福建省级医院专家介绍，这名小朋友的父母均为高度近视，而孩子平时主要由爷爷奶奶照顾，由于比较宠爱孩子，常把手机、平板电脑等电子设备拿给她看。

近视高度近视电子产品
荐AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推出Qianfan-VL 模型

本期AI日报聚焦多领域技术突破：阿里云推出全球首个全模态AI模型Qwen3-Omni，支持文本、图像、音频和视频统一处理；百度发布多尺寸视觉理解模型Qianfan-VL，优化企业级应用。苹果扩展Image Playground平台，引入ChatGPT等第三方模型。谷歌与PayPal合作推出AP2协议，推动AI支付安全创新。钉钉上线AI表格助手，支持自然语言生成表格。DeepSeek开源V3.1-Terminus模型，性能显著提升。Kimi推出Agent会员服务，智元机器人开源全球首个通用具身智能模型GO-1，降低技术门槛促进行业创新。

AI模型全模态阿里云
百度智能云Qianfan-VL系列模型开源！全尺寸领域增强效果优异，全自研芯片计算

百度智能云千帆正式推出全新视觉理解模型Qianfan-VL并全面开源。该系列模型包含3B、8B和70B三个版本，面向企业级多模态应用场景，具备出色的基础通用能力，并针对OCR、教育等高频需求进行专项强化。模型基于昆仑芯P800芯片实现高效计算，支持5000卡并行，在通用和垂直任务评测中达到SOTA水平。Qianfan-VL具备多尺寸模型、思维链推理和OCR增强三大特点，可广泛应用于文档识别、数学解题、图表分析等场景，为企业提供高精度视觉理解解决方案。

Qianfan-VL 视觉理解模型多模态应用

今日大家都在搜的词：

热文

3 天
7天

AI视野：百度推千帆SDK开源版本；美图推出“AI封面”功能；支付宝上线AI写真功能；三星发布生成式AI模型

百度升级文心助手AIGC创作能力：支持8种模态一键调用多工具

荐AI日报：谷歌Gemini 3.0 Pro小范围推送；爱诗科技完成1亿元B+轮融资；百度发布文档解析模型 PaddleOCR-VL

AI日报：微软发布首款自研图像生成模型 MAI-Image-1；百度世界大会时间公布；AI大牛开源nanochat教学工具

我国首个政务大模型安全国家标准发布百度深度参与制定

百度网盘海外版开放手机号注册，AI功能全新升级

六项第一！百度文库再获国家工信安全中心认证，持续领跑智能PPT行业

双11买百吋电视，如何避免陷入“格列佛效应”？

6岁儿童常看手机近视高达1200度医生：随时可能失明

荐AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推出Qianfan-VL 模型

百度智能云Qianfan-VL系列模型开源！全尺寸领域增强效果优异，全自研芯片计算

今日大家都在搜的词：

热文

AI日报：谷歌发布Veo 3.1；通义千问推Qwen Chat Memory功能；S

卢伟冰官宣REDMI K90系列下周发布：不排斥和小米竞争

苹果华为OPPO将推出eSIM手机 OPPO Find X9系列已确认将支持

微信回应出朋友圈访客功能：可能会让用户产生焦虑重申不会推出

REDMI K90 Pro Max外观公布：后置BOSE认证扬声器

知乎崩了上热搜：网页端完全无法进入 App端也未能幸免

华为nova 14活力版、nova Flip S官宣明天发布

红米REDMI K90 Pro Max丹宁色亮相采用第三代科纳皮设计

苹果14英寸MacBook Pro发布：售价12999元起首发苹果M5芯片

AI日报：谷歌Gemini 3.0 Pro小范围推送；爱诗科技完成1亿元B+轮

微信员工回应好友互删后互动清除：并非新版本特性

AI日报：LiblibAI 2.0正式上线；通义千问、豆包开启记忆功能；

董明珠称格力向特斯拉提供服务已有近14万项专利技术

微信回应人去世了朋友圈会消失吗：长时间不使用账号已不再回收

卢伟冰调侃还有小米6钉子户：小米6机主宣布换机小米17

京东回应下场造车：不直接涉及制造三方联合推出

库克下月满65岁苹果或迎特努斯时代：有望执掌十年以上

Windows 10即将“停服”上热搜微软建议用户升级Win 11

AI日报：阿里发布紧凑型Qwen3-VL模型；科大讯飞AI翻译耳机全球

小米推出短剧App围观短剧：主打无广告免费看

站长商机