AI视野：OpenAI否认即将发布GPT-4.5；Stability AI推出新会员模式；DomoAI支持视频一键转动漫；阿里I2VGen-XL模型代码公布

2023-12-15 15:14 · 稿源：站长之家

📰🤖📢AI新鲜事

OpenAI否认即将发布GPT-4.5

OpenAI CEO Sam Altman在Reddit上辟谣称公司未计划发布GPT-4.5，否认最新语言模型的泄露，截图显示为虚假信息。

【AiBase提要】:
👥 OpenAI CEO Sam Altman否认GPT-4.5泄露，证实截图为假信息。
📅 尚不清楚OpenAI是否会发布GPT-4.5，或者直接跳至GPT-5。
🌐 OpenAI曾在2020年发布GPT-3，2023年3月发布GPT-4，同时正积极开发GPT-5。

OpenAI新研究:GPT-2能监督GPT-4

研究发现通过以GPT-2级模型为弱监督者对GPT-4进行微调，能显著提高自然语言处理任务中的泛化性能，为超级AI对齐问题提供新思路。

【AiBase提要】
🔍 创新方向: 通过小模型的弱监督控制大模型，解决超级AI对齐问题的挑战。
📈 研究结果: GPT-2级模型对GPT-4微调在语言处理任务中取得显著改进，展示了弱到强泛化的可行性。
👥 研究机会: 提供开源代码和1000万美元资助计划，鼓励研究者在超级AI对齐领域进行深入研究。

Stability AI推出新会员模式

Stability AI在充满活力的2023年推出新会员模式，以标准化商业使用，包括免费和PRO会员，同时保持对源代码和权重的开放。

【AiBase提要:】
💼 新会员模式: Stability AI推出旨在推动商业应用的新会员模式，拓展企业部署范围，让公司模型成为构建业务的基石。
💰 商业模式: 包括免费个人、PRO会员和企业定制定价，同时保持对源代码和权重的开放，注重多样化的开放方式。
🚀 未来展望: 免费个人用户也能享受会员资格带来的价值，包括提前访问新模型发布、参与公共论坛以及在Stability AI渠道上展示的机会。创始人看好新模式对初创公司和大型企业的吸引力，认为将成为稳健的收入基础。

英特尔发布AI加速器Gaudi3

英特尔发布Gaudi3系列AI加速器，采用先进5nm制程，性能优越，计划于明年推出，与英伟达的H200加速卡竞争。

【AiBase提要】
🚀 性能卓越: 英特尔Gaudi3采用先进5nm制程，带宽提升1.5倍，BF16功率提升4倍，网络算力提升2倍。
💡 市场竞争: Gaudi3计划在2024年占据更大市场份额，与英伟达的H200加速卡直接竞争。
💰 成本优势: 凭借出色性能和竞争力的总体成本，Gaudi3有望在市场上取得更大的成功。

悉尼科技大学成功开发无侵入系统，将脑电波转化为文字

悉尼科技大学的研究团队成功开发了一款便携、无侵入的系统，通过AI模型将脑电波信号转换为文字，为中风或瘫痪患者提供新的交流方式。

【AiBase提要:】
🧠 无需手术或其他侵入性方法，悉尼科技大学研发的系统可解读脑电波并转换为文字。
🤖 应用前景广泛，尤其对于中风或瘫痪患者，为其提供无声思维的沟通方式。
🚀 采用名为DeWave的AI模型，通过佩戴帽子记录脑电活动，实现无侵入、方便日常使用。

微软扩展Azure AI Studio，引入Llama2和GPT-4Turbo with Vision

微软将Meta竞争对手Llama2引入Azure AI Studio，提供AI模型即服务（MaaS），同时加入OpenAI的GPT-4Turbo with Vision，拓展Azure云平台AI选择。

Image 2 .jpg

【AiBase提要:】
🚀 扩展AI服务: 微软整合Meta的Llama2作为模型即服务引入Azure AI Studio，提供多个开源Llama模型，丰富Azure云存储和服务客户的AI选择。
🌐 多样化AI选择: 微软在Azure AI Studio中加入OpenAI的GPT-4Turbo with Vision，为客户提供更多先进的AI工具，包括图像分析和描述能力。
🤖 战略多元化: 微软采取多元化策略，拓展AI模型库，不仅提供与OpenAI合作的模型，还引入竞争对手的开源模型，满足不同客户需求。

Ollama支持多模态模型使用

Ollama最新版本为macOS和Linux用户提供了多模态模型支持，通过输入命令“ollama run llava”并下载llava-7B模型，用户可轻松在本地运行Llama2、Code Llama等模型，支持近二十多个语言模型系列。

QQ截图20231214165651.jpg

官网地址:https://top.aibase.com/tool/ollama

【AiBase提要:】
🚀 多模态模型支持: Ollama最新版本允许用户在macOS和Linux上本地运行多模态模型，提供更灵活的应用场景。
⚙️ 模型选择与运行: 用户通过输入“ollama run llava”并下载llava-7B模型，即可轻松运行Llama2、Code Llama等模型，拖放图像输入问题。
📈 量化级别与性能权衡: Ollama支持多个语言模型系列和不同的"tags"，用户可根据需求选择量化级别，权衡模型精确度和运行速度。

🤖📈💻💡大模型动态

阿里图像生成视频模型I2VGen-XL代码发布

阿里于11月份发布的图像生成视频模型I2VGen-XL，如期开源了其代码和模型，该模型通过3500万个单镜头文本视频对和60亿个文本图像对的数据训练，提高了生成视频的语义准确性和细节连续性。

代码地址:https://github.com/damo-vilab/i2vgen-xl

【AiBase提要:】
👁️‍🗨️ 基础阶段和优化阶段: I2VGen-XL模型分为基础阶段和优化阶段，通过分层编码器保持语义连贯性，整合简短文本增强视频细节。
📈 模型优化数据: 研究团队通过收集约3500万个单镜头文本视频对和60亿个文本图像对的数据，优化了I2VGen-XL模型，提高了生成视频的语义准确性、细节连续性和清晰度。
🚀 代码开源地址: 阿里图像生成视频模型I2VGen-XL的代码和模型已在GitHub上开源，为研究者和开发者提供了可探索和使用的资源。

元象开源 XVERSE-65B-Chat 大模型

元象宣布开源 XVERSE-65B-Chat 大模型，提供强大且无条件免费商用工具，广大开发者可登录官网或小程序体验。

Github:https://github.com/xverse-ai/XVERSE-65B

【AiBase提要:】
🚀 开源力量: 元象发布 XVERSE-65B-Chat，是国内最早、参数最大的免费商用模型，在SuperCLUE评测中位居国内开源总分第一。
🧠 卓越性能: XVERSE-65B 相较于其他模型，拥有更强的理解、生成、逻辑和记忆能力，能处理更多样、更困难的任务。
🔗 资源链接: 开发者可通过 Github、Hugging Face、ModelScope等平台获取 XVERSE-65B-Chat 模型。

上海交通大学携手百度发布白玉兰科学大模型2.0版

上海交通大学与百度智能云合作发布了包括“法律开源”和“化学合成2.0”在内的“白玉兰科学大模型2.0版”，其中“法律开源”模型在法律领域表现出色，超越了同类中文通用大模型和中文法律大模型。

【AiBase提要:】
🔍 上海交通大学与百度共同发布白玉兰科学大模型2.0版，包含法律和化学领域。
🧠 “白玉兰科学大模型—法律开源”在领域预训练基础上，通过融合法律知识，超越同类模型。
🌐 此次发布标志着双方在AI for Science领域取得新进展，为校企深入合作树立了新典范。

谷歌推生成式AI医疗模型MedLM

谷歌发布MedLM生成式AI医疗模型，基于Med-PaLM2，美国医学执照考试准确率达85%，计划整合Gemini模型服务全球医疗行业。

【AiBase提要】
🚀 谷歌MedLM模型，专为医疗保健行业设计，通过美国医学执照考试取得85%准确率。
🏥 MedLM基于Med-PaLM2，相较首代提高18%，谷歌计划整合Gemini模型拓展其人工智能功能。
🌍 MedLM服务医疗行业各方面，包括医院、药物开发、聊天机器人等，已在多个组织中测试并逐步投入生产。

🤖📱💼AI应用

Spotify测试AI歌单功能

Spotify正在测试基于AI技术和用户提示创建歌单的功能，通过ChatGPT响应用户输入，展示了AI驱动的歌单生成过程。

【AiBase提要:】
🎵 Spotify确认测试基于提示的AI歌单功能，允许用户使用AI技术和提示创建歌单。
🤖 视频显示用户通过“Your Library”选项在Spotify应用中使用ChatGPT创建歌单的过程，AI响应用户的提示并生成歌单。
🌐 Spotify公司确认测试，但未透露技术细节、工作原理，也未承诺正式上线时间。

视频重绘工具DomoAI 不用SD视频一键就能转动漫

DomoAI是一款免费的人工智能艺术生成器，通过简单操作和多样化预设模型，用户能在20秒内将文本转化为高质量艺术品，实现快速创作和保持一致的绘画风格。

QQ截图20231215100542.jpg

官网地址:https://top.aibase.com/tool/domoai

【AiBase提要:】
🎨 创意释放: DomoAI通过简短文本提示，如描述老巫师或水下游泳的女孩，帮助用户快速实现个性化创作。
🌐 社区互动: 提供社区平台，用户可在Discord中获取支持，使DomoAI成为与用户互动发展的艺术创作社区。
🚀 高效创作平台: DomoAI以20秒内将文本转化为艺术品的速度、简单操作和丰富预设模型，为用户提供高效有趣的艺术创作平台。

Visual Electric发布多张图像组合重绘功能

AI图像生成工具Visual Electric推出两大功能，使图像创作者能够轻松将多张图像组合重绘，提高创作流程的灵活性。设计师可分开生成各个主体，然后通过重绘功能将它们组合，实现更直观的创意实现。

官网地址:https://top.aibase.com/tool/visual-electric

【AiBase提要:】
👥 多图组合: Visual Electric允许用户将生成的多张图像进行组合，为设计师提供更多灵活性，支持分阶段创作。
🎨 自定义风格: 利用几张图片，用户能够快速自定义图像生成风格，类似于Lora训练的方式，拓展创作可能性。
🚀 直观创意实现: 推出的新功能使图像生成过程更加灵活和直观，让设计师更轻松地实现他们的创意想法，提升创作过程的乐趣。

Instagram推出生成式AI背景编辑工具

Instagram推出生成式AI背景编辑工具，让用户通过各种提示定制独特图片背景，促进互动体验。

【AiBase提要:】
🎨 用户可通过提示如“走红地毯”自定义背景。
🤳 发布后，其他用户可参与并互动，轻松分享独特图像故事。
🌐 生成式AI技术逐渐成为社交媒体创意表达和用户互动的关键。

👨‍💻💡🎯聚焦开发者

谷歌开发实时渲染大型三维场景技术SMERF

Google团队推出的SMERF技术能在最大300平方米的房间内实时创建逼真的三维场景，支持智能手机和笔记本，具备60fps实时渲染和完整的六自由度导航。该技术采用分层模型划分和蒸馏训练策略，解决了渲染大型三维场景性能和质量问题，提供更真实、流畅的三维体验。

项目地址:https://smerf-3d.github.io/

【AiBase提要:】
🌐 实时渲染大型场景: SMERF技术能在300平方米房间内实时渲染逼真三维场景，支持60fps的流畅导航。
🎮 高效内存使用: 采用分层模型和蒸馏训练，提高了处理效率和渲染速度，即使在内存有限设备上也能流畅运行。
📱 普及性和真实感: 通过普通智能手机和笔记本实现，用户可获得接近照片级真实感的自由三维体验。

AI生成前端代码项目“Coffee”

通过人工智能工具“Coffee”，前端开发者能够以零依赖、零设置的方式，实现对React代码库的快速生成、编辑和维护，显著提高开发效率。

代码地址:https://github.com/Coframe/coffee

【AiBase提要:】
🚀 创新工具Coffee: Coffee利用人工智能技术，支持React代码库的快速生成和编辑，无需额外依赖，使前端开发更高效。
🛠️ 统一开发体验: 无论是新建组件还是编辑现有组件，Coffee提供相同的开发体验，生成清晰可维护的代码，符合生产标准。
🌐 未来扩展计划: Coffee计划扩展对其他流行前端框架的支持，包括Vue、Svelte等，以拓宽其适用范围。

谷歌发布NeRFiller，用2D图像补全3D场景

谷歌与加州大学伯克利分校的研究人员合作推出NeRFiller框架，通过2D图像修复缺失的3D场景，采用网格先验和联合多视角补全策略，显著提高修复效果和重建效率。

即将开源地址:https://github.com/ethanweber/nerfiller

论文:https://arxiv.org/abs/2312.04560

【AiBase提要:】
🌐 多视角一致性补全: NeRFiller采用网格先验和联合多视角补全两种策略，通过2x2网格形状提供给补全模型，增加一致性修复效果。
🔍3D场景整合迭代优化: NeRFiller通过迭代方法将2D图像补全结果整合到全局一致的3D场景中，提升3D场景的几何形态和一致性。
🚀 重建效率提升: 经测试数据显示，NeRFiller相比原始数据在PSNR、SSIM等多个评估指标上表现更出色，重建效率提升了约10倍。

（举报）

相关推荐

关键词：

OpenAI

OpenAI发布GPT-5-Codex：可完成7小时单次编程任务

OpenAI宣布推出新一代AI编程模型GPT-5-Codex，其最大亮点是创新的动态时间分配系统。不同于传统AI追求秒级响应”，该模型可根据任务复杂度灵活调整处理时长，从数秒到7小时不等，以更接近人类专家的决策方式优化代码质量。 GPT-5-Codex产品负责人亚历山大恩比里科斯解释称，传统模型在任务初期即固定计算资源，而GPT-5-Codex能实时评估需求：动态决定加速推进、暂停语法核�

GPT-5-Codex 动态时间分配 AI编程模型
荐AI日报：快手推出AI视频制作助手Kwali；字节跳动推出USO模型；OpenAI推出ChatGPT开发者模式

本文介绍了AI日报栏目，聚焦AI领域最新动态。快手推出Kwali视频助手，简化视频制作流程；字节跳动发布USO模型，解决图像生成中风格与主题的矛盾；微软推出Copilot Audio音频模式，提供个性化语音交互；Stability AI升级Stable Audio 2.5，支持高质量音频生成；阿联酋推出开源大模型K2 Think，拥有320亿参数；微信上线智能回复功能，提升公众号运营效率；OpenAI推出ChatGPT开发者模式，支持AI控制外部工具；字节跳动Seed团队发布AgentGym-RL框架，提升语言模型决策能力；月之暗面开源Checkpoint Engine中间件，优化LLM推理效率；B站开源IndexTTS-2.0文本转语音系统，支持情感与时长控制；Replit推出Agent 3编程助手，自主性提升10倍。

AI视频制作快手Kwali 多Agent框架
荐AI日报：苹果明年推出SiriAI搜索；OpenAI放开ChatGPT Projects功能；Kimi K2-0905 上线 Discord

本文汇总了AI领域最新动态：苹果与谷歌合作，计划在Siri中引入Gemini AI技术；OpenAI向免费用户开放Projects功能，提升任务管理效率；谷歌推出免费Gemini CLI工具，集成GitHub提升开发效率；OpenAI估值飙升至5000亿美元，二级股票售出103亿美元；苹果自研AI搜索引擎“世界知识问答”计划2026年上线；月之暗面发布Kimi K2-0905模型，提升编程与创意写作能力；Raycast推出Cursor Agent插件优化代码编辑；谷歌发布nano banana官方Prompt模板，助力创意设计。

AI Siri Gemini
OpenAI发布语音模型GPT-realtim：具备情感感知能力多语言无缝切换

OpenAI正式发布语音模型GPT-realtime。据介绍，GPT-realtime是一款专注于语音AI Agent的多模态模型，能够生成高度自然流畅的语音，精准还原人类语调、情感和语速的丰富变化。该模型支持图像理解，并可结合语音或文本对话使用，非常适合应用于客服、教育、金融、医疗等领域，用于构建高质量的语音智能体。官方表示，新模型在复杂指令遵循、工具精确调用以及生成更自然、�

语音模型 GPT-realtime 多模态模型
荐AI日报：抖音打击AI技术滥用行为；OpenAI 收购开发数据分析平台 Statsig；ElevenLabs 音效模型更新

抖音打击AI技术滥用行为，对违规商家和达人采取下架、清退等措施。ElevenLabs音效模型升级至版本2，支持长音频和无缝循环。OpenAI收购数据分析平台Statsig，增强产品迭代能力。亚马逊推出Lens Live AI功能，实时扫描购物。谷歌AI推出Stax工具，帮助开发者评估大语言模型。WordPress推出AI工具Telex简化网站构建。Liquid AI发布LFM2-VL模型，提升手机视觉语言处理。苹果开源FastVLM与MobileCLIP2模型，优化边缘设备AI应用。MetaGPT推出自动化测试工具RealDevWorld，精准率达92%。瑞士发布开源大模型Apertus，提供多语言处理能力。

AI技术滥用抖音公告虚假商品展示
荐AI日报：海螺AI首尾帧功能上线；元石科技发布问小白5；OpenAI发布全新语音模型GPT-Realtime

AI日报栏目每日提供人工智能领域热点内容，聚焦开发者，帮助洞悉技术趋势、了解创新AI产品应用。最新动态包括：MiniMax海螺AI首尾帧功能上线；元石科技发布问小白5挑战GPT-5；OpenAI推出语音模型GPT-Realtime；谷歌Gemini AI优化表格处理；腾讯黑科技实现AI配音；百度计划培养千万AI人才；MathGPT.ai反作弊功能推广；苹果Xcode集成Claude Sonnet4；微软发布自研AI模型MAI系列；xAI推出高效编码模型Grok Code Fast1；SuperCLUE多模态评测Gemini-2.5-Pro居首；9月1日起AI内容标识新规实施，违规将承担法律风险。

AI 人工智能技术趋势
荐Nano Banana更像是AI图像领域的DeepSeek

这是《窄播Weekly》的第66期，本期我们关注的商业动态是:Google最新的AI图像生成模型Nano Banana，可能会给AI图像领域带来一场应用大爆炸。去年这个时候，我想把照片中人物手里拿的玩具火车换成玩具飞机，还需要给玩具火车做出精细标记，找到干净的玩具飞机图片，告诉AI将其替换成另一张图里的飞机。我花费一个小时，多番尝试下来，飞机会变形，人物的手会消失，最后的�

AI图像生成 Nano Banana
魅族StarV Snap AI拍照眼镜发布：售价1999 元起

今日下午魅族22新品发布会上，一款名为StarV Snap的AI拍摄眼镜成为全场焦点。这款突破传统智能眼镜形态的产品以39克超轻人因工学设计惊艳亮相，通过50项人体工程学优化实现重量均匀分散，彻底解决"丑、重、硌"的行业痛点，鼻梁、耳部无压迫感的设计支持全天候舒适佩戴。外观采用经典框型设计，磨砂质感镜框不仅时尚百搭适配多种脸型，更具备防指纹沾染特性，
荐AI日报：国产版Nano Banana？即梦图片4.0发布；阿里巴巴发布 Qwen3-Max-Preview；上海重磅发布AI广告扶持政策

AI日报栏目聚焦人工智能领域最新动态。主要内容包括：即梦图集4.0发布，新增文生图、图像编辑等功能；阿里巴巴推出超万亿参数语言模型Qwen3-Max-Preview；小米AI眼镜上线支付宝“看一看”支付功能；微软开源14B参数模型rStar2-Agent在数学推理领域表现突出；MiniMax启动股权激励计划覆盖核心员工；谷歌明确Gemini使用限制，免费用户每日最多5次提示；上海发布AI广告扶持政策，最高补贴500万元。这些进展展示了AI技术在图像处理、语言模型、智能支付等领域的创新应用。

AI 图像处理文生图
OpenAI的开源模型现已在IBM watsonx.ai上提供

OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B，允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台，采用专家混合架构，支持本地或云端部署，不受商业用途限制。模型具备高透明度，输出完整推理链，在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态，IBM强调其开放战略，为企业提供灵活、安全的AI开发选择。

OpenAI模型 IBM watsonx.ai

今日大家都在搜的词：

热文

3 天
7天

AI视野：OpenAI否认即将发布GPT-4.5；Stability AI推出新会员模式；DomoAI支持视频一键转动漫；阿里I2VGen-XL模型代码公布

OpenAI发布GPT-5-Codex：可完成7小时单次编程任务

荐AI日报：快手推出AI视频制作助手Kwali；字节跳动推出USO模型；OpenAI推出ChatGPT开发者模式

荐AI日报：苹果明年推出SiriAI搜索；OpenAI放开ChatGPT Projects功能；Kimi K2-0905 上线 Discord

OpenAI发布语音模型GPT-realtim：具备情感感知能力多语言无缝切换

荐AI日报：抖音打击AI技术滥用行为；OpenAI 收购开发数据分析平台 Statsig；ElevenLabs 音效模型更新

荐AI日报：海螺AI首尾帧功能上线；元石科技发布问小白5；OpenAI发布全新语音模型GPT-Realtime

荐Nano Banana更像是AI图像领域的DeepSeek

魅族StarV Snap AI拍照眼镜发布：售价1999 元起

荐AI日报：国产版Nano Banana？即梦图片4.0发布；阿里巴巴发布 Qwen3-Max-Preview；上海重磅发布AI广告扶持政策

OpenAI的开源模型现已在IBM watsonx.ai上提供

今日大家都在搜的词：

热文

小米17 Pro系列外观公布：搭载“妙享背屏”

理想i6定档9月26日上市：官方定义新形态五座SUV

AI日报：腾讯发布混元3D 3.0模型；昆仑万维上线Agent Studio功

谣言！王腾并非因泄密小米16改名小米17遭辞退

苹果回应iOS 26掉电快：正常现象几天内恢复

联发科天玑9500定档9月22日发布：安兔兔跑分破400万

抖音副总裁回应字节离职赛道：虚假宣传企图引流卖课

苹果Apple Watch高血压通知功能上线

AI日报：阿里云开源通义DeepResearch；夸克推医师考试大模型；

卢伟冰：9月19日将直播在线解答小米17系列17个问题

上市没几天iPhone 17已跌破发售价部分机型降幅高达千元

小米17 Pro Max官宣雷军：全面对标iPhone 正面迎战

小米16改名小米17 本月发布：现已上架开启预约

小米17 Pro系列外观公布：搭载“妙享背屏”

AI日报：小红书发布对话合成模型 FireRedTTS-2；百度文心新模型

小米手机官博头像上热搜：泄密17 Pro系列或配备背屏

小米17官宣本月发布卢伟冰称有信心直面iPhone17

尚界H5小订突破10万台预售16.98万起

魅族22今日发布：小屏影像旗舰、行业唯一白面板

西贝致歉上热搜：启动全国门店透明化改造

站长商机