趣AI | OpenAI 发布 Point-E “3D建模版”DALL-E 来了！

2022-12-21 10:56 · 稿源：站长之家

站长之家（ChinaZ.com）12月21日消息:DALL-E2可以说是2022年最热门AI绘画模型之一，最近 OpenAI 刚刚发布一个功能似乎更为强大AI模型，可用于3D建模。

在12月16日提交的一篇论文中，OpenAI 团队描述Point-E称，这是一种从复杂的文本提示生成3D 点云的方法。

利用Point-E，AI 爱好者可以跳过文本生成2D 图像的阶段，用文本生成3D模型。该项目也已在Github上开源，以及模型的各种参数数量的权重。

该模型只是使解决方案起作用的部分之一。论文的关键在于提出的通过适用于点云的扩散方法创建3D 对象的方法。该算法的创建重点是虚拟现实、游戏和工业设计，因为它生成3D 对象的速度比当前方法快600倍。

文本生成3D 模型目前有两种工作方式。第一种是在具有3D 对象到文本配对的数据上训练生成模型。这导致无法理解更复杂的提示以及3D数据集的问题。第二种方法是利用文本图像模型来优化提示的3D 表示的创建。

Point-E 结合了传统的文本到3D 合成训练算法的方法。将两个单独的模型结合在一起，Point-E 可以减少创建3D 对象的数量。第一组算法是文本到图像模型，类似 DALL-E2，它可以创建用户给出的提示的图像。然后将此图像用作第二个模型的基础，该模型将图像转换为3D对象。

OpenAI 团队创建了一个包含数百万个3D 模型的数据集，再通过 Blender 将其导出。然后对这些渲染进行处理，将图像数据提取为点云，这是表示3D物体合成密度的一种方式。经过进一步的处理，比如删除平面对象和通过CLIP特征进行聚类，数据集就可以被输入View Synthesis GLIDE模型了。

接着，研究人员通过将点云表示为形状的张量，创建了一种新的点云扩散方法。然后，通过逐步去噪，将这些张量从随机形状削减到所需3D对象的形状。该扩散模型的输出通过点云上采样器运行，以提高最终输出的质量。为了与常见的3D 应用程序兼容，使用 Blender 将点云转换为网格。

最后，这些网格可用于游戏、元宇宙应用程序或其他3D 密集型任务，如电影后期处理。虽然 DALL-E 已经彻底改变了文本到图像的生成过程，但 Point-E 的目标是为3D 领域做同样的事情。

Point-E的Github开源网址:https://github.com/openai/point-e

（举报）

相关推荐

关键词：

Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发，专为多轮对话场景设计，支持中英川粤等多语言/方言与副语言风格，能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点，在播客、语音合成等场景表现突出，获开发者广泛关注。Hugging Face CEO也转发相关内容，团队未来将持续优化语音对话、拟人化表达等核心交互能力，深化开源生态建设。

SoulX-Podcast TTS 语音生成模型
OpenAI也来了，巨头为何决战AI浏览器？

AI浏览器赛道再添一位重量级玩家——ChatGPT Atlas，这是OpenAI推出的首款人工智能驱动的网页浏览器。这也被外界认为OpenAI要向谷歌宣战，挑战Chrome一直以来的浏览器霸王地位。ChatGPT Atlas发布当天，谷歌母公司Alphabet股价应声下挫，盘中最大跌幅接近5%，足见市场对这一新品的敏感度。近一年来，AI浏览器的战略价值成为行业共识，从业者更是将其与智能代理（Agent）、搜索引�

AI浏览器 ChatGPT Atlas
OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

OpenAI于10月22日推出首款AI驱动浏览器ChatGPT Atlas，以个性化上网体验为核心。用户点击“Ask ChatGPT”即可在侧边栏实时互动，实现网页摘要生成、航班预订、文档编辑等多样化任务。目前仅支持macOS，未来将扩展至Windows和移动端。高级代理功能暂限付费用户使用，其特色包括自动捕捉页面上下文、分屏浏览及记忆用户操作历史，旨在通过自然对话提升网络使用效率。

ChatGPT Atlas 人工智能浏览器
人工智能巨头OpenAI拟上市估值或高达1万亿美元

OpenAI正积极推进上市计划，据知情人士透露，该公司可能最早于2026年下半年向证券监管机构提交上市申请，目标在2027年正式上市。此次IPO的估值有望达到约1万亿美元，或将跻身全球规模最大的IPO之列。在初步讨论中，OpenAI曾考虑通过上市筹集至少600亿美元资金，实际融资规模可能进一步扩大。

OpenAI IPO 上市计划
Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

Soul App近日开源其播客语音合成模型SoulX-Podcast，专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言，可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外，在通用语音合成及克隆任务中表现优异，能灵活调节节奏与副语言元素（如笑声），提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

语音合成模型 SoulX-Podcast 多轮对话
AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个模型尺寸；百川发布循环证据增强大模型

本文汇总AI领域最新动态：OpenAI推出集成ChatGPT的Atlas浏览器，实现多任务自主处理；阿里通义千问新增2B/32B视觉语言模型，手机可流畅运行；谷歌AI Studio升级Vibe Coding功能，简化应用开发流程；百川发布医疗大模型M2Plus，通过循证推理降低误诊率；奇瑞墨甲机器人实现L3级技术突破，计划多行业应用；YouTube推出AI肖像识别工具，打击虚假内容；三星宣布2026年推出AI眼镜，融合AR与语音助手；Claude客户端更新，支持截图分析和语音交互功能。

AI OpenAI ChatGPT
荐OpenAI 推出浏览器：“让位吧，Chrome”

北京时间10月22日凌晨，没等来传闻中的Gemini3，等来了OpenAI正式发布首款AI浏览器ChatGPT Atlas。简单来说，这是一个把ChatGPT"塞进"浏览器的产品，你在任何网页上都能随时唤出ChatGPT侧边栏，让AI帮你总结内容、编辑文字、甚至代替你完成购物和预订任务。听起来有点像Chrome装了个ChatGPT插件?确实如此，但OpenAI的野心远不止于此。

OpenAI
荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

本期AI日报聚焦多项技术突破：豆包推出全自动有声剧系统，实现98%角色识别准确率；Adobe Firefly Image 5支持400万像素原生输出及AI音轨生成；Soul发布90分钟无中断播客生成模型；360推出全球首款L2-L4全栈智能平台；IBM发布可在普通设备运行的Granite 4.0 Nano模型。市场方面，移动端AI用户突破7亿，豆包领跑原生应用；PayPal与OpenAI合作使ChatGPT集成支付功能；谷歌推出AI营销工具Pomelli，可基于URL自动生成营销内容。

AI有声剧豆包语音多角色语音合成
荐AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停Sora生成已故名人；谷歌推出Gemini地图数据集成工具

视觉中国与多家AI公司合作开发可商用视觉大模型，已获阿里、微软等订单。OpenAI因不当内容暂停Sora生成马丁·路德·金形象视频，引发AI伦理讨论。DeepSeek在加密货币交易实验中表现领先。WhatsApp将禁止第三方通用AI聊天机器人，仅保留Meta AI。宇树科技推出仿人机器人Unitree H2，具备拟人化设计。谷歌为Gemini集成地图数据工具，可访问25亿地点实时信息。Opera推出集成三款AI助手的Neon浏览器，但用户体验存在困惑。Facebook在美加推出AI照片编辑建议功能，可分析手机未分享照片。

AI 视觉大模型版权合规
OPPOFind X9 新机发布，火山引擎助力打造AI应用新体验

OPPO Find X9系列以“画质革命”为核心，全面升级移动影像能力，致力于打造手机摄影新标杆。该系列搭载火山引擎，强化AI功能，支持AI写作、播客创作、多模态问答及AI作图，重点优化旅行场景，简化创作流程。同时，作为业界首款支持机密计算AI推理的消费级手机，通过AICC平台保障用户数据全生命周期安全，提供放心、便捷的智能服务体验。

今日大家都在搜的词：

热文

3 天
7天

趣AI | OpenAI 发布 Point-E “3D建模版”DALL-E 来了！

Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

OpenAI也来了，巨头为何决战AI浏览器？

OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

人工智能巨头OpenAI拟上市估值或高达1万亿美元

Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个模型尺寸；百川发布循环证据增强大模型

荐OpenAI 推出浏览器：“让位吧，Chrome”

荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

荐AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停Sora生成已故名人；谷歌推出Gemini地图数据集成工具

OPPOFind X9 新机发布，火山引擎助力打造AI应用新体验

今日大家都在搜的词：

热文

iPhone锁屏滑动相机能关闭了苹果iOS 26.1 RC准正式版发布

AI日报：Hailuo 2.3发布；豆包AI编程史诗级升级；马斯克推出AI

AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅

华为余承东：鸿蒙智行全系交付突破100万台仅用43个月

鸿蒙智行：全新问界M7上市36天交付破20000台

一加Ace 6开启预售：售价2599元起

美股4万亿美元市值上市公司已达3家苹果、微软、英伟达组成三巨

小米17 Pro系列妙享背屏全新掌机游戏等新功能上线

网信办宣布开展“整治网络直播打赏乱象”专项行动

20周年款iPhone将配自研相机并搭载自研定制LOFIC传感器

iPhone锁屏滑动相机能关闭了苹果iOS 26.1 RC准正式版发布

一加15今晚发布定位全能水桶机

AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度

AI日报：Hailuo 2.3发布；豆包AI编程史诗级升级；马斯克推出AI

AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅

红米REDMI K90全方位提升雷军：是不是越来越有旗舰气质

余承东曝鸿蒙智行新款享界S9将于11月上市

iPhone18发布或推迟苹果明年9月只发Pro系列和Fold折叠屏

华为余承东：鸿蒙智行全系交付突破100万台仅用43个月

鸿蒙智行：全新问界M7上市36天交付破20000台

站长商机