首页 > 业界 > 关键词  > OpenAI最新资讯  > 正文

趣AI | OpenAI 发布 Point-E “3D建模版”DALL-E 来了!

2022-12-21 10:56 · 稿源:站长之家

站长之家(ChinaZ.com)12月21日 消息:DALL-E2可以说是2022年最热门AI绘画模型之一,最近 OpenAI 刚刚发布一个功能似乎更为强大AI模型,可用于3D建模。

在12月16日提交的一篇论文中,OpenAI 团队描述Point-E称,这是一种从复杂的文本提示生成3D 点云的方法。

利用Point-E,AI 爱好者可以跳过文本生成2D 图像的阶段,用文本生成3D模型。该项目也已在Github上开源,以及模型的各种参数数量的权重。

image.png

该模型只是使解决方案起作用的部分之一。论文的关键在于提出的通过适用于点云的扩散方法创建3D 对象的方法。该算法的创建重点是虚拟现实、游戏和工业设计,因为它生成3D 对象的速度比当前方法快600倍。

文本生成3D 模型目前有两种工作方式。第一种是在具有3D 对象到文本配对的数据上训练生成模型。这导致无法理解更复杂的提示以及3D数据集的问题。第二种方法是利用文本图像模型来优化提示的3D 表示的创建。

Point-E 结合了传统的文本到3D 合成训练算法的方法。将两个单独的模型结合在一起,Point-E 可以减少创建3D 对象的数量。第一组算法是文本到图像模型,类似 DALL-E2,它可以创建用户给出的提示的图像。然后将此图像用作第二个模型的基础,该模型将图像转换为3D对象。

OpenAI 团队创建了一个包含数百万个3D 模型的数据集,再通过 Blender 将其导出。然后对这些渲染进行处理,将图像数据提取为点云,这是表示3D物体合成密度的一种方式。经过进一步的处理,比如删除平面对象和通过CLIP特征进行聚类,数据集就可以被输入View Synthesis GLIDE模型了。

接着,研究人员通过将点云表示为形状的张量,创建了一种新的点云扩散方法。然后,通过逐步去噪,将这些张量从随机形状削减到所需3D对象的形状。该扩散模型的输出通过点云上采样器运行,以提高最终输出的质量。为了与常见的3D 应用程序兼容,使用 Blender 将点云转换为网格。

最后,这些网格可用于游戏、元宇宙应用程序或其他3D 密集型任务,如电影后期处理。虽然 DALL-E 已经彻底改变了文本到图像的生成过程,但 Point-E 的目标是为3D 领域做同样的事情。

Point-E的Github开源网址:https://github.com/openai/point-e

举报

  • 相关推荐
  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • OpenAI也来了,巨头为何决战AI浏览器?

    AI浏览器赛道再添一位重量级玩家——ChatGPT Atlas,这是OpenAI推出的首款人工智能驱动的网页浏览器。 这也被外界认为OpenAI要向谷歌宣战,挑战Chrome一直以来的浏览器霸王地位。ChatGPT Atlas发布当天,谷歌母公司Alphabet股价应声下挫,盘中最大跌幅接近5%,足见市场对这一新品的敏感度。 近一年来,AI浏览器的战略价值成为行业共识,从业者更是将其与智能代理(Agent)、搜索引�

  • OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

    OpenAI于10月22日推出首款AI驱动浏览器ChatGPT Atlas,以个性化上网体验为核心。用户点击“Ask ChatGPT”即可在侧边栏实时互动,实现网页摘要生成、航班预订、文档编辑等多样化任务。目前仅支持macOS,未来将扩展至Windows和移动端。高级代理功能暂限付费用户使用,其特色包括自动捕捉页面上下文、分屏浏览及记忆用户操作历史,旨在通过自然对话提升网络使用效率。

  • 人工智能巨头OpenAI拟上市 估值或高达1万亿美元

    OpenAI正积极推进上市计划,据知情人士透露,该公司可能最早于2026年下半年向证券监管机构提交上市申请,目标在2027年正式上市。 此次IPO的估值有望达到约1万亿美元,或将跻身全球规模最大的IPO之列。 在初步讨论中,OpenAI曾考虑通过上市筹集至少600亿美元资金,实际融资规模可能进一步扩大。

  • Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

    Soul App近日开源其播客语音合成模型SoulX-Podcast,专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言,可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外,在通用语音合成及克隆任务中表现优异,能灵活调节节奏与副语言元素(如笑声),提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

  • AI日报:OpenAI发布浏览器Atlas;通义Qwen3-VL新增2B、32B两个模型尺寸;百川发布循环证据增强大模型

    本文汇总AI领域最新动态:OpenAI推出集成ChatGPT的Atlas浏览器,实现多任务自主处理;阿里通义千问新增2B/32B视觉语言模型,手机可流畅运行;谷歌AI Studio升级Vibe Coding功能,简化应用开发流程;百川发布医疗大模型M2Plus,通过循证推理降低误诊率;奇瑞墨甲机器人实现L3级技术突破,计划多行业应用;YouTube推出AI肖像识别工具,打击虚假内容;三星宣布2026年推出AI眼镜,融合AR与语音助手;Claude客户端更新,支持截图分析和语音交互功能。

  • OpenAI 推出浏览器:“让位吧,Chrome”

    ​北京时间10月22日凌晨,没等来传闻中的Gemini3,等来了OpenAI正式发布首款AI浏览器ChatGPT Atlas。 简单来说,这是一个把ChatGPT"塞进"浏览器的产品,你在任何网页上都能随时唤出ChatGPT侧边栏,让AI帮你总结内容、编辑文字、甚至代替你完成购物和预订任务。 听起来有点像Chrome装了个ChatGPT插件?确实如此,但OpenAI的野心远不止于此。

  • AI日报:豆包推全自动多人配音系统;Adobe Firefly Image 5重磅升级;Soul语音模型SoulX-Podcast发布

    本期AI日报聚焦多项技术突破:豆包推出全自动有声剧系统,实现98%角色识别准确率;Adobe Firefly Image 5支持400万像素原生输出及AI音轨生成;Soul发布90分钟无中断播客生成模型;360推出全球首款L2-L4全栈智能平台;IBM发布可在普通设备运行的Granite 4.0 Nano模型。市场方面,移动端AI用户突破7亿,豆包领跑原生应用;PayPal与OpenAI合作使ChatGPT集成支付功能;谷歌推出AI营销工具Pomelli,可基于URL自动生成营销内容。

  • AI日报:视觉中国与多家大模型公司达成合作;OpenAI紧急暂停Sora生成已故名人;谷歌推出Gemini地图数据集成工具

    视觉中国与多家AI公司合作开发可商用视觉大模型,已获阿里、微软等订单。OpenAI因不当内容暂停Sora生成马丁·路德·金形象视频,引发AI伦理讨论。DeepSeek在加密货币交易实验中表现领先。WhatsApp将禁止第三方通用AI聊天机器人,仅保留Meta AI。宇树科技推出仿人机器人Unitree H2,具备拟人化设计。谷歌为Gemini集成地图数据工具,可访问25亿地点实时信息。Opera推出集成三款AI助手的Neon浏览器,但用户体验存在困惑。Facebook在美加推出AI照片编辑建议功能,可分析手机未分享照片。

  • OPPOFind X9 新机发布, 火山引擎助力打造AI应用新体验

    OPPO Find X9系列以“画质革命”为核心,全面升级移动影像能力,致力于打造手机摄影新标杆。该系列搭载火山引擎,强化AI功能,支持AI写作、播客创作、多模态问答及AI作图,重点优化旅行场景,简化创作流程。同时,作为业界首款支持机密计算AI推理的消费级手机,通过AICC平台保障用户数据全生命周期安全,提供放心、便捷的智能服务体验。

今日大家都在搜的词: