首页 > 业界 > 关键词  > GPTs最新资讯  > 正文

AI视野:GPTs商店推迟至2024年发布;抖音AI扩图爆火;阿里推出AI动画生成框架;出门问问推出奇妙助手

2023-12-04 15:25 · 稿源:站长之家

【要闻速览】

  • GPTs商店推迟至2024年发布

  • OpenAI在中国申请GPT-6、GPT-7商标

  • 抖音AI扩图爆火

  • 谷歌推超快扩散模型MobileDiffusion

  • 阿里推出AI动画生成框架

  • 中国电信成立AI公司

  • AI视觉字谜爆火!梦露转180°秒变爱因斯坦

  • 字节跳动与中科大联手提出多模态文档大模型DocPedia

  • 哈工深发布多模态大模型九天

  • krea AI推出实时增强功能

  • Meta推出家庭机器人学习框架Dobb-E

  • 出门问问推出奇妙助手

📰🤖📢AI新鲜事

GPTs商店推迟至2024年发布

OpenAI宣布将定制化GPT商店的发布时间推迟至2024年初,此举发生在公司首席执行官更迭、员工威胁罢工后,公司继续改进GPT以提高性能和功能。

【AiBase提要:】

🗓️ OpenAI推迟GPT商店发布至2024年初,发生在CEO更迭和员工威胁罢工后。

🔄 公司持续改进GPT,以满足用户反馈,计划让用户定制GPT并赚取收入。

🌐 推迟旨在为公司提供更多时间,确保GPT商店能提供高质量的定制体验。

OpenAI在中国申请GPT-6、GPT-7商标

OpenAI近日在中国积极申请GPT-6和GPT-7商标,显示其对全球人工智能行业的远见,同时展示GPT-4超过1万亿参数的强大性能,预示着GPT-6和GPT-7的创新。

【AiBase提要】

🚀 OpenAI在中国申请GPT-6和GPT-7商标,展现全球化视野,尽管未在中国提供服务。

💡 GPT-4参数超过1万亿,预示GPT-6和GPT-7将引领创新,商标审查仍在进行中。

👥 OpenAI首席执行官Sam Altman强调推动GPT-5研发,寻求微软额外资金,关注人工智能创新中的伦理问题。

中国电信成立AI公司

一家名为中电信人工智能科技有限公司的新公司成立,注册资本30亿元,由中国电信100%控股。该公司的经营范围包括人工智能理论与算法软件开发、基础软件开发、应用软件开发以及人工智能硬件销售。此举是中国电信在人工智能领域的重大举措,与其之前发布的千亿参数大模型星辰语义相关。

【AiBase提要:】

🚀 战略投资: 中国电信成立30亿元AI科技新公司,致力于人工智能理论、算法和应用软件的研发,以及人工智能硬件销售。

🌐 千亿参数大模型: 中国电信发布千亿参数大模型星辰语义,在幻觉抑制、外推窗口、交互体验和多轮理解方面取得显著提升。

🔍 多领域覆盖: 公司计划在未来开源百亿参数和千亿参数大模型,涵盖教育、医疗、旅游等多个行业。

GPT-4惊人表现:文字序列混乱不影响阅读理解

日本东京大学研究发现,GPT-4在处理文字序列乱序时表现出惊人的恢复能力,超越其他大型模型,不仅对乱序句子准确恢复,还展现出优异的分词能力。

image.png

论文地址:https://arxiv.org/abs/2311.18805

【AiBase提要:】

😲 研究发现GPT-4在处理乱序文字时表现出惊人的恢复能力,远超其他大型模型。

🧩 通过Scrambled Bench测试,GPT-4在极端情况下保持较高的恢复率和准确性,展现出强大的抗干扰能力。

🔤 GPT-4在分词方面的表现超越其他模型,即使对于连续英文文本的分词也令人惊讶。

抖音AI扩图火出圈 网友创作奇异有趣作品走红

一位博主在抖音上使用AI智能扩图生成的照片走红,引发近40万次点赞和5万多次转发。然而,随着更多网友使用AI智能扩图创作,一系列奇异有趣的作品涌现,展现了AI扩图的创意潜力。尽管取得关注,但也有作品凸显生成图像的不足之处,可能与训练和生成过程中的问题有关。需要注意AI智能扩图在生成图像真实性方面的局限性,未来随技术发展这些问题或有望解决。

image.png

【AiBase提要】

😮 博主在抖音使用AI智能扩图创作走红,引发热潮。

😂 网友创作出奇异有趣作品,展现AI扩图的创意潜力。

🤔 一些作品凸显生成图像的不足,可能与训练和生成过程中的问题有关。

AI视觉字谜爆火!梦露转180°秒变爱因斯坦

最新扩散模型通过视错觉画实现AI绘制,倒转图像可变换主题,受网友热捧,英伟达高级AI科学家盛赞为近期最酷的模型。

图片

论文地址:https://arxiv.org/pdf/2311.17919.pdf

【AiBase提要:】

🎨 扩散模型创新:AI绘制视错觉画,倒转图像即可变换主题。

💡 模型应用广泛:两组提示词随机生成各类画作,对象截然不同也能呈现。

🔬 技术原理深度解析:基于DeepFloyd IF的像素扩散模型,通过噪声平均实现图像变换,展现出多样的视觉效果。

🤖📈💻💡大模型动态

谷歌推超快扩散模型MobileDiffusion 手机上0.2秒出图

MobileDiffusion是谷歌打造的移动端扩散模型,实现了在iPhone15Pro上仅需0.2秒的文生成图速度。通过对UNet核心组件的精简和采样优化,提高了模型效率和参数剪切,为移动端应用提供了亚秒级的出图能力。

图片

论文地址:https://arxiv.org/abs/2311.16567

【AiBase提要】:

🚀 速度突破: MobileDiffusion在移动端实现0.2秒出图,创下当前最快速度。

🔍 模型优化: 通过对UNet核心组件的精简和采样优化,提高了模型效率和参数剪切。

📱 移动应用保障: MobileDiffusion不仅在基准测试中表现出色,还在下游任务测试中展现了出色的微调能力。

字节跳动与中科大联手提出多模态文档大模型DocPedia

字节跳动与中国科学技术大学联手研发的多模态文档大模型DocPedia成功突破了分辨率极限,达到2560×2560的高分辨率,通过感知-理解联合训练策略和频域处理解决了现有模型在解析高分辨文档图像方面的不足。

image.png

论文地址:https://arxiv.org/pdf/2311.11810.pdf

【AiBase提要:】

🚀 突破分辨率极限: 字节跳动与中科大合作的多模态文档大模型DocPedia成功达到2560×2560的高分辨率,明显超越现有先进模型。

🧠 强大多模态理解: DocPedia不仅准确识别图像信息,还能结合用户需求调用知识库回答问题,展现了强大的多模态文档理解能力。

🔄 训练关键策略: 通过感知-理解联合训练策略和频域处理解决分辨率问题,在微调阶段进行整体优化,显著提高了DocPedia的性能。

哈工深发布多模态大模型九天 性能提升5%

九天是哈尔滨工业大学发布的多模态大语言模型,通过融合细粒度空间感知和高层语义视觉知识,在13个视觉语言任务上实现state-of-the-art性能,尤其在Visual Spatial Reasoning任务上提升了5%。

image.png

论文链接:https://arxiv.org/abs/2311.11860

GitHub:https://github.com/rshaojimmy/JiuTian

项目主页:https://rshaojimmy.github.io/Projects/JiuTian-LION

【AiBase提要:】

🚀 创新性方法: 九天模型采用双层视觉知识增强,通过渐进式融合细粒度空间感知和高层语义视觉证据,显著提升了视觉理解能力。

🌐 性能突破: 在13个视觉语言任务上取得state-of-the-art性能,尤其在Visual Spatial Reasoning任务上实现了5%的性能提升。

🔗 开源资源: 论文已发布于arXiv,项目代码和主页也在GitHub上公开,为多模态大语言模型领域提供新思路和强大支持。

Perplexity发布两款在线LLM模型

Perplexity AI推出的pplx-7b-online和pplx-70b-online是基于实时互联网数据的在线大语言模型,通过API公开访问,解决了离线模型无法提供即时、精确响应的问题,具备优越的新鲜度、真实性和整体偏好性能。

pplx-api:https://docs.perplexity.ai/docs/getting-started

使用Perplexity Labs免费试用在线模型:https://labs.perplexity.ai/

【AiBase提要】:

🚀 Perplexity AI发布两款在线大语言模型,pplx-7b-online和pplx-70b-online,通过实时互联网数据提供即时、精确响应。

🌐 与传统离线模型不同,这两款模型在新鲜度、真实性和整体偏好方面持续优于同类模型,开发者可通过API体验其独特功能。

📈 这一创新解决方案标志着人工智能驱动的信息检索系统的变革,开发者可通过Perplexity的API立即使用这些模型创建应用程序。

中科院提出全新多视图世界模型和自动驾驶世界模型Drive-WM

中科院自动化所的Drive-WM模型结合多视图世界模型,通过Diffusion模型生成逼真视频场景,为自动驾驶系统提供多视图预测和规划,显著提高安全性。

【AiBase提要:】

🌐 Drive-WM模型整合多视图世界模型,利用生成式世界模型的生成能力,为自动驾驶系统提供多视图预测和规划。

🚗 首次将世界模型与端到端规划结合,通过图像奖励函数全面评估,实现更安全、有效的规划。

📹 在面对Out-of-Distribution场景时,Drive-WM通过生成视频进行微调,提高规划器在复杂场景中的性能。

🤖📱💼AI应用

出门问问推出奇妙助手

奇妙元是出门问问的AI数字人视频创作平台,最近进行全面升级并推出奇妙助手。该功能能快速生成视频所需素材,包括高质量图片、智能文本生成、PPT文件解析等,为短视频创作者提供更多便利和创意可能性。

微信截图_20231204091241.png

【AiBase提要:】

🌟 全面升级与新功能推出: 出门问问旗下奇妙元平台升级,并推出奇妙助手,为视频创作者提供丰富素材和智能文本生成功能。

🖼️ 多样化的素材选择: 奇妙助手内置了8种风格和3种尺寸比例的高质量图片,同时支持一键生成讲解视频、提取视频台词,准确率高达99%。

💡 数字人商店更新与创意拓展: 平台新增33+形象和海量剪辑模板素材,为短视频创作者提供更多创意可能性。

krea AI推出实时增强功能

krea AI发布实时增强功能,允许用户在绘制图像时进行实时放大,提高细节和分辨率,为设计领域带来更高效的创作体验。

image.png

【AiBase提要:】

💡 Krea AI实时增强功能支持绘制图像实时放大,提高细节和分辨率,为设计师提供更便捷的创作体验。

🚀 强大的实时生成功能让用户轻松切换多种风格,即使是缺乏绘画基础的用户也能轻松创建精致图像。

🔄 Krea AI不仅支持画板上的创作,还能接入电脑桌面和摄像头画面,为设计师提供更广泛的创作空间。

LEDITS++:根据文字编辑图像 可对画面进行删除修改

LEDITS++项目通过文本提取概念,以惊人效果编辑图像,具备灵活性、语义基础编辑、通用性,成为图像编辑领域的革命性工具。

image.png

试玩地址:https://huggingface.co/spaces/editing-images/leditsplusplus

【AiBase提要】

💡 技术原理与灵活性: LEDITS++基于友好噪声空间的特征推导,以出色的输入重建能力,通过20个扩散步骤实现编辑,展现强大的通用性。

🎨 注重语义基础的编辑艺术: LEDITS++设计强调提升编辑的视觉和上下文连贯性,保持图像自然流畅,提供高水平编辑精度。

🔄 多功能编辑与通用兼容性: LEDITS++不仅是图像编辑工具,更是注重语义基础的编辑艺术,与任何扩散模型兼容,为用户提供广泛适用、高效的图像编辑工具。

👨‍💻💡🎯聚焦开发者

阿里推出AI动画生成框架

阿里近日推出了名为"Animate Anyone"的视频生成技术,通过引入扩散模型解决图像到视频合成的挑战,特别在角色动画领域。论文详细介绍了创新框架的关键组成部分,包括ReferenceNet、姿势引导器和时间建模方法。该技术不仅在人物角色动画生成领域表现出色,还在时尚视频合成和人类舞蹈生成等多个领域取得了最先进水平。

image.png

论文地址:https://humanaigc.github.io/animate-anyone/

【AiBase提要:】

🚀 创新框架设计: "Animate Anyone"引入巧妙设计的ReferenceNet、姿势引导器和时间建模方法,解决图像到视频合成中的细节一致性和运动连贯性问题。

🤖 关键技术组合: 通过姿势引导器、去噪UNet、空间注意力等计算块,结合ReferenceNet和CLIP图像编码器,实现对复杂特征的准确捕捉和生成。

🌐 多领域应用: 经过扩展训练数据,该技术不仅在人物角色动画生成方面卓有成效,还在时尚视频合成和人类舞蹈生成等领域展现出色,达到了最先进水平。

SceneTex: 生成高质量、风格一致的室内场景纹理的新型AI方法

近日,慕尼黑工业大学和Snap Research联合提出的SceneTex是一项新型AI方法,通过深度到图像扩散先验,采用多分辨率纹理和交叉注意力解码器,在室内场景中生成高质量、风格一致的纹理,为自动驾驶、机器人模拟、游戏、电影等多领域提供关键支持。通过创新性应用深度到图像扩散先验,SceneTex成功实现了室内场景的高质量、风格一致的纹理生成,为未来3D内容生成和应用提供了新的方向。

image.png

项目网址:https://daveredrum.github.io/SceneTex/

【AiBase提要:】

🌐 关键问题解决: SceneTex采用深度到图像扩散先验,在室内场景中实现高质量、风格一致的3D内容合成,解决了传统方法中的多个问题。

🤖 技术创新: 利用多分辨率纹理和交叉注意力解码器,SceneTex实现了全局样式一致性,提高了室内场景的纹理生成质量。

🚀 实际应用验证: SceneTex在3DFRONT数据集上的用户研究表明,在2D指标方面优于其他基于文本的纹理创建算法,为未来3D内容生成开辟了新的方向。

Meta推出家庭机器人学习框架Dobb-E

纽约大学和Meta合作推出的Dobb-E是一款高度适应性的开源机器人学习框架,通过从用户演示学习,成功率达到81%,在解决家庭环境中机器人操作学习的挑战方面取得显著成功。

项目网址:https://dobb-e.com/

论文网址:https://arxiv.org/abs/2311.16098

【AiBase提要:】

🚀 高度适应性系统: Dobb-E能够从用户演示中学习和适应,成功率达到81%。

🏡 独特家庭数据集: 利用iPhone功能构建的家庭和第一人称机器人交互数据集,突显在真实环境中的高效性。

💡 简单而强大的方法: Dobb-E的成功归功于包括行为克隆和两层神经网络用于动作预测在内的简单而强大的方法。

举报

  • 相关推荐
  • 中国无纸化2024年度TOP10企业重磅发布!itc保伦股份荣获全国第一!

    ITC保伦股份凭借技术实力和广泛市场覆盖,在2024年中国无纸化企业市场排名中位居榜首。其无纸化会议系统实现全流程管理,满足文档发送、阅读、共享、交流等需求,并整合会议生态,提供扩声、语音转写、视频会议等功能。公司拥有80亩工业园和16000平方米全自动生产车间,产品覆盖党政机关、法院、医院等多个领域。ITC坚持国产化研发,采用SM2、SM3、SM4国密算法保障信息安全,已成功应用于杭州亚运会等多个重要项目。随着数字化浪潮推进,无纸化作为数字化基石的重要性日益凸显,ITC将继续引领技术创新,推动行业迈向更智能、安全、普惠的未来。

  • 北芯生命2024年营收增长超70%,以创新与品质拓展市场

    深圳北芯生命科技专注心血管疾病精准诊疗创新,2024年营收3.17亿元同比增超70%,核心产品IVUS系统获欧盟MDR认证并进入国际市场,FFR系统填补国内金标准技术空白。公司拥有181项国内外专利,覆盖冠脉、外周血管及房颤治疗领域,海外收入3882.6万元同比增160%。2025年将推出国产首个全冠脉功能学一体化评价方案及外周IVUS导管,持续深化电生理PFA技术研发,相关产品进入国家创新医疗器械特别审查程序。

  • AI日报:智谱上线PPT生成功能AI Slides;可灵 AI 发布可图2.1模型

    本文介绍了AI日报栏目及近期AI领域多项突破性进展:1)智谱推出免费AI Slides工具,基于GLM模型快速生成高质量PPT;2)可灵AI发布可图2.1模型,支持180多种风格图像生成;3)NVIDIA推出DiffusionRenderer技术,实现视频到可编辑3D场景转换;4)墨刀AI新增30秒生成高保真原型功能;5)Higgsfield推出Soul ID工具,10张照片即可生成虚拟形象;6)谷歌DeepMind开源GenAI Processors工具库;7)谷歌Veo新增图像转视频功能;8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。

  • 可灵AI推出可图2.1模型 多维能力跃升、会员限时7天免费

    可灵AI于7月10日上线可图2.1模型,图片生成能力全面升级:1)指令遵循能力显著提升,可精准捕捉复杂提示细节;2)新增180多种风格响应,支持特殊材质、数字艺术等创作需求;3)人像美感大幅优化,肌肤纹理与光影效果更自然;4)增强电影质感生成,能呈现大片级层次氛围;5)文字生成效果提升,支持中英文营销海报等设计。即日起面向会员免费开放7天,实测显示该模型在复杂场景还原和细节表现上达到新高度,累计已生成超3亿张图片。

  • 马斯克xAI推出Grok - 4 大模型将至,Meta/微美全息深耕开源AI融合加速

    埃隆·马斯克旗下xAI即将发布Grok-4大模型,该模型将在语言、数学和推理方面超越OpenAI和谷歌最新AI产品。同时苹果低调收购两家AI公司TrueMeeting和WhyLabs,加速布局Vision Pro头显和Apple Intelligence领域。Meta计划投入数百亿美元扩建AI基础设施,扎克伯格亲自招募顶尖AI人才。微美全息聚焦高性能算力与多模态模型,推动AI产业升级。当前AI赛道竞争激烈,大模型正向通用多模态演进,商业化落地成为关键。

  • 2025最好的AI工具是什么 2025全球最佳AI工具终极指南

    文章探讨了当前AI工具爆炸式发展的现状,指出不存在适用于所有场景的"最佳AI工具",而是要根据个人需求选择最适合的组合。作者推荐使用AIbase平台(https://app.aibase.cn/),这是一个AI工具导航和搜索引擎,收录了全球数千款主流和新兴AI工具,涵盖写作、绘画、视频处理、办公自动化等多个领域。平台提供详细分类、真实用户评价和实时更新,能帮助用户快速找到适�

  • AI日报:美图发布影像AI Agent RoboNeo;1.8bit量化Kimi K2模型上线;亚马逊推AI代码编辑器 Kiro

    【AI日报】今日AI领域重要动态:1)美图推出RoboNeo,通过自然语言指令实现图片精修、品牌设计等全能影像处理;2)Unsloth AI将Kimi K2模型量化至1.8bit,体积缩减78%保持性能;3)谷歌Gemini嵌入模型登顶MTEB榜单,超越OpenAI;4)亚马逊发布免费AI代码编辑器Kiro,集成Claude模型;5)Claude新增应用工具目录功能提升工作效率;6)MiniMax完成近3亿美元融资,估值超40亿美元;7)UTCP新协议让AI代理直

  • 青年艺术新势力|2024-2025保时捷中国双年评选三位艺术家夺冠

    2024-2025保时捷"中国青年艺术家双年评选"揭晓最终获奖名单,胡佳艺、黎佳仪、徐戈三位青年艺术家从13组提名者中脱颖而出。他们通过多元媒介探索社会关系,赋予作品时间性、偶然性与情感深度。保时捷中国副总裁唐凤靓表示,该评选旨在为青年艺术家提供展示平台,鼓励创新表达。ART021创始人应青蓝称赞获奖者敏锐自由的艺术表达。三位艺术家创作风格各异:胡佳

  • 出门问问发布Agentic AI软硬结合产品TicNote,定义新一代“AI思考伙伴”

    出门问问发布新一代AI硬件TicNote,内置"Shadow AI"系统,实现"有记忆的AI记录+主动洞察+主动分析+陪伴创作"功能。该产品通过软硬件结合,成为用户的随身AI思考伙伴,适用于会议、商务沟通、学习等场景。TicNote具备20小时续航、10米远距收音、120+语言转写能力,支持跨文件项目管理。CEO李志飞表示,TicNote是"用AI的AI做AI"的AGI实践产品,标志着公司在软硬结合道路上更进一步。国内版已上线,海外版自2025年4月推出以来获广泛认可。

  • 2025年国外AI工具排名TOP10|全球热门AI工具全面解析 + 最全AI工具库推荐

    文章介绍了2025年国外AI工具Top10榜单,包括ChatGPT(对话生成)、Claude(长文本处理)、Midjourney(图像生成)、Gemini(多模态生成)、GitHub C opilot(编程辅助)、Notion AI(知识管理)、Perplexity AI(智能搜索)、Runway ML(视频编辑)、ElevenLabs(语音合成)和Descript(音视频编辑)。推荐使用AIbase平台一站式查找和管理AI工具,该平台收录上千款工具,支持智能搜索分类,提供中文界面和实时更新。建议用户关�