首页 > 原创 > 关键词  > 正文

AI日报:OpenAI重磅上线Sora;智谱AI免费多模态模型GLM-4V-Flash;腾讯云打造AI代码助手

2024-12-10 15:25 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、OpenAI正式上线Sora,ChatGPT Pro用户可无限生成、最长20秒

OpenAI 在 "ship-mas" 系列活动中发布了 Sora Turbo 视频生成 AI,支持生成20秒1080p 视频,用户可通过文本、图片或视频进行创作,具有多种风格和剪辑功能。该平台强调创意表达与内容安全,用户可浏览其他创作者的视频。

image.png

【AiBase 提要:】

🌟 Sora Turbo 支持生成最高1080p 分辨率的20秒视频。

🎨 用户可以使用多种工具进行创意视频制作。

🔒 所有生成视频均附加水印和 C2PA 元数据确保安全。

详情链接:https://sora.com/

2、智谱AI上线免费多模态模型GLM-4V-Flash:图像处理精确度提升

北京智谱华章科技有限公司推出了其首个免费多模态API——GLM-4V-Flash,旨在提升图像处理的精确度,降低开发者的使用门槛。该模型支持多种语言,并具备多项高级图像处理功能,如图像描述生成和视觉问答等,能够为特定行业提供精准解决方案。

【AiBase提要:】

🌐 GLM-4V-Flash是首个免费多模态API,支持26种语言,降低开发门槛。

📊 具备图像描述生成、分类、视觉推理等高级功能,适用于多个行业。

🚀 该模型已在社交媒体、教育、美容等领域展现出显著效益。

详情链接:https://www.bigmodel.cn/console/trialcenter

3、腾讯云AI代码助手上线,基于混元大模型打造

腾讯云推出的AI代码助手旨在通过预测和提供代码建议来帮助程序员提升开发效率。该工具利用混元大模型,能够深入理解代码上下文,提供精准的代码补全建议,超越传统的关键词匹配方式。它不仅能适应程序员的编码风格,还在多个关键场景中展现了强大的编码辅助能力,如生成正则表达式、快速生成前端页面以及清晰解读复杂代码。

微信截图_20241210085836.png

【AiBase提要:】

⚙️ AI代码助手通过深入理解代码上下文,提供精准的代码补全建议,显著提升开发效率。

📈 该助手能够学习程序员的编码风格,提供定制化的代码补全,贴合个人习惯。

🔍 通过混元大模型,AI代码助手在多个场景中展现强大能力,包括生成正则表达式和快速适配新接口规范。

4、可灵AI API V1.5模型新增标准std模式、V1.0模型新增运动笔刷

北京快手科技有限公司近日推出了可灵AI的API V1.5模型标准模式和V1.0模型的“运动笔刷”功能。这些更新旨在提升用户体验,增强艺术创作的灵活性与效率。V1.5模型以其卓越的效果和快速的处理速度为用户提供了高性价比的选择,而V1.0模型的新功能则允许用户为图片中的人物或物体指定运动轨迹,带来了更精准的运动控制和生动的表现。

image.png

【AiBase提要:】

✨ V1.5模型标准模式提供了出色的效果和快速的处理速度,提升用户体验。

🖌️ V1.0模型新增的“运动笔刷”功能允许用户指定运动轨迹,实现精准控制。

🌟 新功能丰富了可灵AI的功能,为视觉艺术创作带来了创新的可能性。

5、书生·万象多模态大模型InternVL2.5开源 性能媲美GPT-4o

上海 AI 实验室推出的书生·万象InternVL2.5模型在多模态理解基准上取得了超过70%的准确率,成为首个开源模型与商业模型如GPT-4o和Claude-3.5-Sonnet相媲美。该模型通过链式思考推理技术提升了性能,并在多个领域展现了强大的测试时间可扩展性及多学科推理能力。

image.png

【AiBase提要:】

🚀 InternVL2.5模型在多模态理解基准上达到了超过70%的准确率,表现出色。

📈 通过链式思考推理技术,该模型实现了3.7个百分点的性能提升,展现了强大的可扩展性。

🌐 开源特性使得研究人员和开发者能够自由访问和使用该模型,推动多模态AI技术的发展。

详情链接:https://www.modelscope.cn/collections/InternVL-25-fbde6e47302942

6、Swift Ventures发布AI公司指数明确人工智能投资标准

Swift Ventures推出了一项新的人工智能公司指数,旨在帮助投资者识别真正进行AI技术投资的上市公司。该指数分析了数千份数据,发现尽管公司在财报中频繁提及AI,实际大规模投资的公司却寥寥无几。当前追踪的90家公司在AI研究和人才密度方面表现突出,年增长率远超市场平均水平。

【AiBase提要:】

📊 该指数追踪约90家公司,依据AI研究投资、人才密度和AI收入进行评分。

💡 投资AI研究的公司,其平均毛利润是未投资公司的两倍,显示出研究与盈利能力的正相关。

🚀 一些低调公司在AI领域表现出色,年增长率超过50%,表明AI转型已超越大技术公司。

7、量子计算惊天一跃!谷歌Willow芯片5分钟搞定138亿年计算,OpenAI都看傻了

谷歌的Willow量子芯片在量子计算领域取得了划时代的突破,成功将计算任务从传统计算机需要的10^25年缩短至仅5分钟,展示了量子技术的巨大潜力。通过精细的工程设计,Willow在增加量子比特数量的同时,显著降低了计算误差,推动了量子计算的进步。

image.png

【AiBase提要:】

⚡ Willow芯片在量子计算中实现了低于阈值的误差控制,错误率显著降低。

⏱️ 计算速度惊人,10^25年的任务仅需5分钟,展现了量子计算的巨大潜力。

🔒 Willow的进步引发了对加密安全的担忧,尤其是对比特币等加密货币的潜在威胁。

8、宅男福音!VR角色扮演AI来了,南洋理工“造人”新突破,唱跳互动还能陪你聊!

新加坡南洋理工大学的研究团队推出了名为SOLAMI的AI技术,能够创造出活灵活现的3D虚拟角色,支持实时互动、语音理解和动作响应。该技术利用深度学习,将用户的语音和动作转化为虚拟角色可理解的语言,提供自然流畅的互动体验。SOLAMI还配备VR界面,用户可通过VR设备与虚拟角色进行面对面交流。

image.png

【AiBase提要:】

🎮 SOLAMI是一个端到端的社会视觉-语言-动作建模框架,实现用户与虚拟角色的自然互动。

📊 SynMSI合成数据集为训练提供了丰富的对话和动作数据,解决了数据缺乏的问题。

🌐 SOLAMI的沉浸式VR界面让用户能够身临其境地与虚拟角色互动,提升了社交体验。

详情链接:https://solami-ai.github.io/

9、X 正式表态,全新AI图像生成器Aurora将在本周内向所有用户推出

近日,社交网络 X(前身为推特)推出了新的图像生成器Aurora,经过数十亿个样本训练,具备高质量图像生成能力。虽然最初被撤下,但现已重新上线,计划在一周内向所有用户推广。Aurora能够精准渲染真实世界的视觉细节,尽管在测试中发现其生成的图像偶尔存在不自然的融合和细节缺失问题。

image.png

【AiBase提要:】

✨ Aurora是由xAI开发的新图像生成器,具备照片级渲染能力。

🌍 目前已在部分国家上线,预计一周内向所有用户推广。

🔍 测试发现Aurora生成的图像有时存在不自然的融合和人物细节缺失问题。

详情链接:https://x.ai/blog/grok-image-generation-release

10、Reddit 推出 AI 问答功能,但用户却不买账!

Reddit最近推出了名为“Reddit Answers”的新功能,旨在通过AI驱动的问答提升用户搜索体验。然而,尽管该功能可以基于平台内的帖子和评论提供答案,用户的反馈却并不积极,许多人认为改善搜索功能的优先级更高。该功能目前仅在美国的有限用户中测试,且尚未在Android平台上推出。

image.png

【AiBase提要:】

🔍 新功能“Reddit Answers”开始在美国有限用户中测试,旨在提升搜索体验。

🤖 该功能利用Reddit平台内的帖子和评论,提供AI驱动的问答服务。

😟 用户反响平平,许多人对搜索功能改善的优先级表示不满。

11、特斯拉陶琳:将坚持自动驾驶纯视觉路线

特斯拉副总裁陶琳重申了公司在自动驾驶技术上坚持纯视觉路线的决心。她强调,只有通过摄像头和视觉神经网络的结合,才能更好地模拟人类的驾驶习惯,从而实现更安全、更智能的完全自动驾驶。特斯拉的AI4芯片已在所有在售车型中配备,算力提升显著,标志着公司在硬件上已为完全自动驾驶做好准备。

【AiBase提要:】

🔍 特斯拉坚持通过纯视觉技术实现完全自动驾驶,认为这是最安全、最智能的方案。

💡 自动驾驶技术采用端到端大模型,已实现从光子输入到决策输出的全过程。

📈 所有在售车型均配备最新AI4芯片,算力提升5倍,为实现完全自动驾驶奠定基础。

12、惊人复苏!Stability AI新管理层六个月实现无债务、三位数业务增长

Stability AI在新任首席执行官普雷姆・阿卡拉朱的带领下,经过六个月的努力,成功实现了业务的三位数增长,并清除了所有债务。阿卡拉朱强调公司资产负债表的健康状态,并专注于API和许可服务的快速发展。新管理团队的形成吸引了曾经离开的投资者回归,标志着公司前景的向好。

【AiBase提要:】

💼 Stability AI新CEO普雷姆・阿卡拉朱表示,公司业务已实现三位数增长,且无债务。

📈 新管理团队在六个月内完成复苏,吸引曾离开的投资者回归。

🎥 知名导演詹姆斯・卡梅隆已加入Stability AI董事会,显示行业信心回升。

13、智源开源无标注视频学习的3D 生成模型 See3D

北京智源人工智能研究院推出了 See3D 模型,能够利用无标注互联网视频进行3D 生成。该模型通过视觉条件技术,生成相机方向可控且何一致的多视角图像,避免传统相机标注的需求,具有良好的数据扩展性和适用性。See3D 已开源,支持多种3D 创作应用。

微信截图_20241210151417.png

【AiBase 提要:】

🌟 See3D 利用大规模无标注视频进行3D 学习,降低数据采集成本。

🎥 模型支持从文本、单视图到3D 生成,功能多样。

🔍 开源模型和数据集促进3研究社区关注无相机标注数据。

项目地址:https://vision.baai.ac.cn/see3d

举报

  • 相关推荐
  • AI日报:美团LongCat-Flash-Omni发布;Qwen3-Max上线深度思考功能;百度“文心”5.0重磅回归

    本期AI日报聚焦多领域技术突破:美团发布全模态交互模型LongCat-Flash-Omni;阿里通义千问Qwen3-Max上线深度思考功能;百度文心5.0升级多模态生成能力;谷歌确认Gemini3年内发布并整合至苹果Siri;OpenAI向多国开放Sora2视频工具;云存储与AI开发工具持续优化,展现行业加速迭代态势。

  • AI日报:Lovart AI上线“元素拆分”功能;Xcode 26.1.1发布;阿里云通义模型首次大规模赋能双11

    本期AI日报涵盖八大热点:Lovart AI推出"元素拆分"功能,实现海报智能分层编辑;苹果Xcode 26.1.1优化AI编码性能;阿里云通义模型双11单日翻译调用量突破14亿次;Gemini 3在历史手稿破译中展现专家级能力;德国法院裁定OpenAI使用歌词训练构成侵权;开源语音模型Maya1实现富有表现力的实时文本转语音;Meta首席AI科学家LeCun计划离职创办世界模型公司;AI专家罗福莉加入小米,将致力于构建物理世界智能。

  • AI日报:月之暗面开源AI新框架Kosong;百度发布新模型ERNIE-4.5-VL;GPT-5.1“隐身”登场

    本期AI日报聚焦多项技术突破:月之暗面开源AI代理框架Kosong,支持异步编排与插件化设计;Replit推出AI集成功能,可一键调用300+模型;商汤发布空间智能模型SenseNova-SI,性能超越GPT-5;百度推出多模态模型ERNIE-4.5-VL,新增图像思考能力;谷歌地图全面AI化,集成Gemini实现智能交互;ChatTutor上线可视化教学系统,覆盖多学科实时推演;新版Google Finance引入AI深度搜索与财报追踪;OpenAI低调上线Polaris Alpha模型,支持256K上下文并更新知识库至2024年10月。

  • AI全面落地双11,淘宝走出一条和OpenAI不同的路

    ​今年的双11已经进入最后阶段,消费者和商家都有一个明显的感受是,AI的浓度真的很高,并且AI的全面落地应用,真的在改变传统用户购物、商家经营的链路。 消费者能感受到两个比较明显的变化:一个是AI导购开始走进真实的购物场景。淘宝为双11投入了六款AI导购类产品,其公布的数据显示,AI万能搜已经帮助消费者解决了5000万个消费需求。 另一个则是平台推荐的商品越

  • AI日报:Sora正式登陆Android;网易云音乐推AI调音大师;谷歌将推Nano Banana2

    本期AI日报聚焦多领域突破:OpenAI视频应用Sora登陆安卓平台并引入付费角色功能;网易云音乐推出AI调音大师实现智能音效适配;字节跳动高薪布局人形机器人赛道;谷歌Gemini平台将升级图像生成技术;llama.cpp实现多模态革命;特斯拉秘密实验室通过行为数据训练机器人;上海首例AI著作权案宣判保护原创;微软推出自研图像生成器MAI-Image-1,在创意效率与质量间取得平衡。

  • AI日报:广电整治AI动画乱象;360发布大模型安全白皮书;百度推出小度AI眼镜Pro

    国家广电总局宣布自2026年3月起全面整治AI生成内容,要求AIGC作品纳入分类分层审核体系。360发布《大模型安全白皮书》,提出全链路AI安全防线应对新型威胁。百度推出2299元小度AI眼镜Pro,集成智能翻译等多项功能。StepFun开源音频编辑模型Step-Audio-EditX,实现文本化语音编辑。Grok新增纯文本生成视频功能,17秒可生成带特效视频片段。研究发现谷歌Veo-3模型能生成逼真手术视频但缺乏医学逻辑。阿里Qwen3-Max-Thinking在全球数学竞赛夺冠,并在加密货币交易中取得显著回报。OpenAI推出轻量化GPT-5 Codex Mini模型,优化开发者体验。

  • AI日报:Sora免费额度要缩水;月之暗面发布Kimi Linear架构;Canva免费放出Affinity专业设计套件

    本期AI日报聚焦多项技术突破:OpenAI调整Sora免费额度并推出付费计划,标志视频生成进入商业化;Figma收购Weavy推出AI设计工具;OpenAI发布基于GPT-5的安全研究助手Aardvark;全球首款AI字体生成器Dr Fonts上线;中国信通院发布大模型一体机应用报告;月之暗面推出Kimi Linear架构实现推理速度6倍提升;Canva免费发布Affinity设计套件挑战Adobe;Chrome新增Gemini驱动的图像生成与深度搜索功能。

  • AI日报:昆仑万维SkyReels V3模型上线;月之暗面推Kimi Linear模型;MiniMax Music 2.0 发布

    本期AI日报聚焦多领域创新:昆仑万维推出SkyReels V3模型,整合顶尖视频生成能力;月之暗面Kimi Linear模型处理长文本速度提升2.9倍;MiniMax Music 2.0实现专业级音乐创作;字节跳动启动豆包股权激励计划吸引AI人才;苹果iOS 27将迎AI重大升级,Siri更个性化;Dia浏览器融合Arc设计理念与AI技术;文心魔法漫画工具实现一键生成连载作品;谷歌Gemini Canvas新增PPT自动生成功能,由Gemini 2.5 Pro驱动,提升职场效率。

  • OpenAI也来了,巨头为何决战AI浏览器?

    AI浏览器赛道再添一位重量级玩家——ChatGPT Atlas,这是OpenAI推出的首款人工智能驱动的网页浏览器。 这也被外界认为OpenAI要向谷歌宣战,挑战Chrome一直以来的浏览器霸王地位。ChatGPT Atlas发布当天,谷歌母公司Alphabet股价应声下挫,盘中最大跌幅接近5%,足见市场对这一新品的敏感度。 近一年来,AI浏览器的战略价值成为行业共识,从业者更是将其与智能代理(Agent)、搜索引�

  • 品牌在AI时代“隐形”?用GEO指数破解AI搜索曝光密码

    文章探讨AI搜索时代品牌曝光新指标GEO指数,指出其通过可见度(品牌在AI回答中的出现概率)和曝光度(被提及总次数)衡量品牌在豆包、文心一言等主流AI模型中的存在感。以徕芬为例,其GEO得分仅33分,反映在AI搜索中存在感薄弱。随着超60%消费者决策参考AI推荐,GEO指数直接影响品牌流量获取。文章建议通过AIBase工具分三步优化:绑定品牌信息锚定监控范围、分析关键词关联度与竞品表现、针对性补充官网内容强化核心词布局,将AI搜索流量转化为品牌增长新引擎。

今日大家都在搜的词: