首页 > 业界 > 关键词  > 多模态AI最新资讯  > 正文

2023 年最重要的 3 项人工智能创新:多模态 AI、宪法 AI 和文本转视频技术

2023-12-22 11:39 · 稿源:站长之家

站长之家(ChinaZ.com) 12 月 22 日消息:2023 年,人工智能(AI)领域见证了重大进展,不仅公众对 AI 有了更深的理解,政府也开始认真对待 AI 风险。本年度的发展不仅是新技术和理念的出现,更是长期孕育后的集中爆发。

OpenAI ChatGPT,人工智能,AI

以下是过去一年中人工智能领域最重要的三项创新:

  1. 多模态 AI(Multimodality)多模态 AI 指的是 AI 系统处理各种不同类型数据的能力,不仅包括文本,还包括图像、视频、音频等。今年,公众首次获得了强大的多模态 AI 模型的访问权限。OpenAI 的 GPT-4 是其中的先锋,允许用户上传图像以及文本输入。例如,用户可以基于冰箱内容的照片询问 GPT-4 晚餐应该做什么。9 月,OpenAI 推出了用户通过语音以及文本与 ChatGPT 互动的功能

  2. 宪法 AI(Constitutional AI)宪法 AI 尝试解决如何使 AI 符合人类价值观的难题。2022 年 12 月,顶尖 AI 实验室 Anthropic 的研究人员首次描述了宪法 AI,并在其 2023 年推出的聊天机器人 Claude 中使用了这一技术。该技术的核心是先撰写一份表达期望 AI 遵循的价值观的「宪法」,然后训练 AI 根据宪法评分响应,并激励模型输出得分更高的响应。这是一种 AI 反馈的强化学习方法,与人类反馈的强化学习相比,更精确控制 AI 行为,且需更少的人类标签。

  3. 文本转视频技术文本转视频工具的迅速崛起是今年投入 AI 领域的数十亿美元资金的显著成果。布鲁克林的 AI 视频初创公司 Runway 的最新模型 Gen-2 允许用户不仅根据文本生成视频,还能根据文本提示改变现有视频的风格。此外,另一家初创公司 Pika AI 正在使用其技术每周创建数百万新视频。这些免费工具试图改变用户生成内容的格局,可能在 2024 年发生,但由于文本转视频工具计算成本高,一旦风险资本用尽,它们可能开始收费。

举报

  • 相关推荐
  • 寒武纪智能芯片赋能多模态大模型应用

    大模型快速发展推动人工智能技术迈向新阶段,从解决特定任务的弱人工智能向处理通用复杂任务的强人工智能演进。IDC报告显示,2024年中国大模型开发平台市场规模达16.9亿元,人工智能算力市场约190亿美元,预计2025年将达259亿美元。寒武纪等企业专注AI芯片研发,推出多款处理器及加速卡产品,支持大模型训练推理及多模态任务,并与产业链合作共同推进人工智能产业发展。

  • 推荐2025年必种草的AI一键ppt转视频创作工具

    文章介绍了三款AI工具(课件帮、Visionstory、Fliki),可将静态PPT快速转换为动态视频微课。这些工具操作简便,支持自动生成口播稿、多语言配音、智能字幕及动画效果,适用于教育、企业培训等多种场景,无需专业技能即可上手,大幅提升视频制作效率。

  • OpenAI的开源模型现已在IBM watsonx.ai上提供

    OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B,允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台,采用专家混合架构,支持本地或云端部署,不受商业用途限制。模型具备高透明度,输出完整推理链,在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态,IBM强调其开放战略,为企业提供灵活、安全的AI开发选择。

  • AI日报:B站测试AI视频工具花生AI;腾讯发布多模态模型Large-Vision;昆仑万维开源Skywork UniPic 2.0

    【AI日报】主要内容: 1. B站测试"花生AI"视频工具,3分钟可成片,同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0,实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI,苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision,支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐,仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新:恢复GPT-4o默认模式,为GPT-5引入多模式选择,优化交互体验

  • OpenAI发布语音模型GPT-realtim:具备情感感知能力 多语言无缝切换

    OpenAI正式发布语音模型GPT-realtime。 据介绍,GPT-realtime是一款专注于语音AI Agent的多模态模型,能够生成高度自然流畅的语音,精准还原人类语调、情感和语速的丰富变化。该模型支持图像理解,并可结合语音或文本对话使用,非常适合应用于客服、教育、金融、医疗等领域,用于构建高质量的语音智能体。 官方表示,新模型在复杂指令遵循、工具精确调用以及生成更自然、�

  • 微软发布AI截图工具,截图一键转PPT

    微软电脑管家推出全新“智能圈选”功能,通过AI技术实现截图内容的智能识别与重构。用户只需圈选截图区域,即可一键完成文字提取、多语言翻译及PPT转换等操作,大幅提升办公和学习效率。该功能支持100多种语言,保留原始格式,并能智能修复遮挡内容,彻底改变了传统截图处理方式。

  • AI日报:海螺AI首尾帧功能上线;元石科技发布问小白5;OpenAI发布全新语音模型GPT-Realtime

    AI日报栏目每日提供人工智能领域热点内容,聚焦开发者,帮助洞悉技术趋势、了解创新AI产品应用。最新动态包括:MiniMax海螺AI首尾帧功能上线;元石科技发布问小白5挑战GPT-5;OpenAI推出语音模型GPT-Realtime;谷歌Gemini AI优化表格处理;腾讯黑科技实现AI配音;百度计划培养千万AI人才;MathGPT.ai反作弊功能推广;苹果Xcode集成Claude Sonnet4;微软发布自研AI模型MAI系列;xAI推出高效编码模型Grok Code Fast1;SuperCLUE多模态评测Gemini-2.5-Pro居首;9月1日起AI内容标识新规实施,违规将承担法律风险。

  • OpenAI CEO:GPT-6将具备个性化记忆 记住用户偏好习惯

    OpenAI的首席执行官萨姆奥尔特曼(Sam Altman)在近日的一次专访中,透露了下一代大模GPT-6的最新进展。他表示,GPT-6 的开发正在积极推进中,其发布节奏将比从GPT-4到GPT-5的周期更快。 奥尔特曼特别强调,GPT-6将不再局限于单纯回答问题,而是朝着与用户深度适配”的方向演进。他举例描述

  • OpenAI和科大讯飞,瞄准了同一件事

    OpenAI正式发布GPT-5大模型,距离GPT-4推出已29个月。GPT-5虽仍是当前最全面的模型,但性能提升未与主流模型拉开显著差距,部分场景甚至被Grok4和Claude+Opus4.1超越。OpenAI强调此次升级重点在于减少幻觉、提升指令遵循能力和降低模型谄媚性,而非单纯追求性能突破。与此同时,国产大模型代表星火X1也在7月25日升级,同样聚焦解决幻觉问题,在事实性幻觉和忠诚性幻觉治理上取得突破。全球顶尖大模型正从"能用"向"好用"转变,OpenAI和科大讯飞都通过多目标奖励机制和思维链监控等技术手段改善模型可靠性。星火X1已全面赋能教育、医疗、企业应用等行业,在复杂场景任务上满足用户核心需求。大模型产业已进入规模化落地关键期,中国人工智能产业正从追赶走向领先阶段。

  • 大厂押注的AI和视频化,能成为播客的好出路吗?

    长期在国内市场不温不火的播客赛道,正在焕发出越来越蓬勃的新机。 8月15日,自带流量和多重话题标签的罗永浩入驻B站,并宣布将开启一档视频播客节目《罗永浩的十字路口》,8月19日,罗永浩发布了第一条视频播客,与理想汽车创始人李想进行了近4小时的深度对话,一度引发热议,在B站内的观看量超230万。 而由罗永浩掀起的这一波流量热潮背后,可以看出B站对于视频

今日大家都在搜的词: