首页 > 业界 > 关键词  > Meta最新资讯  > 正文

Meta AI实验室推三项新AI项目庆祝成立十周年:Ego-Exo4D、Audiobox等

2023-12-01 09:48 · 稿源:站长之家

**划重点:**

1. 🌐 **Ego-Exo4D:** Meta发布支持视频学习和多模态感知的数据集,涵盖运动、音乐、烹饪等复杂人类活动,可用于增强现实、机器学习和社交网络。

2. 💬 **Seamless Communication:** 推出四个AI研究模型,旨在跨越语言界限实现更自然、真实的表达和快速翻译,包括保留语音表达和语境的SeamlessExpressive等功能。

3. 🎶 **Audiobox:** Meta的新音频生成模型,通过语音输入和自然语言文本提示生成声音和音效,以创造定制的音频文件,为研究人员和学术机构提供先进的音频生成研究支持。

站长之家(ChinaZ.com)12月1日 消息:为庆祝Meta基础人工智能研究(FAIR)团队成立十周年,公司隆重推出三个创新的人工智能项目,展示了引人注目的演示。

Meta's AI lab turns 10 with three new AI projects and an impressive demo

Ego-Exo4D:

官方项目介绍网址:https://ai.meta.com/blog/ego-exo4d-video-learning-perception/

image.png

该项目以数据集及基准测试的形式呈现,旨在支持视频学习和多模态感知的人工智能研究。由Meta的FAIR、Project Aria,以及来自全球15所大学的合作伙伴在两年内共同收集,Ego-Exo4D捕捉了佩戴Project Aria头戴设备的参与者的“自我中心”视角和周围摄像机的“外部中心”视角。

这一数据集聚焦于复杂的人类活动,如运动、音乐、烹饪、舞蹈和自行车维修。Meta认为,该数据集在增强现实系统、机器人学习以及社交网络等领域具有广泛应用前景。1,400多小时的视频数据将于12月以开源形式发布,并计划于明年进行Ego-Exo4D公开基准竞赛。

Seamless Communication:

官方项目介绍网址:https://ai.meta.com/blog/seamless-communication/

该项目旨在通过四个AI研究模型实现更自然、真实的跨语言交流。包括保留语音表达和语境的SeamlessExpressive,以及提供约两秒延迟的语音和文本翻译的SeamlessStreaming。此外,SeamlessM4T v2是一个多语言、多任务的模型,用于轻松实现语音和文本之间的交流。最终,Seamless将集成SeamlessExpressive、SeamlessStreaming和SeamlessM4T v2的功能于一个模型中。

image.png

Meta还发布了SeamlessExpressive的演示,用户可以在其中将其语音翻译成其他语言,增强了跨语言沟通的交互性。

官方演示网址:https://seamless.metademolab.com/expressive/

Audiobox:

官方项目介绍网址:https://ai.meta.com/blog/audiobox-generating-audio-voice-natural-language-prompts/

这是Meta全新的音频生成模型,通过结合语音输入和自然语言文本提示,能够生成声音和音效,从而更轻松地创建用于不同用途的定制音频文件。相比其前身Voicebox,Audiobox通过允许用户使用自然语言提示来创建所需的声音或语音类型,提供了更强的可控性。

image.png

Meta表示,该模型将首先提供给一组选择的研究人员和学术机构,以推动音频生成研究的发展,并确保人工智能的负责任发展。

这三个项目的推出标志着Meta FAIR团队十年来在人工智能领域取得的巨大成就,并为未来的技术发展和创新奠定了坚实基础。

举报

  • 相关推荐
  • 《大奉打更人》引爆追剧潮,Audio Vivid让打更“更声动”

    由中央电视台、新丽电视、阅文影视联合出品,狂欢者文化传媒承制的奇幻悬疑剧《大奉打更人》正在腾讯视频上线热播,该剧以强大的主演阵容、奇幻悬疑的剧情、出色的视听效果吸引了大量剧迷的关注和讨论,在腾讯视频站内热度值突破30000。尤其是国家广播电视总局行业标准AudioVivid的版本带来“声临其境”的观剧体验,让剧迷紧跟主角王鹤棣的视角,全身心沉浸在大奉世界。想和王鹤棣一起接受“打更”挑战的剧迷们,现在就打开腾讯视频,音效选择臻悦全景声,点亮AudioVivid,享受最沉浸的大奉视听之旅吧!

  • 星3D音频技术“Eclipsa Audio”将融入2025新品电视和条形音响中

    摘要:三星2025年电视将搭载EclipsaAudio技术,覆盖CrystalUHD系列至NeoQLED8K系列电视前沿的3D音频新技术,将引领家庭娱乐迈向全新境界1月3日,韩国三星电子宣布,2025年新品电视和条形音响产品将搭载与谷歌合作开发的创新3D音频技术——EclipsaAudio[1]。这项技术将助力内容创作者打造生动、沉浸式的音频内容,并在三星电视上实现流畅播放,为消费者带来前所未有的视听盛宴。我们期待看到创作者们利用这项技术打造出新颖且富有创意的音频体验。

  • AI+教育:Meta Dot携手GPTBots,打造教育行业智能化新标杆

    在教育领域,人工智能的应用正日益深入,彻底颠覆了传统的教学模式。MetaDotLimited,作为一家领先的STEAM教育服务提供商,选择与GPTBots合作,打造了ZenseAI平台。随着技术的不断进步,MetaDot计划继续深化与GPTBots的合作,不断优化ZenseAI的功能,探索出更多的教育行业应用场景,为教育注入AI新活力。

  • 扎克伯格:Meta今年将开发AI编程智能体 媲美中级软件工程师

    Meta公司创始人马克扎克伯格在采访中透露,今年Meta等大厂可能会研发出一种能力媲美中级软件工程师的AI,这种AI将能够完成大部分编码工作,甚至包括AI系统本身的开发。扎克伯格设想在不久的将来,Meta的代码编写和AI系统开发将更多地依赖于AI工程师非传统的人类工程师。o3基准测试已经突破了之前的壁垒;特定领域的AI智能体已经能够进行复杂的研究工作;多模态系统也能够创造出越来越精妙的内容。

  • Meta劲敌!雷鸟V3 AI拍摄眼镜正式发布:1799元

    今日,2025年国际消费电子展在美国拉斯维加斯举办,在CES期间,雷鸟创新举行发布会,正式发布雷鸟V3AI拍摄眼镜,售价1799元,1月7日预售,1月10日发售。作为Meta劲敌,雷鸟V3AI拍摄眼镜是集成出色画质相机、快速准确AI、高音质耳机、舒适佩戴眼镜于一体的新物种。雷鸟V3采用高密度3C电池,搭配充电盒使用,拥有30小时超长续航时间。

  • 突破算力限制!Meta开源“记忆层”,重塑Transformer架构大模型

    今天凌晨3点,全球社交巨头Meta分享了一个创新研究——Memorylayers。Transformer架构的预训练大模型在存储、查询数据时,随着参数的变大对算力的需求呈指数级增长。这样的设计既简化了维护流程,又提高了系统的灵活性和适应性。

  • 极光GPTBots与REDtone Digital Berhad强强联手 共谱AI新篇章

    2025年1月9日,深圳。极光旗下全球知名AI智能体构建平台GPTBots与马来西亚领先的综合性电信和数字基础设施服务提供商REDtoneDigitalBerhad签署了战略合作伙伴协议。自1996年成立以来,已从语音服务提供商发展成为全面的解决方案合作伙伴,主要提供电信服务、托管电信网络服务、云与物联网三大类服务。

  • CapCutTikTok停止服务:Meta火速推新应用抢市场!

    随着TikTok在美国的业务面临不确定性,字节跳动旗下的剪映国际版CapCut等多款应用日前也向美国用户推送了停止服务的通知。在此背景下Meta迅速出击,Instagram主管AdamMosseri宣布推出一款名为Edits的视频编辑应用,旨在填补CapCut下线后的市场空白。Edits将于2025年3月13日正式上线,目前已经在iOS应用商店开放预购,虽然Mosseri没有透露更多,但目的很明显是为了让人们记住这款应用程序。

  • 防范治理电信网络诈骗工作组成立三周年会议召开 快手牵头编制的一反诈标准正式发布

    1 月 7 日,中国通信标准化协会防范治理电信网络诈骗工作组(CCSA TC8/WG5)成立三周年暨第十三次标准会议在云南昆明顺利举行。工业和信息化部网络安全管理局、公安部刑侦局有关处室负责同志出席会议,来自中国信息通信研究院、基础电信企业、互联网企业、终端厂商、安全厂商等单位的近百名专家参会。会上举行了《短视频社区易受骗人群识别与预警指南》等首批 10 项�

  • 一台搞定所有需求!ThinkPad X1 Carbon Aura AI元启版开启AI办公新时代

    随着AI技术的深入应用,从数据分析到内容生成,再到高效日程管理,智能办公已成为商务人士不可或缺的需求。作为AI赋能的商务笔记本典范,联想全新推出的ThinkPadX1CarbonAuraAI元启版于近日正式开售。加速AI普惠,ThinkPad正为每位用户开启无限潜能。