首页 > 业界 > 关键词  > MegaByte最新资讯  > 正文

Meta提出新模型MegaByte 可增强AI生成

2023-06-06 14:53 · 稿源:站长之家

站长之家(ChinaZ.com)6月6日 消息:来自Facebook母公司Meta的人工智能研究人员提出了一种新颖的方法MegaByte,以加快自然语言处理等用途的内容生成。

据介绍,来自Facebook母公司Meta的人工智能研究人员提出了一种新颖的方法MegaByte旨在改进更长的内容生成。像OpenAI的ChatGPT这样的系统可以轻松处理短输出,但序列越长或越复杂,模型的性能就越差。

Meta,元宇宙,Facebook

MegaByte 方法使用多尺度解码器架构,能够对具有端到端可微分性的超过100万个字节的序列进行建模,这意味着以更低的运行成本获得更好的生成性能。

Meta的研究人员对基于Transformer的架构提出质疑。谷歌的研究人员在2017年开发了基于Transformer的系统,此后该系统被广泛用于NLP任务,为ChatGPT、GPT-4和BERT等模型和系统铺平了道路。

然而,Meta的团队认为,基于Transformer的系统处理复杂的输入,如书籍或播客,需要大量的计算才能运行。然而,MegaByte将输入和输出分成“补丁”而不是单独的token。每个面片都有自己的本地化响应,模型将这些响应与其他面片组合成一个整体,以创建最终输出。

研究人员建议,MegaByte“用子字模型给出有竞争力的语言建模结果,这可能允许字节级模型取代标记化”.

Meta新提出的架构得到了特斯拉人工智能总监安德烈·卡尔帕西(Andrej Karpathy)的称赞,认为这很有前景。

然而,对于MegaByte来说,现在还处于早期阶段,因为Meta的论文详细介绍了使用它进行的实验规模“远远低于最先进的语言模型”。研究人员提出,未来对MegaByte的研究应该探索将架构扩展到更大的模型和数据集。

举报

  • 相关推荐
  • 突破算力限制!Meta开源“记忆层”,重塑Transformer架构大模型

    今天凌晨3点,全球社交巨头Meta分享了一个创新研究——Memorylayers。Transformer架构的预训练大模型在存储、查询数据时,随着参数的变大对算力的需求呈指数级增长。这样的设计既简化了维护流程,又提高了系统的灵活性和适应性。

  • AI+教育:Meta Dot携手GPTBots,打造教育行业智能化新标杆

    在教育领域,人工智能的应用正日益深入,彻底颠覆了传统的教学模式。MetaDotLimited,作为一家领先的STEAM教育服务提供商,选择与GPTBots合作,打造了ZenseAI平台。随着技术的不断进步,MetaDot计划继续深化与GPTBots的合作,不断优化ZenseAI的功能,探索出更多的教育行业应用场景,为教育注入AI新活力。

  • 扎克伯格:Meta今年将开发AI编程智能体 媲美中级软件工程师

    Meta公司创始人马克扎克伯格在采访中透露,今年Meta等大厂可能会研发出一种能力媲美中级软件工程师的AI,这种AI将能够完成大部分编码工作,甚至包括AI系统本身的开发。扎克伯格设想在不久的将来,Meta的代码编写和AI系统开发将更多地依赖于AI工程师非传统的人类工程师。o3基准测试已经突破了之前的壁垒;特定领域的AI智能体已经能够进行复杂的研究工作;多模态系统也能够创造出越来越精妙的内容。

  • Meta劲敌!雷鸟V3 AI拍摄眼镜正式发布:1799元

    今日,2025年国际消费电子展在美国拉斯维加斯举办,在CES期间,雷鸟创新举行发布会,正式发布雷鸟V3AI拍摄眼镜,售价1799元,1月7日预售,1月10日发售。作为Meta劲敌,雷鸟V3AI拍摄眼镜是集成出色画质相机、快速准确AI、高音质耳机、舒适佩戴眼镜于一体的新物种。雷鸟V3采用高密度3C电池,搭配充电盒使用,拥有30小时超长续航时间。

  • •中国大模型公司提出新架构,解决Context无限长问题,开启Agent时代

    日月开新元,万象启新篇。1月15日,MiniMax发布并开源新一代01系列模型,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。受益于LinearAttention层面的架构创新、算力层面的优化,以及集群上的训推一体的设计,MiniMax以业内极具性价比的价格提供文本模型和多模态理解模型的API服务,标准定价是输入token1元/百万token,输出token8元/百万token。

  • 地震被压废墟下戴帽小孩系AI生成:请注意甄别

    1月8日消息,据媒体报道,近日西藏定日县发生6.8级地震,灾情牵动人心,许多网友在社交平台上为灾民祈福。社交平台上一个戴帽子小孩被压在倒塌建筑物下的图片受到关注,这张图片被平台多个账号发布,引发网友关注和转发。经查证,上述图片由AI工具创作,原始作者在2024年11月18日发布了相同画面的短视频,并声明是AI生成。在此提醒大家,AI生成的虚假灾情图片可能会�

  • GitHub直线涨粉!Home Assistant小米官方集成揭秘

    前两天,小米公司在官方GitHub上正式公布了HA米家官方集成,为HA高阶玩家用户带来更安全、更稳定的设备控制与管理方案。吸引了大批极客用户下载使用,截至今天中午,GitHubStar数量已经超7K。小米中枢网关、小米路由器BE6500Pro、小米全屋路由BE3600Pro套装等设备已支持中枢能力,未来小米还将增加更多支持中枢的设备,进一步提升用户的智能家居体验。

  • 西藏地震有人不当利用AI生成灾害场景 抖音:严格处罚!

    快科技1月10日消息,西藏日喀则市定日县发生地震后,灾情牵动着全国人民的心,然而,在这令人揪心的特殊时刻,少数别有用心之人却妄图利用AI技术制造谣言,博取关注。今日,抖音安全中心发布于治理灾害期间不当使用AI生成内容”的公告。公告称,近期西藏自治区发生地震灾害,全网出现多起不当利用AI技术生成灾害场景的情况,给救灾工作带来了干扰,平台已严肃处�

  • AI日报:智谱Realtime、4V、Air系列模型发布;Vidu2.0上线10秒生成短片;xAI上线Grok网页版

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、LumaAI推出Ray2视频生成模型,实现更快更自然的运动效果LumaAI最近推出了Ray2视频生成模型,标志着在AI视频创作领域的重要进展。该公司致力于提供高性价比的语言模型解决方案,

  • 用大模型吃瓜更智能了!阿里通义实验室提出新时间线总结框架,全面提升新闻总结效率

    大模型可以帮你梳理新闻时间线了,以后吃瓜就更方便了!AIAgent的风,咱们赛博乐子人也得吹吹。这就是来自阿里巴巴通义实验室与上海交通大学的新研究,他们提出了一种基于Agent的新闻时间线摘要新框架——CHRONOS。这种迭代提问的检索生成方法是否具有泛化到通用任务上的能力也值得未来进一步研究。

热文

  • 3 天
  • 7天