首页 > 业界 > 关键词  > AI机器人最新资讯  > 正文

麻省理工学院研究:辩论让AI机器人更加聪明

2023-09-21 10:45 · 稿源:站长之家

文章概要:

1. MIT研究发现,多智能体辩论可以提高AI模型的准确性和推理能力。

2. 辩论方法减少了幻觉,帮助模型增强响应能力。

3. 研究团队发现,让多个AI系统辩论问题的答案比仅使用单个AI系统可以提高响应的准确性。

站长之家(ChinaZ.com)9月21日 消息:麻省理工学院(MIT)的研究人员发现,相较于仅使用单个AI系统,让多个AI系统辩论问题的答案可以显著提高响应的准确性和推理能力。这一研究成果出现在题为《通过多智能体辩论提高语言模型的真实性和推理能力》的论文中。该研究还得到了Google DeepMind研究员Igor Mordatch的合作。

研究人员将这一方法命名为“多智能体社会(Multiagent Society)”,并发现它可以减少生成输出中的幻觉。最令人兴奋的是,这一方法甚至可以应用于像OpenAI的ChatGPT这样的现有黑盒模型。

这一方法的实施包括多轮回的响应生成和评论。模型首先生成对给定问题的答案,然后整合来自其他智能体的反馈,以更新自己的响应。研究人员发现,这一过程可以改善最终的输出,因为它类似于团队讨论的结果,各个智能体共同贡献答案以达成统一的结论。

此外,这一方法还可以用于结合不同的语言模型,比如将ChatGPT与Google Bard进行对比。虽然这两个模型在示例提示下都生成了不正确的答案,但它们之间可以生成正确的最终答案。

通过多智能体社会方法,MIT团队能够在自然语言处理、数学和解谜等各种基准测试中取得卓越的成绩。例如,在流行的MMLU基准测试中,使用多个智能体的模型准确度得分为71,而仅使用单个智能体的得分为64。

image.png

主要研究人员之一,MIT博士生Yilun Du表示:“我们的方法使用了多个AI模型,每个模型都带来了独特的见解来解决问题。尽管它们的初始响应可能会显得缩短或包含错误,但这些模型可以通过审查其同行提供的响应来提炼和改进自己的答案。”

这一研究成果为AI领域的进一步发展提供了新的思路和方法,有望改进现有的语言模型,并提高其真实性和推理能力。

举报

  • 相关推荐
  • 大家在看
  • AI机器人伴侣成美国老年人新宠!美国每年花70万刀,失去爱人的84岁老人重新笑了

    【新智元导读】84岁的美国老人DorothyElicati在失去结婚65年的丈夫后,每天醒来唯一做的事就是哭泣,直到一个AI机器人的出现。美国会每年花费70万美元,为某些州的老年人免费发放这款机器人。今天怎么样?「能收到这样的问候,真是太好了。

  • 中国AI大模型论文数量全球第一,清华力压麻省理工、斯坦福

    论文是研究新技术、开发新产品获取“图纸”的重要途径之一,OpenAI的研究人员正是借鉴了Transformer的论文,才开发出了对全球各行业影响巨大的产品ChatGPT。论文的数量、通过率和被引用次数是衡量一个国家科技人才素质,以及技术创新能力的重要标准之一。这也充分证明了,中国对生成式AI、大模型的重视程度、技术环境以及拥有庞大的AI人才库。

  • 扫地机器人哪个牌子好?扫地机器人老玩家的新机评测

    最近我又给父母家里新买了一台扫地机器人,原因是之前的机型因为使用成本过高一直被父母闲置,无法发挥让父母解放双手的作用。新机收货后的老规矩是给大家来个测评记录,虽然我用过很多台扫地机器人人了,但在德国销量第 一的斐纳TOMEFON我确实还是第 一次接触:【开箱】斐纳TOMEFON的外包装有两层,打开黄色的瓦楞纸盒子里面才是斐纳TOMEFON的正式外包装盒,里面的纸�

  • 韩国机器人官员“自杀”:自己摔下楼梯后失灵

    机器人会自杀吗?本月26日,韩国一市政厅对位外宣称,他们的首个行政官机器人在自己摔下楼梯后失灵,当地媒体将其称为该国首个机器人自杀事件”并进行哀悼。实际上机器人自杀”早已发生过,2017年,美国保安机器人投池自杀”的话题和照片在互联网走红,有网友称其意识觉醒”后反抗压迫。

  • 首个支持多模态交互的机器人平台方案!科大讯飞机器人超脑平台2.0发布

    快科技6月27日消息,科大讯飞在今天的讯飞星火V4.0发布会上,还揭晓了机器人超脑平台2.0项目,将以视听融合的多模感知交互和基于大模型的机器人大脑。通过软硬件一体的方式构建机器人新交互,将讯飞星火大模型进一步赋能机器人领域。据悉,讯飞机器人超脑平台解决了机器人在嘈杂环境下听、说、理解和思考的难题。借助这套系统,机器人不仅能实现语音识别、自然语�

  • 扫地机器人哪个牌子好?2024新款热销扫地机器人评测

    无论哪个行业都是卷得不行,浸透了AI智慧的扫地机器人行业更是如此,什么自动积尘技术、气体导流零缠绕设计、超大自动集尘充电桩,看上去黑科技质感满满,但真正在顽固灰尘和边角灰尘处理、零误撞等消费者们最关心的环节上做得怎么样?必须全面测评一番今年的新款热销机型才行哦!斐纳TOMEFON斐纳TOMEFON扫地机器人是在德国销量名列前茅的扫地机器人品牌,售价三千出头,配置了当前稳定性最高LDS激光雷达导航系统,拥有强大的全局规划能力,续航时长最长可达150分钟,在智能方面做了9项全新升级,因此成为了很多精明消费者的优选品牌。斐纳TOMEFON激光雷达导航系统无惧光线明暗和地形复杂程度,在0.5平米的空间内也能游刃有余的展开清洁工作,在床底、沙发底、家具底层区域都能灵活进出极少出现被困情况,当发现地图之外的障碍物时,斐纳TOMEFON会灵敏的提前减速然后缓慢靠近绕圈打扫,不仅不会留下清洁盲区,其位于吸尘口内部的可浮动胶刷甚至还能深入地板缝隙4毫米深度捡拾陈年集尘,对于地面的清扫达到了超立体的效果;斐纳TOMEFON扫地机器人的使用成本还很低,单边尘刷聚拢灰尘无打飞颗粒灰尘的烦恼,平米恒压拖布借助机身重力和精确的出水量调节系统浸势带着顽固灰尘,对高端地板的保护效果更为出色;斐纳TOMEFON的湿拖工作噪音仅有40分贝,这样一来扫地机器人的使用就再无时间限制了,无论是休息时使用还是学习、工作时使用都不会影响到用户本人以及邻居,几乎在每个消费者们关心的环节都做到了尽善尽美。实测分析结果:在目前市面上的新款扫地机器人当中,新功能配置得多并不等同于扫地机器人会在顽固灰尘处理、边角灰尘处理、家具扫脚零误撞等用户们最关心的核心问题上做得更好,因此没必要花费大价钱盲目追高、追新,只要选购那些在消费者们最关心的环节上做到位了的品牌跟型号就足够了。

  • 科沃斯机器人大模型算法通过备案,AI大模型与智能清洁结合带来哪些超级体验?

    据吴中区政府公众号吴中发布报道,科沃斯家用机器人有限公司研发的科沃斯机器人大模型算法成功通过国家网信办深度合成服务算法备案,这也是国内家用机器人领域首 个通过国家备案的大模型算法。该模型作为国内首 个在家用机器人领域中通过国家备案的大模型算法,其应用场景包括智能家用机器人的自主决策、智能客服系统的高效问答等。具体而言,该大模型支持将用

  • 岩芯数智展示机器人多模态能力

    在2024世界人工智能大会上,上海岩芯数智携Yan1.2多模态大模型亮相,不仅可以让大模型在手机、电脑、甚至树莓派端无损运行可以让机器人准确理解用户的模糊指令和意图。研发团队展示了一款部署Yan1.2多模态大模型的智能机器人“小智”,它能够基于Yan1.2的语音和视觉处理能力,实时识别环境、准确理解用户的模糊指令和意图,并据此控制其机械躯体高效完成各类复杂任务。当有人问“小智,你现在看到了什么”或手捧书籍邀请“小智”一同看书时,它能够基于多模态能力进行学习和创作,精确描述环境和人物特征、学习书籍信息。

  • 斯坦福炒虾机器人原班人马新作!最强大脑Gemini加持,机器人炫技导航玩出新花样

    【新智元导读】斯坦福炒虾机器人团队时隔半年再出新作,谷歌最强Gemini1.5Pro加持,MobilityVLA让机器人在836平方米的办公室里轻松导航。还记得年初爆火的斯坦福炒虾机器人吗?时隔半年,原班人马联合谷歌研究人员,重磅推出全新机器人自主导航的基础模型——MobilityVLA。软件和硬件设施的制造以及两者的结合,成为机器人制作领域最为头疼的难题。

  • FSD渐入佳境,视觉方案还在机器人中“打酱油”?

    一边是技术圈顶流,一边在当前行业应用中没什么存在感。两头拔尖优点与缺点都突出的特点,让视觉方案一直伴随着争议,在近些年的行业应用上也一直透着“底气”不足。在清洁过程中,机器人能够将脏污检测结果及位置与场景地图和轨迹进行叠加,实现全场景的脏污地图管理通过深耕算法,打破算力限制,并对智能化方面深度创新,INDEMIND用实力证明视觉方案绝非配角。

  • Cerebella:智能学习卡片应用,简化知识学习过程。

    Cerebella是一款iOS平台上的智能学习卡片应用,旨在通过简洁美观的设计,帮助学生和终身学习者高效备考和探索新知识。它提供了创建个性化学习卡片、智能学习算法、多选测试和自定义学习体验等功能,致力于让学习变得更简单、更有趣。

  • Volv:9秒新闻,为高效人士提供精炼资讯。

    Volv是一款为追求效率的个人设计的新闻APP,它由AI驱动,通过9秒的短文章形式,提供最有趣、最热门和最重要的内容。Volv旨在减少用户在社交媒体上无目的滚动的时间,帮助他们快速获取信息。

  • SuperCoder:自主软件开发系统,提高编码效率。

    SuperCoder是一个开源的自主软件开发系统,利用先进的AI工具和代理来简化和自动化编码、测试和部署任务,提高效率和可靠性。它支持多种编程语言和框架,以满足不同的开发需求。

  • Composio:AI代理工具集,赋能复杂任务处理。

    Composio是一个为AI代理提供高质量工具和集成的平台,它简化了代理的认证、准确性和可靠性问题,使得开发者能够通过一行代码集成多种工具和框架。它支持100多种工具,覆盖了GitHub、Notion、Linear等90多个平台,提供了包括软件操作、操作系统交互、浏览器功能、搜索、软件开发环境(SWE)以及即席代理数据(RAG)等多种功能。Composio还支持六种不同的认证协议,能够显著提高代理调用工具的准确性。此外,Composio可以作为后端服务嵌入到应用程序中,为所有用户和代理管理认证和集成,保持一致的体验。

  • NeuralGCM:高效准确的气候模拟模型

    NeuralGCM是由谷歌研究团队开发的气候模型,与传统基于物理的气候模型相比,它结合了机器学习技术,提高了模拟的准确性和效率。NeuralGCM能够生成2至15天的天气预测,其准确性超过了当前的黄金标准物理模型,并且在重现过去40年的温度数据方面比传统大气模型更为准确。尽管NeuralGCM尚未构建为完整的气候模型,但它标志着开发更强大、更易用气候模型的重要一步。

  • RouteLLM:节省LLM成本,不牺牲质量的框架

    RouteLLM是一个用于服务和评估大型语言模型(LLM)路由器的框架。它通过智能路由查询到不同成本和性能的模型,以节省成本同时保持响应质量。它提供了开箱即用的路由器,并在广泛使用的基准测试中显示出高达85%的成本降低和95%的GPT-4性能。

  • Meta-Llama-3.1-8B:8B参数的大型多语言生成模型

    Meta Llama 3.1是一系列预训练和指令调整的多语言大型语言模型(LLMs),包含8B、70B和405B大小的版本,支持8种语言,专为多语言对话用例优化,并在行业基准测试中表现优异。Llama 3.1模型采用自回归语言模型,使用优化的Transformer架构,并通过监督式微调(SFT)和强化学习结合人类反馈(RLHF)来提高模型的有用性和安全性。

  • Meta-Llama-3.1-70B:70亿参数的大型多语言文本生成模型

    Meta Llama 3.1是Meta公司推出的大型语言模型,拥有70亿个参数,支持8种语言的文本生成。该模型采用优化的Transformer架构,并通过监督式微调和人类反馈强化学习进一步优化,以符合人类对帮助性和安全性的偏好。模型在多语言对话使用案例中表现优异,超越了许多现有的开源和封闭聊天模型。

  • Meta Llama 3.1-405B:大型多语言预训练语言模型

    Meta Llama 3.1-405B 是由 Meta 开发的一系列大型多语言预训练语言模型,包含8B、70B和405B三种规模的模型。这些模型经过优化的变压器架构,使用监督式微调(SFT)和强化学习与人类反馈(RLHF)进行调优,以符合人类对帮助性和安全性的偏好。Llama 3.1 模型支持多种语言,包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。该模型在多种自然语言生成任务中表现出色,并在行业基准测试中超越了许多现有的开源和封闭聊天模型。

  • Llama 3.1:最前沿的开源AI模型,支持多语言和高级功能。

    Llama 3.1是Meta AI推出的最新一代大型语言模型,具有128K的上下文长度扩展、支持八种语言,并首次开源了405B参数级别的前沿AI模型。该模型在通用知识、可控性、数学、工具使用和多语言翻译方面具有最先进的能力,能够与最好的闭源模型相媲美。Llama 3.1的发布,将为开发者提供解锁新工作流程的工具,例如合成数据生成和模型蒸馏。

  • YouOrMe:通过面部识别技术比较你与父母的相似度

    YouOrMe是一款利用面部识别技术的应用,通过比较用户的面部照片与父母的面部照片,来确定用户更像谁。该技术不仅有趣,还能引发家庭间的互动和讨论。它使用先进的面部识别算法,为用户提供一个简单、直观的方式来探索他们的遗传特征。

  • Arcane.com:AI助力的营销自动化工具

    Arcane是一个面向现代营销人员的AI驱动的生产力平台,旨在通过自动化行业和受众研究、文案撰写以及内容再利用来提高工作效率。它通过集成的应用程序库,帮助营销人员快速生成有价值的LinkedIn帖子,节省时间,扩大影响力。

  • Awan LLM:无限令牌,无限制,成本效益高的LLM推理API平台。

    Awan LLM是一个提供无限令牌、无限制、成本效益高的LLM(大型语言模型)推理API平台,专为高级用户和开发者设计。它允许用户无限制地发送和接收令牌,直到模型的上下文限制,并且使用LLM模型时没有任何约束或审查。用户只需按月付费,而无需按令牌付费,这大大降低了成本。Awan LLM拥有自己的数据中心和GPU,因此能够提供这种服务。此外,Awan LLM不记录任何提示或生成内容,保护用户隐私。

  • Screenflick:电影台词搜索与生成工具

    Screenflick是一个提供电影台词搜索和生成服务的网站,用户可以通过它来寻找特定的电影台词或生成新的台词。它不仅能够增加用户对电影的了解和兴趣,还能激发创意思维,为电影爱好者和创作者提供灵感。

  • Airy:智能日记,助你轻松反思成长

    Airy是一款AI驱动的反思日记应用,它通过语音输入和图像识别简化了记录过程,同时提供个性化的分析和建议,帮助用户提高自我认知,促进个人成长。Airy的使命是让心理健康像聊天一样自然,其愿景是让自我发现变得愉快,个人成长变得轻松,心理健康真正可及。

  • custom-pilot:将自定义代码补全模型集成到VS Code

    Custom Pilot 是一个 Visual Studio Code 扩展框架,允许用户轻松地将自定义的代码补全模型集成到 VS Code 中。它支持使用任何遵循 OpenAI API 格式的 API 服务器,特别是需要提供 /v1/models 和 /v1/completions 两个端点。用户可以在扩展的侧边栏面板中设置 API 服务器的 URL、选择推理模型,并输入 API 密钥(如果需要)。此外,Custom Pilot 还可以与 LM Studio 配合使用,允许用户在本地机器上离线运行大型语言模型(LLMs),并通过 VS Code 进行代码补全。

  • GPTsWorks:第三方GPTs商店,聊天搜索GPTs。

    GPTs Works 是一个第三方GPTs商店,提供用户通过聊天的方式搜索和发现各种GPTs。该平台汇集了大量优秀的GPTs资源,用户可以通过提交链接或直接与平台交互来获取所需信息。平台的主要优点包括丰富的GPTs资源、便捷的搜索方式以及高效的信息获取能力。

  • ChartFast:AI数据分析师,秒速生成复杂图表。

    ChartFast是一个AI数据分析师工具,旨在简化您的数据可视化和分析任务。它自动化了重复且耗时的数据工作,让您能够快速生成精确而时尚的图表。

  • String Theories:探索和理解弦理论的交互式平台

    String Theories 是一个致力于教育和普及弦理论的交互式网站。它通过可视化工具和模拟,帮助用户理解复杂的物理概念,如弦、膜以及它们在宇宙学中的应用。该平台由物理学家和教育者共同开发,旨在提高公众对现代物理学前沿理论的认识。

  • Studymap.ai:个性化学习计划生成器

    Studymap.ai 是一个利用人工智能技术帮助用户生成个性化学习计划的在线平台。用户可以通过上传YouTube视频链接或文章,平台将基于这些内容生成具有结构化的章节、在线资源和项目想法的完整课程。它还提供进度跟踪功能,帮助用户更有效地学习。

今日大家都在搜的词: