首页 > 业界 > 关键词  > Anthropic最新资讯  > 正文

Anthropic宣布关键突破,解析人工神经网络行为

2023-10-12 16:49 · 稿源:站长之家

划重点:

🧠 重要突破:Anthropic宣布了一项关键研究成果,能更好地理解支撑其人工智能算法的神经网络的行为。

🌐 影响广泛:这一研究有望提高下一代人工智能的安全性和可靠性,使研究人员和开发者能够更好地控制其模型的行为。

🤖 神经网络解析:研究人员通过解析神经网络内部的特征,取得了重要进展,有望解决神经网络行为的难题。

站长之家(ChinaZ.com)10月12日 消息:人工智能初创公司Anthropic PBC近日宣布了一项重大突破,他们表示已找到一种更好地理解支撑其人工智能算法的神经网络行为的方法。这一研究成果有望在提高下一代人工智能的安全性和可靠性方面产生深远影响,使研究人员和开发者能够更好地控制其模型的行为。

Anthropic的研究聚焦在神经网络的不可预测性上,这些网络受到启发于人脑的神经元工作方式,模仿生物神经元之间的信号传递。神经网络是通过数据训练的,而不是按照特定规则编程的,因此它们可以呈现多种不同的行为,这就是为什么研究人员很难控制人工智能模型,以及如何防止其生成虚假答案,也就是所谓的“幻觉”。

人工智能  AI 机器人 (2)

图源备注:图片由AI生成,图片授权服务商Midjourney

Anthropic指出,神经科学家在试图理解人类行为的生物基础时面临类似的挑战。他们知道人脑中的神经元必须以某种方式实施思维、情感和决策,但他们无法确定其工作原理。

为了更好地理解神经网络的工作方式,Anthropic的研究人员深入研究了单个神经元,并确定了每个神经元内部的小单元,被称为特征,这些特征更好地对应于神经元激活的模式。通过研究这些特征,研究人员相信他们最终可以更好地理解神经网络的行为。

在一项实验中,Anthropic研究了一个小型变压器语言模型,将512个人工神经元分解成代表DNA序列、法律文本、HTTP请求、希伯来文本、营养说明等上下文的4000多个特征。他们发现,单个特征的行为比神经元的行为更具解释性。

Anthropic验证了他们的研究成果,他们创建了一个盲目的人工评估者来比较单个特征和神经元的可解释性。结果显示,特征(红色)比神经元(蓝绿色)得分要高得多。

Anthropic表示,这为以特征作为神经网络理解的基础提供了有力证据。通过放大并查看4000多个特征的整个集合,Anthropic发现这些特征在不同人工智能模型之间具有广泛的普适性。因此,通过研究一个模型中的特征所学到的经验可以应用于其他模型。

尽管人工神经网络是使人工智能在过去几年中变得如此强大的关键发展,但没有人真正完全理解它们的工作原理,因此无法预测它们将如何回答或响应任何给定的提示。研究人员迄今大多集中在“机械互操作性”的研究上,即逆向工程神经网络的研究。

Anthropic的研究方法为解决这一混乱提供了一个有趣的途径,通过更清晰地理解神经网络的内部工作方式,他们已经展示出了预测神经网络结果的能力。尽管这一方法尚未扩展到更大的模型,但在小型模型上已经显示出了令人印象深刻的潜力,有望在“机械互操作性”的研究中取得良好进展。

Anthropic相信,通过进一步研究,他们可能能够操控所描述的特征,以更可预测的方式控制神经网络的行为。最终,这可能对克服理解语言模型行为的挑战至关重要。

举报

  • 相关推荐
  • 微算法科技(NASDAQ:MLGO)开发延迟和隐私感知卷积神经网络分布式推理,助力可靠人工智能系统技术

    微算科技开发了延迟和隐私感知卷积神经网络分布式推理技术,通过创新队列机制和深度强化学习优化CNN推理过程,结合分布式计算与隐私保护机制,在降低边缘设备计算延迟的同时强化数据隐私。该技术将推理任务智能分配到不同节点,减少数据传输范围,实现高效推理与隐私安全的平衡,为智能医疗、交通等领域提供可靠解决方案。

  • AI日报:阿里夸克“C计划”曝光;Veo3.1将增加视频“精确编辑”功能;Anthropic推出Claude Code网页版

    今日AI领域动态:阿里夸克启动"C计划"布局对话式AI应用,剑指字节"豆包";Anthropic推出Claude Code网页版,支持浏览器直接编码;谷歌Veo新增视频"精确编辑"功能,提升创作效率;Fish Audio升级S1语音克隆模型,10秒即可复刻真人声音;AWS美东故障影响ChatGPT等多项服务;DeepSeek-OCR推出"视觉记忆压缩"机制破解AI记忆瓶颈;Adobe推出AI Foundry服务,支持企业定制品牌AI模型;Anthropic发布Claude for Life Sciences,加速生命科学研究。

  • OpenAI 推出浏览器:“让位吧,Chrome”

    ​北京时间10月22日凌晨,没等来传闻中的Gemini3,等来了OpenAI正式发布首款AI浏览器ChatGPT Atlas。 简单来说,这是一个把ChatGPT"塞进"浏览器的产品,你在任何网页上都能随时唤出ChatGPT侧边栏,让AI帮你总结内容、编辑文字、甚至代替你完成购物和预订任务。 听起来有点像Chrome装了个ChatGPT插件?确实如此,但OpenAI的野心远不止于此。

  • 网信办宣布开展“整治网络直播打赏乱象”专项行动

    中央网信办自即日起开展为期2个月的"清朗·整治网络直播打赏乱象"专项行动,重点整治四类问题:严查低俗团播诱导打赏行为;深入治理虚假人设欺骗打赏现象;严格管控诱导未成年人打赏问题;着力遏制刺激用户非理性打赏倾向。专项行动要求各地网信部门细化工作措施,督促平台完善审核标准、打赏规则和限额管理,健全投诉举报机制。对屡教不改的账号、平台及MCN机构将依法严惩并曝光典型案例,推动形成网络直播打赏问题常态化治理格局。

  • 苹果前员工因名叫“三星”走红网络:最终他选择改名

    苹果前员工因撞名三星走红网络,他最终选择改名。 据媒体报道,2012年,一位名叫Sam Sung的苹果零售店员工意外走红,因他的名字Sam Sung跟苹果竞争对手三星的英文(Samsung)字母一致,而且二者的发音接近。 Sam Sung在接受采访时详细讲述了那段经历以及自己最终决定改名的原因。2012年,有人在社交平台上发布了Sam Sung的苹果工作名片,相关内容迅速传播开来。苹果方面随即�

  • 孩子们满嘴“包的”“666”该怎么办引热议 小学老师:喜欢说网络热梗是偷懒

    江西一位小学教师因引导学生用"我很有信心""我势在必得"等优美表达替代网络热梗"包666"引发热议。她认为依赖网络用语是思维懒惰,希望学生掌握文明优美的语言表达。媒体指出网络热梗虽有趣实用,但会限制语言表达和深度思考能力。网友观点两极:有人认为课堂应规范语言,网络用语可保留生活趣味;另一些人强调需培养青少年在不同语境自如切换的表达能力。

  • 游族网络前三季度营收与净利润双增长,全球化游戏研运质效双升,AI生态布局全面加速

    游族网络2025年三季报显示,公司前三季度营收101.9亿元,同比增长2.20%;净利润7.64亿元,同比大幅增长1374.60%。第三季度业绩延续增长态势,主要得益于全球化战略推进、AI技术深度融合及产品精细化运营。旗下《少年三国志》《新盗墓笔记》等产品通过版本迭代与跨界联动提升用户粘性。公司积极布局AI业务,推出智能平台YOOZOO.AI,并拓展算力合作,强化研发效能。同时,游族持续践行社会责任,开展公益项目并推动中华文化数字化传承。

  • 苹果推出网页版App Store 浏览器即可使用

    苹果公司近日推出网页版App Store,用户无需依赖特定苹果设备,通过任意浏览器访问apps.apple.com即可浏览全平台应用。新版网页设计与原生App Store界面高度相似,功能丰富且交互流畅,取代了原先简单的登录页面。用户可通过左上角下拉菜单快速切换至iPhone、iPad等设备的专属应用页面,实现跨平台浏览。网页版完整移植了原生商店的“今日”标签页内容,包括编辑推荐、热门�

  • M6 iPad Pro将加入VC散热:向iPhone 17 Pro看齐

    随着芯片性能的不断提升,苹果计划为iPad Pro配备VC散热系统,消费者最快会在M6 iPad Pro上看到。 Mark Gurman指出,如果iPhone与iPad Pro配备VC散热系统的尝试取得成功,苹果后续可能会将该技术应用到MacBook Air等其他被动散热设备上。 目前苹果对iPad Pro的更新周期约为18个月,因此下一代iPad Pro预计将在2027年春季发布。

  • 锐捷极简以太彩光网络4.0再添新翼,“超融合”方案创新而来

    锐捷发布“极简以太彩光4.0-超融合方案”,针对高职院校宿舍高密接入场景,实现“一套架构、超聚/超融双模式融合”设计。方案延续极简理念,核心侧部署超融合模块,弱电间采用无源融合设备,接入侧配备Wi-Fi 7光无线接入点,支持单设备接入11264间宿舍。具备四大创新:融合时分复用技术提升接入密度;统一以太网二层架构简化运维;有线无线一体化OAP提升部署灵活性;核心多场景融合部署适配不同业务需求。该方案不仅破解宿舍网络建设难题,更展现全光网络在医疗、普教等场景的适应能力。

今日大家都在搜的词: