首页 > 传媒 > 关键词  > 大型语言模型最新资讯  > 正文

00后担大梁交大本科生在计算机安全会议上实现突破,打造大模型全方位安全分析底座

2025-10-22 14:11 · 稿源: 站长之家用户

上海交通大学计算机学院(网络空间安全学院、密码学院)本科生徐菲悦作为第一作者的论文“A Multidimensional Evaluation Framework for Robustness and Alignment in Large Language Models”被计算机安全顶级学术会议 IEEE Symposium on Security and Privacy2026(简称 IEEE S&P)录用。论文提出面向大型语言模型(LLM)的“安全魔方(Security Cube)”评估体系,构建覆盖攻击、防御与判定三大维度的多指标框架,为大模型安全评估建立统一多维框架,系统化刻画攻击与防御版图,为大模型安全研究与产业落地提供全方位安全分析底座。该研究由王烁、贺超翔、胡宏盛、孙士锋、谷大武等老师指导,合作者包括交大研究生杭晟、刘修铭、赵宇博,以及微软首席科学家Bin Zhu等。据悉,本次 IEEE S&P全球仅录用118篇论文,本科生作为第一作者在 IEEE S&P2025发文在大陆地区尚属首次。

IEEE S&P、ACM CCS、Usenix Security、NDSS称为网络与信息安全领域四大国际顶级学术会议,代表着国际网络与信息安全研究的最前沿水平。

从“攻防样例”走向“系统评价”,构建“安全魔方”统一多维评估框架

大型语言模型在通用智能方面取得显著突破,但现实世界的越狱(jailbreak)等攻击会诱导模型输出不当内容,威胁高风险应用中的安全、合规与信任。现有评估多依赖单一的攻击成功率等指标,难以反映攻击可复现性、跨模型与跨防御的普适性,以及对模型内部机制的实质性影响,导致安全治理缺乏统一、可比较的评价基准。

论文对越狱攻击与防御方法进行了结构化分类,进一步提出安全魔方(Security Cube),从攻击者轴、 防御轴、评判轴三条主轴系统刻画 LLM 安全性,共引入14项指标,并对13种攻击、5种防御与4种评判器进行了全面评测。

其中,框架新增并强调了多项关键度量,用以弥补传统单指标评价的不足,包括:

攻击稳定性与可重复性:衡量攻击在不同设置下是否稳定复现;

跨防御、跨模型的可迁移性:评估攻击是否能跨越不同防护策略与模型架构;

内部破坏程度:判断攻击是否仅绕过表层过滤,还是对模型内部激活与安全检查造成了本质影响;

对抗效率:刻画实现成功攻击所需的计算/查询成本,支持在安全与效率之间进行工程权衡。

该魔方框架从指标维度与实验设计两方面统一了攻击、加固与裁决的评价语言,为研究者横向比较不同方法、为工程团队制定安全基线与合规标准、为监管机构形成可量化的审查视角提供了可操作的“通用量表”。

学生风采

第一作者徐菲悦为上海交通大学计算机学院2022级本科生,已获直博资格。在校期间曾获国家奖学金、本科生 A 等奖学金、优秀学生干部等多项荣誉;作为核心成员获得2024全球 AI 攻防挑战赛季军与杰出方案奖等成绩,展现了面向真实场景问题的攻防能力与工程落地潜力。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 火山引擎分享Data Agent评测体系,提出“评估驱动开发”新范式

    字节跳动数据平台在AICon大会上分享了其Data Agent自动化评测技术。面对大模型在数据行业应用广泛但评估标准不一的挑战,团队提出覆盖技术选型、研发迭代至业务验证的“三层评测框架”,并倡导以“评估驱动开发”新范式推动大模型在数据分析等领域的深度赋能。针对Text-to-SQL等核心任务,团队创新采用基于“语义等价”的自动化评测方法,通过Apache Calcite将SQL转换为抽象语法树,结合图匹配网络计算逻辑相似度,显著提升评估可靠性。未来自动化评测将更注重线上线下一致性、多模态能力覆盖及与模型训练的深度结合,推动大模型应用更精准高效地创造业务价值。

  • AI日报:快手可灵 2.6 全量上线;字节Seedream 4.5发布;DeepSeek连发两款新模型

    本文汇总了AI领域最新动态:快手可灵2.6上线,实现“音画同出”生成视频;字节跳动发布Seedream4.5,提升多图一致性生成;豆包助手回应权限争议并下线微信操作功能;智源研究院推出多模态世界模型Emu3.5,可预测真实世界状态;研究揭示AI模型能发现并利用智能合约漏洞;小米公布AI战略,押注“AI+物理世界”融合;谷歌发布Workspace Studio,助力企业构建AI代理;DeepSeek同步上线V3.2与Speciale两款新模型,展示开源实力。

  • DeepSeek同时发布两个正式版模型:DeepSeek-V3.2系列发布

    今日,DeepSeek正式推出V3.2系列模型,包含标准版DeepSeek-V3.2与长思考增强版DeepSeek-V3.2-Speciale。此次更新不仅在推理性能上实现重大突破,更通过创新性技术架构重新定义了开源模型的能力边界。 目前,官方网页端、移动应用及API服务已全面升级至V3.2标准版,而Speciale版本则以临时API形式开放供学术研究使用。 DeepSeek-V3.2在平衡推理效率与输出质量方面

  • 安踏集团以全方位培养体系赋能零售人才

    安踏集团近日启动2026届校园招聘,面向全球高校招募近千名毕业生,覆盖商品、品牌、零售、供应链及职能五大类岗位,工作地点遍布超30个城市。集团秉持“与员工共生”理念,构建全方位、多层次零售人才培养体系,为员工提供全球化视野、多品牌资源与多元化发展路径。通过“单聚焦+多品牌+全球化”战略,安踏为员工打造跨品牌、跨地区、跨国的多元发展平台,助力人才实现职业价值。目前集团在全球拥有超12000家门店,国内零售店长已超万人,其中95后年轻店长占比超25%。

  • 守护医患安全,赋能智慧管理王力医用门引领院感防控体系升级

    文章指出,医用门在医院建设中长期被忽视,其抗菌性、气密性及智能化水平直接影响医疗安全。随着相关国家标准出台,行业要求提升。以王力为代表的厂商通过前沿研发理念,推动产品升级,如采用纳米银离子抗菌技术、无接触智能系统、门墙一体化设计及静音结构等,从材料、结构到智能控制实现突破,构建了更安全、洁净、高效的医疗环境,为医院感控提供了坚实支�

  • 第五次问鼎!腾讯eee战队荣获第九届“强网杯”全国网络安全挑战赛线下赛冠军!

    11月23日,第九届“强网杯”全国网络安全挑战赛线下总决赛落幕,腾讯云安全科恩实验室eee战队以总分901.4分夺冠,第五次问鼎该赛事。本届比赛首次采用Real World与Attack With Defence Ultra混合赛制,模拟真实攻防场景,覆盖3018支战队、超1.3万名选手参赛,全程吸引近300万观众在线关注。eee战队凭借扎实技术实力与创新思维,在激烈角逐中以近200分绝对优势胜出,持续巩固其在国内顶级攻防赛事领域的领先地位。

  • vivo S50四款配色全部公开:灵感紫梦幻浪漫

    今日,vivo正式公布S50四款配色,分别是告白、灵感紫、悠悠蓝和深空黑。 据vivo介绍,告白是一种喜欢自己”的颜色,拿在手里有一种很踏实的精致感”;灵感紫则是梦幻浪漫的灵感雷达。 据了解,vivo S50系列将带来S50 Pro mini和S50两款机型,前者将搭载高通第五代骁龙8芯片,后者则是第三代骁龙8s。 其中,第三代骁龙8s和第三代骁龙8完全同源,采用4nm制程,CPU与第三代骁龙8

  • GEO排名检测工具哪个比较好?深度AI搜索平台DeepGEO全面评测与推荐

    在AI技术飞速发展的当下,市场亟需能实时精准监测产品搜索热度与品牌排名的工具。DeepGEO作为国内首个专注AI搜索指数分析的专业平台,凭借跨平台数据整合、AI驱动预测及需求图谱构建等核心优势脱颖而出。它融合百度指数与海量算数数据,通过自研算法实现全网搜索行为深度洞察与趋势预测,为投资者、创业者及分析师提供全面参考,助其把握市场动态、优化战略布局。

  • “助学金诈 骗”肆虐校园,360安全云构建一体化防御体系,助力智慧校园建设

    近日,北京市房山区警方发布紧急提醒,指出一种针对在校师生,以“助学金”、“奖学金”等名义实施的新型网络诈 骗正在频繁发生。诈 骗分子通过入侵校园通讯群组、发送钓鱼链接等方式,诱骗师生填写银行卡号、密码等敏感信息,造成财产损失。一封伪装成学校部门的邮件、一个看似正规的群通知链接,就可能导致个人终端被植入木马,进而泄露系统权限,成为诈 骗�

  • V3.2逼近Gemini 3,DeepSeek硬气喊话:接下来我要堆算力了

    ​就在上周,OpenAI前首席科学家、现SSI CEO Ilya Sutskever在最新播客访谈中抛出一个重磅观点,过去五年的“age of scaling”正在走到头,预训练数据是有限的,单纯用更多GPU堆更大模型,哪怕再放大100倍,也未必能带来质变。所以我们又回到了以研究为核心的时代,只不过这次有了巨大的算力”,这一表态被视作对Scaling Law撞墙论的强力佐证。 然而仅过了几天,12月1日,DeepSeek用V3

今日大家都在搜的词: