首页 > AI头条  > 正文

​上海交通大学发布新数据集,推动 AI 生成 3D 人脸质量评估技术

2025-08-15 10:22 · 来源: AIbase基地

近日,上海交通大学的研究团队推出了一个名为 Gen3DHF 的新数据集,专注于评估 AI 生成的3D 人脸质量。随着生成式人工智能的快速发展,3D 人脸的生成成为可能,尤其在虚拟现实等领域具有广泛应用。然而,评估这些生成3D 人脸的质量和真实感依然是一个巨大的挑战,因为人类对面部特征的感知往往具有主观性和敏感性。

image.png

Gen3DHF 数据集是一个大规模的基准数据集,包含2000个 AI 生成的3D 人脸视频,以及从质量和真实感两个维度收集的4000个平均意见得分(MOS)、2000个失真感知显著图和失真描述。这一数据集为研究人员提供了一个宝贵的工具,以客观评估 AI 生成内容的质量。

在此基础上,研究团队还提出了 LMME3DHF,这是一个基于大型多模态模型的3D 人脸评估指标,能够有效预测质量和真实感得分,并进行失真感知视觉问答(VQA)和显著性预测。实验结果表明,LMME3DHF 在准确性方面达到了最先进的性能,不仅超越了现有方法,还与人类感知判断高度一致。

团队指出,尽管 AI 生成的3D 人脸在生成能力上取得了显著提升,但仍然存在感知失真和非真实感伪影等问题,未能满足人类的质量期望。人类评估虽然提供了重要见解,但其成本高且效率低,因此开发一种客观的质量度量标准变得至关重要。

Gen3DHF 数据集的推出,弥补了现有方法在评估 AI 生成3D 人脸方面的不足,特别是针对面部失真的独特性。通过对多样化3D 人脸视频样本的评估,研究团队在质量和真实感两个方面取得了显著进展。这不仅有助于提升生成技术的可信度,还将推动虚拟现实和相关领域的发展。

论文:https://arxiv.org/pdf/2504.20466

划重点:

🌟 Gen3DHF 数据集包含2000个 AI 生成的3D 人脸视频,为质量评估提供了基础。

🤖 LMME3DHF 评估指标在失真感知和真实感预测方面表现优异,超越现有方法。

🔍 研究旨在填补现有 AI 生成3D 人脸评估中的空白,提升技术的可靠性。

  • 相关推荐
  • 重磅!标贝科技推出「十万音色·自然语音数据集」 重构AI语音训练基础设施

    标贝科技发布"十万音色·自然语音数据集",覆盖中英双语,包含10万种音色样本(中文5万、英文5万),基于近百万小时原始数据经智能生产线精细打磨。该数据集在规模、真实性和准确性三大核心指标实现突破,支持多情感表达和跨场景应用,涵盖基础情绪到特定风格,话题涉及多个领域。通过音频质量筛选、文本转写校正、说话人分离等技术,从海量数据中甄选出高质量样本,为语音识别、合成等AI模型训练提供坚实基础,助力实现更自然、真实的语音交互体验。

  • AI日报:阿里开源Qwen-Image-Edit;淘宝“AI万能搜”功能灰度测试;小红书发布DynamicFace人脸生成技术

    本期AI日报聚焦多项AI领域创新:1)阿里开源Qwen-Image-Edit图像编辑模型,支持中文渲染与精准文本编辑;2)淘宝测试"AI万能搜"功能,重构电商搜索体验;3)小红书发布DynamicFace人脸生成技术,实现高质量图像视频换脸;4)Gemini API新增URL Context功能,简化网页内容获取流程;5)Nvidia推出小型开放模型Nemotron-Nano-9B-v2,支持智能推理开关;6)马斯克发布Grok Imagine 0.1测试版,进军AI图像生成领域;7)Vercel推出iOS版AI开发工具v0;8)理想汽车发布MindGPT 3.1模型,处理速度提升5倍;9)ToonComposer工具简化动画制作流程;10)ElevenLabs推出视频到音乐生成流程。

  • 普渡机器人发布3D感知AI扫地机器人PUDU MT1 Max,重塑智能清洁新高度

    普渡机器人于2025年8月20日发布3D感知AI扫地机器人PUDU MT1Max。该产品在MT1基础上大幅升级,搭载3D雷达与多传感器融合系统,显著增强复杂场景感知与避障能力。通过AI技术实现自适应清洁、垃圾识别、巡检清洁等功能,支持10万平方米以上大场景作业。具备自动振尘过滤和智能避雨机制,提升安全性与运维效率,重塑智能清洁行业新标准。

  • 谷歌DeepMind发布Genie 3世界模型:支持实时生成交互式3D环境

    据媒体报道,谷歌DeepMind正式发布了其新一代通用世界模型Genie 3。 该模型能够根据用户的文本提示,快速生成丰富多样的交互式虚拟环境。Genie 3不仅能够以每秒24帧的速度生成720p分辨率的高清交互式3D世界,更创新性地引入了 可提示世界事件” 功能。用户通过简单文本指令,即可实时修改虚拟环境,显著提升了沉浸感与创造力。 DeepMind视Genie 3为迈向通用人工智能(AGI) 的�

  • AI火花集|AI火花先锋添新力,拆解保险、客服、物联网AI落地实战

    AI正加速渗透产业,2025年全球AI投资预计达2000亿美元,年增长近翻倍。保险、电商客服、智能家居成为落地先锋。暖哇科技、云起未来、蜂助手分别聚焦保险理赔自动化、电商智能客服、5G+AI物联网,通过实战方案推动AI从概念验证走向规模化应用。面临数据价值陷阱、流通壁垒等挑战,企业需构建专业知识库并优化人机协同。未来AI将深入产业毛细血管,汇聚零散创新火花,�

  • 如何用3分钟精准计算AI大模型成本?避免生成一篇万字文章就超支?

    AI大模型成本控制指南:实测三步预算法+企业级避坑方案。文章揭露行业痛点:1)价格迷雾:各厂商计费规则差异大,长文本/多模态存在隐藏溢价;2)团队实测GPT-4生成20篇行业分析(50万字)实际账单超预算4倍。解决方案:通过AIbase计算器实现精准预测:①场景化选择自动加载计费规则;②输入需求实时生成动态成本矩阵;③智能规避四大隐性成本(长文本衰减补偿/区域差价预警等)。跨境电商案例显示,使用工具后成本降低60%。核心观点:在AI时代,成本控制能力已成为企业核心竞争力。

  • 昇腾赋能三维生成新突破!浙大团队实现跨模态可控3D CAD建模

    浙江大学与魔芯科技团队合作,基于昇腾平台NPU开发了首个三维模型生成算法Img2CAD。该技术突破性地将草图、图片等多模态输入通过Transformer结构高效转化为三维几何信息,无需可微渲染器,完整在NPU上实现训练和推理。研究成果可生成高精度3D模型,直接导入CAD软件编辑,已应用于3D打印、数字制造等领域。项目完成3篇论文,包括1篇中科院1区期刊和2篇CCF-A类会议论文,部分成果实现商业化落地。该技术标志着智能三维内容创作进入"低门槛、高效率、高质量"新阶段,未来将为工业设计、AR/VR等行业提供创新动能。

  • 视源股份全栈自研机器人首次亮相世界机器人大会 定位“3D岗”生产力伙伴

    2025世界机器人大会在北京开幕,视源股份携自主研发的机器人产品参展。其工业级高性能四足机器人MAXHUB X7首次亮相,具备全天候、全地形作业能力,已在工业、电力等场景落地应用。该产品采用多传感器融合导航技术,能适应复杂环境,IP66防护等级确保极端条件下稳定运行。视源股份依托"三院一站"研发体系,构建了从算法创新到制造验证的机器人全栈技术能力。目前公司商用清洁机器人已进入欧洲、东南亚及日本市场,在大型商超批量部署。未来将持续加大研发投入,推动机器人与行业场景深度融合。

  • 聚焦制造业智能化转型 中国科学技术大学依托昇腾突破知识增强大模型关键技术

    中国科学技术大学宋骞团队基于昇腾平台开发了工业知识图谱构建框架和大模型增强推理技术。该研究通过融合领域小模型与大语言模型,构建了"初始识别-知识抽取-知识引导反思"三阶段框架,显著提升了知识抽取准确性。在智能运维系统应用中,团队采用ETL架构处理多模态数据,结合RDF语义网技术构建知识图谱,并研发故障智能预测诊断模块。同时创新性地提出知识增强与过滤框架,利用PLM嵌入空间降低计算负担,有效提升知识增强的灵活性。研究成果显著提升了工业设备智能运维水平,实现了核心技术的自主创新适配,为构建安全高效的现代工业体系提供关键技术支撑。

  • AI钉铛智造全新发布“钉铛云AI OS”,为制造业数智化转型注入新动能

    红壹科技在第二十届中博会期间发布“钉铼云AI OS”工业操作系统,该系统采用“一体·双翼·三擎”架构,整合AI与工业数字化能力,聚焦中小企业智能制造痛点。已服务全国50余个制造业核心城市的上万家企业,通过AI智能预测、工艺优化等功能显著提升生产效率,降低运营成本。公司核心团队来自阿里、华为等头部企业,致力于构建开放协同的工业生态,助力中国智造走向全球。

今日大家都在搜的词: