中国研究团队发布多视角数据集“FreeMan” 解决3D人体姿势估计局限性

2023-09-25 11:30 · 稿源：站长之家

文章概要:
- “FreeMan”是一份大规模多视角数据集，旨在解决现有3D人体姿态估计数据集的局限性。
- 数据集包含来自8台同步智能手机的1100万帧，跨足了室内和室外环境，具备不同光照条件，提供了更真实的场景多样性。
- 研究者通过自动化的标注流程，包括人体检测、2D关键点检测、3D姿态估计和网格标注，生成了精确的3D标注，可用于多种任务，如单2D到3D转换、多视角3D估计和神经渲染。

站长之家（ChinaZ.com）9月25日消息:从真实场景中估计人体的三维结构是一项具有挑战性的任务，对于人工智能、图形学和人机交互等领域具有重要意义。然而，现有的3D人体姿态估计数据集通常在受控条件下收集，具有静态背景，无法代表真实世界场景的多样性，从而限制了用于真实应用的准确模型的开发。

在这方面，类似于Human3.6M和HuMMan的现有数据集广泛用于3D人体姿态估计，但它们是在受控的实验室环境中收集的，无法充分捕捉真实世界环境的复杂性。这些数据集在场景多样性、人体动作和可扩展性方面存在局限。研究人员提出了各种模型用于3D人体姿态估计，但由于现有数据集的局限性，它们的效果通常在应用于真实场景时受到阻碍。

中国的一支研究团队推出了“FreeMan”，这个由来自香港中文大学（深圳）和腾讯等机构的团队共同合作开发的项目，被誉为革新性的多视角数据集，旨在为3D人体姿势估计领域带来新的突破。

FreeMan是一个新颖的大规模多视角数据集，旨在解决现有数据集在真实场景中3D人体姿态估计方面的局限性。FreeMan是一项重要的贡献，旨在促进更准确和稳健模型的开发。

FreeMan项目的特点之一是其数据集的规模和多样性。该数据集由8部智能手机在不同场景下的同步录制组成，包括10个不同场景、27个真实场地，总计包含了超过1100万帧的视频。每个场景都涵盖了不同的照明条件，使得这个数据集成为一个独一无二的资源。

FreeMan数据集的开源是为了促进大规模预训练数据集的发展，同时也为户外3D人体姿势估计提供了全新的基准。这一数据集不仅包括视频，还提供了丰富的注解信息，包括2D和3D人体关键点、SMPL参数、边界框等，为研究人员提供了丰富的资源以推动相关领域的研究。

值得注意的是，FreeMan引入了相机参数和人体尺度的变化，使其更具代表性。研究团队开发了自动化的标注流程，以从收集的数据中高效生成精确的3D标注。这一流程包括人体检测、2D关键点检测、3D姿态估计和网格标注。由此产生的数据集对于多种任务都非常有价值，包括单目3D估计、2D到3D转换、多视角3D估计和人体主体的神经渲染。

研究人员提供了对FreeMan进行各种任务的全面评估基线。他们将在FreeMan上训练的模型与在Human3.6M和HuMMan上训练的模型的性能进行了比较。值得注意的是，在3DPW数据集上测试时，训练在FreeMan上的模型表现出显著更好的性能，突显了FreeMan在真实场景中的卓越泛化能力。

在多视角3D人体姿态估计实验中，与在Human3.6M上训练的模型相比，在跨领域数据集上测试时，训练在FreeMan上的模型表现出更好的泛化能力。结果一致显示了FreeMan多样性和规模的优势。

在2D到3D姿态转换实验中，FreeMan的挑战显而易见，因为在这个数据集上训练的模型面临更大的难度。然而，当模型在整个FreeMan训练集上进行训练时，其性能得到改善，显示出该数据集提高模型性能的潜力。

FreeMan的可用性预计将推动人体建模、计算机视觉和人机交互领域的进步，弥合了受控实验室条件与真实场景之间的差距。

项目网址:https://wangjiongw.github.io/freeman/

（举报）

相关推荐

关键词：

FreeMan

Checkout.com正式推出Flow Remember Me：一键支付，全球通用

Checkout.com推出嵌入式支付产品Flow的"记住我"功能，消费者仅需存储一次银行卡信息即可在全球商户网络实现跨平台快捷支付。测试数据显示，该功能最高可缩短70%付款时间并提升7%支付成功率。同时公司升级AI分析套件、支付优化工具及收单网络，并与Visa、Mastercard和Google达成AI智能体合作，助力商户在数字支付领域保持领先地位。

支付产品 Remember Me
荐AI日报：阿里发布紧凑型Qwen3-VL模型；科大讯飞AI翻译耳机全球首发；Gemini代码惊现Veo3.1

阿里巴巴发布紧凑型Qwen3-VL多模态模型，推动边缘设备AI应用；科大讯飞推出全球首款AI翻译耳机，支持60种语言实时翻译；谷歌NotebookLM集成图像生成功能，可将笔记转为动态视频；ChatGPT将于12月向成人开放限制内容并推出自定义交互功能；谷歌Gemini代码泄露Veo3.1视频模型升级迹象；马斯克宣布X平台将全面转向AI推荐系统；巨人网络与清华联合开源多方言语音合成框架DiaMoE-TTS；vivo公布X200系列影像升级计划；字节跳动开源文本驱动高保真人脸生成模型FaceCLIP。

AI技术多模态模型边缘计算
AI日报：微软发布首款自研图像生成模型 MAI-Image-1；百度世界大会时间公布；AI大牛开源nanochat教学工具

微软发布首款自研图像生成模型MAI-Image-1，跻身LMArena前十，注重实用性与光影效果；百度世界2025大会将聚焦大模型与AI全球化战略；Meta新技术使RAG推理速度提升30倍；开源项目nanochat实现低成本构建聊天AI；谷歌NotebookLM新增动漫视频生成功能；中国农大发布神农大模型3.0助力智慧农业；腾讯启动"青云奖学金"培养AI人才；苹果FS-DFM模型长文本生成效率提升128倍；谷歌Lens整合AI图像编辑功能；港大与美团提出CodePlot-CoT方法，通过代码绘图解决数学难题，性能提升21%。

AI 图像生成微软
苹果预告M5芯片：新MacBook Pro首发搭载

近日，苹果公司营销主管格雷格·乔斯维亚克（Greg Joswiak）通过官方渠道发布了一则引人瞩目的预告，宣称一款强大的新品即将震撼登场。预告配图动画巧妙展现了“V”字形轮廓，这一形状与罗马数字“5”不谋而合，而配文中又暗藏五个“M”，几乎是在明示新品与苹果M5芯片紧密相关。

苹果新品 M5芯片 MacBook
荣耀Magic8系列暨MagicOS10发布会定档10月15日

今日，荣耀官方正式宣布，荣耀Magic8系列暨MagicOS10发布会定档10月15日。届时，备受瞩目的新一代旗舰荣耀Magic8系列将闪亮登场，该系列成为首批搭载第五代骁龙8至尊版芯片的旗舰机型之一。

荣耀Magic8系列第五代骁龙8至尊版天青釉配色
腾讯混元图像3.0登顶LMArena榜一

腾讯混元图像3.0模型发布仅一周，即在全球26个顶尖大模型中脱颖而出，登顶LMArena权威榜单首位，成为AI生图领域新王者。其成功得益于三大核心优势：能运用知识推理生成有逻辑内涵的图像；精准实现中英文长文本及细节标注的渲染；兼具真实质感与审美把控。作为开源模型，混元系列已构建覆盖多模态的技术生态，社区衍生模型超3000个，其中混元3D模型下载量超260万次，是全球最受欢迎的3D开源模型。未来腾讯将持续拓展其应用边界。

腾讯混元图像3.0 AI文生图开源生图模型
谢霆锋成为荣耀未来科技体验官将亮相荣耀Magic8系列发布会

10月13日，荣耀手机宣布谢霆锋正式成为其未来科技体验官，引发科技与娱乐界广泛关注。荣耀同步发布Magic8系列新品，包括Magic8和Magic8 Pro两款机型，均搭载第五代骁龙8至尊版处理器，性能强劲。设计上，Magic8采用直边直屏，Magic8 Pro则为等深四曲屏，支持3D人脸识别。同时推出“后悔宝”以旧换新活动，最高补贴1000元。荣耀MagicPad3 Pro平板也将搭载同款处理器，刷新安卓平板性能极限。

荣耀手机谢霆锋荣耀Magic8系列
刷新行业最高记录！荣耀Magic8 Pro跑分突破428万

荣耀Magic8系列将于10月15日发布，是首批第五代骁龙8至尊版旗舰之一。系列包含荣耀Magic8、荣耀Magic8Pro两款新机，此前官方已经晒出了荣耀Magic8的跑分，成绩突破416万，刷新行业记录。今天荣耀手机产品经理李坤晒出了荣耀Magic8Pro跑分，再一次刷新行业最高记录428万。需要注意，李坤首先强调，荣耀其实没有测跑分的传统，只是前段时间看到友商旗舰的跑分只有不到400万，

荣耀Magic8系列第五代骁龙8至尊版跑分记录
荐AI日报：快手KAT-Dev代码模型开源登顶；全球首款IP66防护人形机器人DR02发布；谷歌Chrome即将引入Gemini新功能

快手开源72B代码模型KAT-Dev在SWE-Bench测试中准确率达74.6%，创国产AI编程里程碑；杭州云深处推出全球首款IP66防护全候作业机器人DR02；谷歌Chrome将集成Gemini引发隐私担忧；学者指控苹果使用盗版书籍训练AI，版权争议再起；Liquid AI发布高效稀疏激活模型LFM2-8B-A1B；苹果拟收购Prompt AI布局智能家居视觉技术；AI伴侣应用泄露4300万条用户隐私对话；西湖大学DeepScientist显著提升科研效率。

AI日报快手72B代码模型 KAT-Dev
小米17 Pro Max推送澎湃OS更新：妙享背屏更好用了

10月3日，小米14 Pro Max推送澎湃OS 3.0.16版本更新，核心优化“妙享背屏”体验，修复相机与系统稳定性问题。重点调整高频交互场景下的动态通知显示逻辑，提升待机能耗和自动亮度表现，解决龙湖App闪退异常。相机方面优化长焦镜头对焦噪点，加快启动速度，增强连拍与动态照片流畅度，全面改善使用体验。

小米17 Pro Max

今日大家都在搜的词：

热文

3 天
7天

中国研究团队发布多视角数据集“FreeMan” 解决3D人体姿势估计局限性

Checkout.com正式推出Flow Remember Me：一键支付，全球通用

荐AI日报：阿里发布紧凑型Qwen3-VL模型；科大讯飞AI翻译耳机全球首发；Gemini代码惊现Veo3.1

AI日报：微软发布首款自研图像生成模型 MAI-Image-1；百度世界大会时间公布；AI大牛开源nanochat教学工具

苹果预告M5芯片：新MacBook Pro首发搭载

荣耀Magic8系列暨MagicOS10发布会定档10月15日

腾讯混元图像3.0登顶LMArena榜一

谢霆锋成为荣耀未来科技体验官将亮相荣耀Magic8系列发布会

刷新行业最高记录！荣耀Magic8 Pro跑分突破428万

荐AI日报：快手KAT-Dev代码模型开源登顶；全球首款IP66防护人形机器人DR02发布；谷歌Chrome即将引入Gemini新功能

小米17 Pro Max推送澎湃OS更新：妙享背屏更好用了

今日大家都在搜的词：

热文

微信员工回应好友互删后互动清除：并非新版本特性

AI日报：LiblibAI 2.0正式上线；通义千问、豆包开启记忆功能；

董明珠称格力向特斯拉提供服务已有近14万项专利技术

卢伟冰调侃还有小米6钉子户：小米6机主宣布换机小米17

Windows 10即将“停服”上热搜微软建议用户升级Win 11

库克下月满65岁苹果或迎特努斯时代：有望执掌十年以上

京东回应下场造车：不直接涉及制造三方联合推出

小米第三款车路测谍照曝光雷军测试小米汽车现身盘龙古道

小红书崩了上热搜客服回应：已在尽快处理

谢霆锋成为荣耀未来科技体验官将亮相荣耀Magic8系列发布会

微信员工回应好友互删后互动清除：并非新版本特性

AI日报：LiblibAI 2.0正式上线；通义千问、豆包开启记忆功能；

网易云音乐回应登入李玟账号：已与网友新手机号解绑

董明珠称格力向特斯拉提供服务已有近14万项专利技术

卢伟冰调侃还有小米6钉子户：小米6机主宣布换机小米17

AI日报：快手KAT-Dev代码模型开源登顶；全球首款IP66防护人形机

AI日报：美图RoboNeo上线首月MAU破百万；影视级音画同步模型Ga

影视飓风Tim送罗永浩顶配iPhone17ProMax 后者锐评：越做越难看

Windows 10即将“停服”上热搜微软建议用户升级Win 11

库克下月满65岁苹果或迎特努斯时代：有望执掌十年以上

站长商机