中国研究团队发布多视角数据集“FreeMan” 解决3D人体姿势估计局限性

2023-09-25 11:30 · 稿源：站长之家

文章概要:
- “FreeMan”是一份大规模多视角数据集，旨在解决现有3D人体姿态估计数据集的局限性。
- 数据集包含来自8台同步智能手机的1100万帧，跨足了室内和室外环境，具备不同光照条件，提供了更真实的场景多样性。
- 研究者通过自动化的标注流程，包括人体检测、2D关键点检测、3D姿态估计和网格标注，生成了精确的3D标注，可用于多种任务，如单2D到3D转换、多视角3D估计和神经渲染。

站长之家（ChinaZ.com）9月25日消息:从真实场景中估计人体的三维结构是一项具有挑战性的任务，对于人工智能、图形学和人机交互等领域具有重要意义。然而，现有的3D人体姿态估计数据集通常在受控条件下收集，具有静态背景，无法代表真实世界场景的多样性，从而限制了用于真实应用的准确模型的开发。

在这方面，类似于Human3.6M和HuMMan的现有数据集广泛用于3D人体姿态估计，但它们是在受控的实验室环境中收集的，无法充分捕捉真实世界环境的复杂性。这些数据集在场景多样性、人体动作和可扩展性方面存在局限。研究人员提出了各种模型用于3D人体姿态估计，但由于现有数据集的局限性，它们的效果通常在应用于真实场景时受到阻碍。

中国的一支研究团队推出了“FreeMan”，这个由来自香港中文大学（深圳）和腾讯等机构的团队共同合作开发的项目，被誉为革新性的多视角数据集，旨在为3D人体姿势估计领域带来新的突破。

FreeMan是一个新颖的大规模多视角数据集，旨在解决现有数据集在真实场景中3D人体姿态估计方面的局限性。FreeMan是一项重要的贡献，旨在促进更准确和稳健模型的开发。

FreeMan项目的特点之一是其数据集的规模和多样性。该数据集由8部智能手机在不同场景下的同步录制组成，包括10个不同场景、27个真实场地，总计包含了超过1100万帧的视频。每个场景都涵盖了不同的照明条件，使得这个数据集成为一个独一无二的资源。

FreeMan数据集的开源是为了促进大规模预训练数据集的发展，同时也为户外3D人体姿势估计提供了全新的基准。这一数据集不仅包括视频，还提供了丰富的注解信息，包括2D和3D人体关键点、SMPL参数、边界框等，为研究人员提供了丰富的资源以推动相关领域的研究。

值得注意的是，FreeMan引入了相机参数和人体尺度的变化，使其更具代表性。研究团队开发了自动化的标注流程，以从收集的数据中高效生成精确的3D标注。这一流程包括人体检测、2D关键点检测、3D姿态估计和网格标注。由此产生的数据集对于多种任务都非常有价值，包括单目3D估计、2D到3D转换、多视角3D估计和人体主体的神经渲染。

研究人员提供了对FreeMan进行各种任务的全面评估基线。他们将在FreeMan上训练的模型与在Human3.6M和HuMMan上训练的模型的性能进行了比较。值得注意的是，在3DPW数据集上测试时，训练在FreeMan上的模型表现出显著更好的性能，突显了FreeMan在真实场景中的卓越泛化能力。

在多视角3D人体姿态估计实验中，与在Human3.6M上训练的模型相比，在跨领域数据集上测试时，训练在FreeMan上的模型表现出更好的泛化能力。结果一致显示了FreeMan多样性和规模的优势。

在2D到3D姿态转换实验中，FreeMan的挑战显而易见，因为在这个数据集上训练的模型面临更大的难度。然而，当模型在整个FreeMan训练集上进行训练时，其性能得到改善，显示出该数据集提高模型性能的潜力。

FreeMan的可用性预计将推动人体建模、计算机视觉和人机交互领域的进步，弥合了受控实验室条件与真实场景之间的差距。

项目网址:https://wangjiongw.github.io/freeman/

（举报）

相关推荐
大家在看

关键词：

FreeMan

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
POCO：用于3D人体姿势和形状估计的新型人工智能框架

人体姿态和形状的三维估计是重建现实世界中的人体行为所必需的。从二维图像进行三维推断面临深度模糊、遮挡、不寻常的服装和运动模糊等挑战。如果您对此感兴趣，不妨查看相关链接以了解更多详情。

AI
荐机器人研究迎来ImageNet时刻：一个数据集，让DeepMind具身智能大模型突飞猛进

在大模型不断取得突破的2023，把大模型当做大脑来辅助运行的具身智能机器人研究也在被迅速推进。2个多月前，谷歌DeepMind推出了第一个控制机器人的视觉-语言-动作模型——RT-2。未来的另一个方向是进一步探索不同数据集的混合会如何影响跨具身智能体泛化，以及这种泛化是如何是实现的。

ImageNet 机器人 DeepMind
荐以3D视角洞悉矩阵乘法，这就是AI思考的样子

如果能以3D方式展示矩阵乘法的执行过程，当年学习矩阵乘法时也就不会那么吃力了。矩阵乘法已经成为机器学习模型的构建模块，是各种强大AI技术的基础，了解其执行方式必然有助于我们更深入地理解这个AI以及这个日趋智能化的世界。下面的可视化显示了一个注意力头，其权重张量wQ、wK_t、wV、wO被低秩分解wQ_A@wQ_B等替换。

3D
「字少信息量大」，Salesforce、MIT 研究者手把手教 GPT-4「改稿」，数据集已开源

自动摘要技术取得了长足的进步，这主要归功于范式的转变——从在标注数据集上进行有监督微调转变为使用大语言模型进行零样本prompt，例如GPT-4。不需要额外的训练，细致的prompt就能实现对摘要长度、主题、风格等方面特征的精细控制。更多论文细节，可参考原论文。

GPT-4 数据集
智源开源中英文语义向量模型训练数据集MTP

智源研究院发布面向中英文语义向量模型训练的大规模文本对数据集MTP。这是全球最大的中、英文文本对训练数据集，数据规模达3亿对，希望推动解决中文模型训练数据集缺乏问题。作为中国大模型开源生态圈的代表机构，智源持续进行包括数据在内的大模型全栈技术开源，推动人工智能协同创新。
3D领域的Midjourney？Luma AI助您捕捉真实之美

LumaAI是一款革命性的3D捕捉技术，具备无与伦比的光线和反射效果。它使未来的视觉效果技术可用于每个人，无论是专业人士还是普通用户。这将彻底改变游戏开发、虚拟现实和影视行业的创作方式。

Luma
索尼发布六枚“纽扣”：真人动作捕捉驱动3D虚拟形象

索尼发布便携动作捕捉产品mocopi，将于10月上旬上市销售，建议零售价2499元。mocopi由六个小巧轻便的传感器搭配专用mocopi”应用程序，使用智能手机实现实时动作捕捉与数据处理，让用户自由驱动3D虚拟形象。mocopi也自带绿幕背景模式，支持拍摄作品在其他终端的二次创作。
好莱坞演员继续罢工抗议AI和3D扫描技术

好莱坞演员继续罢工，对抗AI技术的增长和使用，并声援“NOFAKESACT”法案。好莱坞编剧罢工已经结束，并获得了对剧本中的AI保护措施，但对于演员来说，情况却并不乐观。包括MoveAI在内的初创公司正在开发可以使用单部智能手机的AI驱动的3D运动捕捉技术，这将大大降低成本和所需资源。
Google AI推出SANPO:多属性视频数据集助力高级视觉场景理解

GoogleAI最近推出了名为SANPO的数据集，旨在帮助AI模型更好地理解户外人类主观场景。这一数据集的重要性在于，它不仅包括真实世界的数据包括合成数据，以及丰富的注释和多属性特征。研究人员的隐私承诺使这一数据集能够支持其他研究人员开发面向视障人士的视觉导航系统，并推动先进的视觉场景理解领域的发展。

SANPO 数据集 GoogleAI
MonoXiver:新AI算法将2D照片转换为3D地图

MonoXiver是北卡罗莱纳州立大学刘贤鹏团队开发的一种利用AI从二维图片中提取三维信息的方法。它只需要一个普通的单目摄像头，就可以构建相机周围可靠的三维地图。除自动驾驶外，这种AI方法也可应用于其他领域，如机器人、环境监测、医学成像等。

MonoXiver

TravAI:是一款AI驱动的旅行培训产品，提供交互式AI培训、模拟、评估和智能助手，为旅行行业人员提供最新的技能和知识。

TravAI是一款旅行行业的AI驱动培训产品，通过注入AI技术，为培训注入活力。它能创建引人入胜、交互式的培训课程，进行逼真的角色扮演模拟，并设计能够真正起作用的测验。同时，TravAI利用您的数据为旅行团队量身定制个性化学习体验，让培训不再是通用的、一刀切的。它是培训旅行业专业人员的更智能、更快速的方式。

旅行培训 AI

Nextminds:是一家提供在线辅导服务的平台，为所有科目和学术水平的学生提供个性化辅导。

Nextminds是一个提供在线辅导服务的平台，通过与经验丰富的导师在线互动，为学生提供个性化的学习经验。平台提供ICSE、CBSE和州委员会等多种教育体系的辅导。Nextminds的主要优点是学生可以在舒适的家中与专业的导师进行一对一的在线学习，为学生提供高质量的辅导服务。

在线辅导学习个性化

Pedagogue.io:每天花费10分钟，提升您的AI技能。

Pedagogue是一款AI技能培训平台，旨在帮助个人和企业提升AI技能。通过该平台，用户可以学习AI工具、技术和策略，并获得40%的生产力提升。Pedagogue的优势在于更新及时的内容库、个性化的技能培养、有趣的学习方式以及具有商业价值的数据驱动洞察。

AI 技能培训教育

LexiGym:你的语言学习伴侣。🚀 # #HinkouLabs

LexiGym是一款语言学习应用，帮助用户提升语言技能。它具有离线和多语言支持的创新功能，是最强大的语言学习伴侣。用户可以根据自己的预算选择免费使用或付费订阅，灵活选择学习方式。LexiGym还提供易于创建字典和智能学习等功能，以及详细的训练统计数据。

语言学习词汇训练多语言

Alevels.ai:A Levels AI是一个利用人工智能提高A Levels学习成绩的工具。

A Levels AI利用人工智能技术，提供个性化的学习计划和辅导资源，帮助学生在A Levels考试中取得优异成绩。它通过分析学生的学习情况和弱点，为其提供针对性的学习建议和练习题。A Levels AI还提供实时答疑和学习进度跟踪功能，帮助学生更好地掌握知识。

教育考试辅导人工智能

MailReply:是一款AI助手，可生成专业且人性化的邮件回复，节省时间。

MailReply通过AI生成邮件回复，帮助用户节省时间。它可以在保持人类写作风格的同时，根据邮件内容生成上下文相关的回复。MailReply适用于Windows和macOS，并兼容多种邮件客户端。

邮件回复 AI助手工具

Notification harbor:高性能团队的电子邮件营销平台

Notification harbor是一个为电子邮件营销团队提供AI优化的电子邮件内容和自动化流程的平台。通过使用LLM技术，我们可以在短短5分钟内创建高性能的电子邮件营销内容，并且随着时间的推移，产品甚至可以自我优化。我们的平台简化了电子邮件营销活动的方式，确保每个活动都能精准地与您的目标受众建立联系。AI生成的电子邮件模板根据您提供的信息和要求选择最合适的模板。实时个性化电子邮件可以提高用户参与度和转化率，并根据每个用户实时定制内容。AI驱动的电子邮件营销使您的团队在创建电子邮件模板和文本方面节省了60％的时间。

电子邮件电子邮件营销 AI优化

Magic Loops:通过结合ChatGPT自动化与代码，创建简单的自动化任务

Magic Loops是一种基于ChatGPT的自动化工具，可以连接数据、发送电子邮件、接收短信、爬取网站等功能。它能够帮助用户自动化生活中的各种任务，提高工作效率。Magic Loops的主要优点是可以与各种数据源和应用程序集成，轻松实现个性化的自动化需求。

自动化工具 ChatGPT

ReplyAuto:Reply Auto是一款AI邮件助手，能够根据上下文理解邮件内容，并提供智能回复。

Reply Auto是一款使用AI技术的邮件助手，它能够自动分析邮件内容，根据上下文提供智能回复。它的主要优点是提高工作效率，减轻用户的邮件负担，并能够个性化定制回复。Reply Auto定位于帮助用户更高效地处理电子邮件，提高工作效率。

邮件智能回复工作效率

Mailman Workcation:智能邮递员 - 自动化影响力的智能Twitter机器人

AI Mailman利用最新的人工智能技术创建世界上最准确的邮件，比人类更快速和高质量。它提供简单的用户界面，能够创建世界上最强大的邮件模板，打开率更高。使用AI Mailman创建的邮件打开率是其他方式的10倍，生成时间只需10秒。

邮件自动化影响力

Inpost:一款AI驱动的移动应用程序，可以改善个人电子邮件体验。

Inpost.ai是一款基于AI的移动应用程序，可以优化个人电子邮件体验。它帮助用户智能地组织和清理收件箱，专注于重要的电子邮件。它提供无缝的邮件交互，提供增强的安全性和独家功能。通过高级AI模型分析邮件内容，而不暴露用户的敏感信息。用户可以轻松追踪支出、管理发票，并利用促销优惠来优化个人预算。Inpost.ai还提供定制的收件箱分类，让用户能够个性化和高效地管理和优化收件箱。

电子邮件 AI 个人化

Leadog:AI驱动的冷邮件营销、线索跟踪和互动

Leadog.io是一款AI驱动的冷邮件营销平台，提供冷邮件发送、线索跟踪和互动等功能。它采用先进的AI技术来优化冷邮件营销策略，提供精确的邮件投递和跟踪，帮助用户更好地了解和转化潜在客户。

冷邮件线索跟踪营销工具

Prospect AI:一键查找网站上的电子邮件地址和联系人信息

Prospect AI是一款插件，可以帮助销售团队、数字营销人员和公关专业人员免费查找公司的联系人。它使用人工智能技术，快速获取所需的联系人信息，帮助用户拓展业务关系。

市场营销销售潜在客户

Email whisperer:写作完美邮件，让你的电子邮件沟通更上一层楼！

Email Whisperer是一个用于Gmail和Outlook的AI电子邮件编写工具。它可以帮助你轻松地写出完美的电子邮件，提供重新表达、拼写检查和修正功能。它能够提高你电子邮件的清晰度和风格，并确保邮件无错误。Email Whisperer是一个提高电子邮件写作效率的工具，让你的邮件专业而准确。

生产力电子邮件 AI工具

Humanize AI by AI Text Converter:将AI生成的文本转换为与人类写作相匹配的内容。

Humanize AI Text是一个免费在线的AI文本人性化转换工具，能够绕过AI检测，并将AI生成的文本转换为与人类写作相匹配的内容。

AI转换工具文本人性化 AI检测绕过

Happily.ai:使用，超越传统调查。我们的AI平台分析员工情绪，提供可操作的见解，为健康、投入、高绩效的团队提供支持。

Happily.ai是一个AI工具包，帮助人力资源和经理人通过无忧无虑的参与、认可和绩效管理来提高人才留存和团队生产力。

员工参与度人力资源绩效管理

ChatKPI:是一款基于AI的数据分析工具，可以通过文本消息跟踪销售趋势、识别热门产品、了解客户行为，提供图表、定制CSV等功能。

ChatKPI是一个AI数据分析工具，旨在帮助Shopify商家做出更明智的数据驱动决策。它可以提供实时洞察力，跟踪销售趋势，识别热门产品，了解客户行为，并通过自然语言对话提供个性化的商业洞察。ChatKPI可以通过文本消息或在Shopify商店内安装的应用程序使用。

数据分析销售趋势热门产品

Limodify.AI | Email Marketing Design Meets AI:Limodify.AI通过AI技术提供电子商务邮件创建服务。

Limodify.AI革新了电子商务邮件的创建过程，只需点击几下，选择格式，输入关键信息，即可在30秒内获得准备好发送的AI设计的邮件。节省时间，利用先进技术，精确实现您的营销目标。立即免费开始使用。

电子商务邮件营销 AI

PurplePro:使用AI技术，只需两个点击即可启动您的忠诚度俱乐部。

PurplePro是一个使用AI技术的插件，它可以帮助您在短短两个点击的时间内启动您的忠诚度俱乐部。PurplePro通过游戏化和动态的积分规则增加用户参与度，并奖励他们。它还提供了强大的推荐、挑战、问卷和可变奖励功能，帮助您将首次用户转化为忠实的客户。

忠诚度俱乐部用户参与度奖励

LISUTO:株式会社は、eコマースのセラーやマーケットプレイスが売上を増やし、時間を節約し、コアビジネスに集中できるスマートデータ構造化ソリューションのリーダーです。

LISUTO株式会社は、eコマースのセラーやマーケットプレイスが売上を増やし、時間を節約し、コアビジネスに集中できるスマートデータ構造化ソリューションのリーダーです。LISUTO AIは、AIタッガーやイメージタッガーなどのサービスを提供し、商品のタグ登録やナビゲーション改善などを自動化し、効率を向上させます。

中国研究团队发布多视角数据集“FreeMan” 解决3D人体姿势估计局限性

今日大家都在搜的词：

热文

站长商机