首页 > 传媒 > 关键词  > 正文

具身智能、多模态大模型……盘点杭州亚运会上的五大“最黑”科技

2023-10-09 10:27 · 稿源: 站长之家用户

“与历届亚运会相比,杭州亚运会很可能是最智能的一届。”是亚奥理事会代理总干事维诺德在接受媒体访问时的评价。

杭州亚运会于 10 月 8 日晚正式闭幕。中国队以 201 枚奖牌创下新纪录,相较 201 枚奖牌,杭州亚运期间的各类智能应用和科技范儿也同样闪耀。

据亚运会官方数据,本届亚运会有近 20 项首推、首创、首用的应用和科技,接下来我们将介绍其中最为突出的五个科技应用及其背后的技术细节。

一、最“暖”黑科技--智能爱心辅助助手“未名”

杭州亚运会举办期间,在杭州市的一些亚运会志愿者服务点,有一款机器人外观的智能体在为视力障碍人士服务。

“未名”来自未名湖畔的北京大学。在北京大学黄铁军教授及仉尚航研究员的指导下,北京大学庄棨宁学生团队打造了具身智能机器人软件服务系统“未名”,用于亚运会期间的导航指引与帮助服务,还获得了人民日报的“点名”。

“未名”和以往所有的传统机器人不同,它基于庄棨宁学生团队自研的感知生成一体化多模态大模型,能够准确地感知与理解场馆内外的视觉场景,生成准确丰富的语言描述,实现从人类复杂指令到具体行动的转化,并基于端云协作大小模型的协同有效微调,提升模型的泛化性,使其可以快速适应新场景。

据悉,这套系统可以为观众提供导览服务,协助视障人士进行引领和导航,解析视障人士需求并完成相应任务,帮助视障人士捡拾掉落的物品等。

二、最“显眼包”黑科技——捡铁饼机器狗

在杭州亚运会田径赛场,几只来来回回运送铁饼的机器狗成为赛场“显眼包”。

这是在亚运会上运输铁饼的“机器狗”。每只狗的背上都装有卡槽,可以负重1- 2 公斤重的铁饼,在预先设定好的线路上迅速运送体育设备,完成任务之后,机器狗们会“趴”在场边等待指令。此外,个头较小的机器人还可以完成前扑、坐下、作揖等动作。

据了解,机器狗每次往返的平均距离约120m,按照一场比赛往返 60 次来计算,相当于以往铁饼比赛中工作人员超过7000m的工作量,有了机器狗往返运输,就可以大大解放工作人员了。

三、最“私人定制”黑科技--高速运动AI 解说系统

亚运赛场不仅有机器狗捡铁饼,还有AI做赛事解说。

这套由北京大学棨宁学生团队打造的高速运动AI 解说系统,通过高速摄像机的脉冲信号检测场景物体和运动员,将能够捕捉体育比赛中的关键时刻,并生成高质量的集锦和相关数据,基于多模态大模型算法和深度学习模型对这些运动数据进行分析,基于分析结果,系统再生成提供实时的个性化解说服务,从而为各个语种的观众都能提供个性化的体验。

以乒乓球赛事解说生成为例,画面中两个人正在打乒乓球,系统可以捕捉和理解运动员的3D 姿态、也可以对球的轨迹做分析,并生成准确描述。

更值得一提的是,这是多模态大模型技术首 次在国际大型综合性体育赛事中的落地和尝试。

四、最“快”黑科技——AI智能剪辑

众所周知,本届杭州亚运会核心系统实现了100 %上云,这意味着同一场比赛,通过云平台可以生成不同版本,更重要的是,一种全新的视频剪辑方式也有了实现的可能。

据了解,亚运会媒体中心使用的阿里云AI智能剪辑,可以一键自动剪接多角度镜头,添加字幕转场等效果。

举例来说,原本剪辑100 米自由泳比赛集锦视频需要在全景、近景、特写镜头之间来回切,现在只要选中选手就能一键生成多轨合一的镜头,再根据背景音乐加入慢动作的特写镜头、校对 AI 生成的字幕,一条又快又好的视频就完成了。

五、最正直黑科技——AI裁判

传统的人类裁判可能会因为视角、视线遮挡或是瞬间的判断失误而错过某些行为,而AI裁判则可以通过多个角度和高帧率的摄像头实时捕获细节,确保决策更加准确。

据官方披露,本届亚运会引入了AI裁判评分技术,为比赛提供了更公正、准确的判罚。

AI裁判系统通过AI红外追踪技术,配合自动生成的打分系统,为每位选手进行打分。AI裁判还会会对选手的各项身体参数和动作角度进行分析,根据国际标准完成打分,

AI裁判不受情感、压力或任何外部因素的影响,完全基于事实和预定规则进行判决,堪称最“正直”的科技。

期待这些黑科技产品逐渐渗透到普通用户的生活中,为我们的生活带来更多便利、效率和可持续性。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 主流AI多模态大模型有哪些?超全的多模态大模型指南分享

    2024年多模态大模型成为AI领域最具前景的技术方向之一。文章全面分析了主流多模态大模型的特点、应用场景和发展趋势。多模态大模型能同时处理文本、图像、音频、视频等多种数据,实现更智能的人机交互。重点介绍了GPT-4V、Claude3.5、Gemini、通义千问等代表性模型,对比了它们在视觉理解、编程能力、中文处理等方面的优势。应用场景涵盖智能客服、内容创作、教育医疗等领域。未来发展趋势包括模型规模扩大、支持更多模态、实时交互能力提升等。选择模型需考虑应用需求、语言支持、性能成本等因素。

  • 算力赋能营销革新,东信云与华为云签约共建多模态大模型应用标杆

    6月21日,东信云与华为云在HDC2025大会上签署合作协议,双方将基于昇腾AI云服务深化合作,重点布局多模态大模型应用与数字人技术。合作内容包括:1)构建智能营销系统,整合文本、图像、视频等多元数据,提升市场分析和消费者行为预测能力;2)通过大模型实现营销内容自动化生成,包括新闻稿、社交媒体帖子和广告文案;3)优化大模型架构,提升训练和推理效率。东信云6月发布的"数字人智能引擎"已实现分钟级生成逼真数字人,显著提升推荐转化率。双方还将联合行业伙伴共建营销大模型生态系统,推动营销行业智能化升级。

  • AI重构社交生态 Soul以多模态技术赋能社交

    社交平台Soul正通过AI技术重塑社交生态:1)2016年推出智能推荐系统"灵犀引擎",2020年启动AIGC算法研发,2023年推出自研大模型Soul+X,开发AI虚拟人、智能聊天等应用;2)升级多模态大模型,支持文字对话、语音通话、多语言理解等功能,提供拟人化情感陪伴;3)围绕Z世代需求,促成超10万对情侣步入婚姻,并联合开展心理健康公益活动;4)以"技术+人文"双轮驱动,致力于打造更智能舒适的社交环境,重新定义人机关系。

  • 「6月30日AI日报」百度开源文心大模型4.5系列;通义千问发布多模态生成模型Qwen VLo

    AI日报精选:1)百度开源文心大模型4.5系列,含10款新模型,性能优异;2)通义千问发布多模态模型Qwen-VL,支持图文交互;3)阿里开源3亿参数多模态模型Ovis-U1;4)华为开源盘古7B稠密和72B混合专家模型;5)美图MOKI推出AI创意广告功能,一键生成专业视频;6)谷歌Gemini 2.5 Pro API重新免费开放;7)豆瓣上线"深入研究"AI功能;8)小米"AI百宝箱"结束内测;9)北京智研院开源多模态系统OmniGen2;10)知乎升级"直答"知识库功能。

  • AI日报:腾讯混元推3D生成大模型Hunyuan3D-PolyGen;钉钉AI表格重磅来袭;阿里推多模态大语言模型HumanOmniV2

    本文介绍了AI领域多项重要进展:1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen,显著提升建模效率;2)阿里发布多模态大模型HumanOmniV2,准确率达69.33%;3)钉钉AI表格实现1小时处理千项任务;4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级;5)微软推出Deep Research智能体,自动化研究流程;6)香港理工与OPPO联合开源视频超清框架DLoRAL;7)谷歌开源MCP工具箱简化AI与数据库集成;8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。

  • 热钱涌入,中小资本挤不上具身智能牌桌

    今年3月,金沙江创投合伙人朱啸虎“清仓式”看空人形机器人的言论引发市场热议,关于具身智能投资退潮的讨论愈演愈烈。不少观点认为,这个赛道商业化周期漫长,当前阶段的投入性价比越来越低。 但实际上,资本动向却逐渐火热。2025年以来,具身智能领域头部企业持续获得融资。宇树科技完成C轮融资,估值突破百亿元大关;银河通用于6月拿到宁德时代领投的11亿元新�

  • 全球优质AI语音大模型盘点:Whisper、Gemini Speech

    本文分析了当前主流AI语音大模型的核心优势与应用场景。全球顶尖模型包括:OpenAI Whisper(多语言识别与翻译)、Google Gemini(情感化语音生成)、Meta AudioCraft(音乐创作与风格转换)。国内讯飞星火(方言识别)、阿里通义(电商客服)、百度文心(车载场景)表现突出。技术突破点在于云端协同架构、零样本克隆和情感语音合成。选择模型需考虑语言支持、场景适配、部署

  • 2025杭州国际人形机器人展会启幕,微美全息(WIMI.US)AI+具身智能产业跃迁新范式

    2025杭州国际人形机器人技术展览会将在浙江举办,聚焦人形机器人关键技术突破与产业化路径。作为国内首个专注人形机器人全产业链的专业展会,为期3天,汇聚全球200余家企业及专家,覆盖从零部件到应用服务的全产业链,展示仿生驱动、具身智能、脑机接口等前沿技术。特斯拉、阿里云等领军企业参展,分享技术产品与场景应用。摩根士丹利预测,2050年中国市场规模将达6万亿元,总量5900万台。微美全息等企业加速技术落地,推动产业升级。展会将成为行业风向标,促进人形机器人创新发展。

  • AI大模型排名前十:谁主2025智能时代沉浮?

    本文介绍了当前全球最受瞩目的十大AI大模型及其特点。OpenAI的GPT-4系列以自然语言理解和多模态处理能力见长;Anthropic的Claude3系列擅长长文本分析和专业写作;Google的Gemini1.5具备强大的多模态处理能力;Meta的Llama3是性能强劲的开源模型;xAI的Grok系列擅长实时信息处理;Mistral AI以高效混合专家架构著称;Cohere专注企业级应用;Inflection Pi主打情感陪伴;中国的DeepSeek和通义千问在中文本地化方面表现突出。文章建议根据具体需求选择模型,并推荐使用专业平台进行模型对比。未来AI将向更长上下文、更自然的多模态交互等方向发展。

  • GOPS 2025北京站|联想智能云CloudOps专场圆满收官,五大技术议题点燃智能运维新思潮!

    第26届GOPS全球运维大会上,联想智能云CloudOps专场聚焦企业智能化转型,探讨大模型时代下的智能运维实践。联想提出双AI引擎架构:智能分析平台和IT运营智能体xSpark,实现运维流程自动化,提升效率40%。专家分享企业级LLMOps平台设计理念,强调大模型全生命周期管理的重要性。此外,联想FinOps方案通过可视化云资源、精细化成本分摊,助力企业降本30%。会议还展示了跨区域�