首页 > 业界 > 关键词  > 大模型最新资讯  > 正文

中山大学“梗王”大模型CLoT 靠讲笑话入选顶会CVPR

2024-04-12 14:08 · 稿源:站长之家

站长之家(ChinaZ.com) 4月12日 消息:中山大学HCP实验室联合Sea AI Lab和哈佛大学等单位开展的一项研究,成功地让大型人工智能模型通过讲笑话的方式,探索多模态大模型的创造力,并因此获得了计算机视觉和模式识别领域的顶级会议CVPR的认可。

这项研究的关键在于使用来自日本的“大喜利”(Oogiri)创新响应游戏作为数据源。传统的大模型,如GPT-4,处理这类任务时往往表现得过于正经,缺乏幽默感。而中山大学的“梗王大模型”则能够根据图像或文本输入,生成具有幽默感和创意的响应。

image.png

项目页:https://top.aibase.com/tool/clot

论文地址:https://arxiv.org/pdf/2312.02439.pdf

“大喜利”游戏要求玩家对提供的多模态内容(如问题、图像等)给出幽默和创意的回应。例如,一张老人向年轻人求助的图片,传统回应可能是询问路线,而“大喜利”风格的回应可能是请求帮助解开手铐,这种出人意料的回答具有强烈的幽默冲击感。

研究团队采用了一种新的非顺序、创造性思维范式——跳跃思维(Leap-of-Thought,LoT),以及一套基于此范式的训练方法CLoT。CLoT包括关联性指令微调和探索性自我调整两个阶段,旨在激发模型的创新响应能力。

性能评估方面,CLoT在Oogiri-GO数据集上的选择题和排序题评估中,显著提高了多模态大模型的性能,并超越了包括GPT-4在内的其他先进模型。用户调查也证实了CLoT在生成幽默内容方面的优越性。此外,CLoT在其他任务如“看云猜物CGG”和“发散思维测试DAT”中也展现了良好的泛化能力。

中山大学人机物智能融合实验室(HCP Lab)由林倞教授于2010年创立,专注于多模态内容理解、因果及认知推理、具身学习等领域的研究,并取得了丰富的学术成果。此次研究的成功,不仅展示了该实验室在AI领域的创新能力,也为未来的人工智能研究提供了新的思路和方法。

举报

  • 相关推荐
  • 国际殊荣|中科慧远斩获CVPR 2025工业视觉异常检测挑战赛冠军

    中科慧远视觉技术在CVPR2025工业视觉异常检测挑战赛中夺冠。其创新方案"少样本学习下的逻辑与结构缺陷异常检测方法"融合CLIP、DINOv2和BEIT多模态特征,采用免训练架构和零样本学习技术,最终以0.936的Avg Image Score创下赛会最佳成绩。这是继2023年获奖后,该公司再次在国际计算机视觉顶级会议斩获殊荣,彰显了其在工业AI质检领域的技术实力。作为国内工业AI质检先行者,中科慧远持续深耕多模态大模型技术,其解决方案已在3C电子、半导体晶圆等制造领域积累丰富经验。未来公司将继续突破小样本学习等关键技术,为全球制造业智能化转型提供更精准的AI质检方案。

  • AI日报: ChatGPT免费开放记忆功能;华为WATCH 5智能手表接入双大模型;Claude Pro升级重磅功能

    本期AI日报主要报道了多项AI领域重要进展:1)OpenAI向所有ChatGPT用户免费开放记忆功能;2)蚂蚁集团推出"AI健康管家",服务4000万用户;3)Anthropic与DeepLearning.AI合作推出免费MCP课程;4)谷歌DeepMind开发无需3D模型即可生成逼真运动视频的新技术;5)Exa与OpenRouter合作为400+大模型提供实时网络搜索功能;6)中国知网推出CNKI AI学术研究助手;7)Anthropic推出Claude Explains博客项目;8)Claude Pro新增研究模式和远程MCP整合功能;9)Fish Audio发布基于200万小时数据训练的OpenAudio S1语音模型;10)OpenAI升级Codex编程工具;11)华为WATCH5接入盘古和DeepSeek双大模型。

  • 超越OpenAI?Claude4大模型能连续工作7小时,创SWE-Bench得分纪录

    过去的 AI 模型往往只能维持几分钟的“注意力”,而 Opus 4 的表现意味着,AI 终于具备了完整工作日级别的协作能力……

  • AI日报:豆包大模型1.6发布;OpenAI推o3-pro模型、o3价格暴降80%;Figma官方MCP重磅上线

    【AI日报】今日AI领域重要动态:1)火山引擎发布豆包大模型1.6和视频生成模型Seedance1.0pro,性能显著提升;2)OpenAI推出o3-pro模型,专注可靠性但响应较慢;3)Figma推出Dev Mode MCP服务,实现设计到代码一键转换;4)Krea AI发布图像生成模型Krea1,解决传统AI绘图问题;5)火山引擎豆包日调用量突破16.4万亿次;6)法国Mistral发布推理模型Magistral;7)苹果系统整合ChatGPT图像生成功能;8)OpenAI大幅下调o3价格80%并推出o3-pro;9)Hugging Face开源榜单显示中国团队Qwen与DeepSeek进入全球前15;10)阿里开源MaskSearch框架,提升AI解决复杂问题能力。

  • 中文大模型忠实性幻觉评测:豆包大模型幻觉率仅4%,位居全球收之首

    SuperCLUE+最新评测显示,豆包大模型1.5Pro以仅4%的幻觉率和96%的准确率位居全球榜首,超越DeepSeek、Gemini-2.5-pro和GPT-4o等主流模型。该模型在文本摘要、多文本问答等关键任务中表现优异,尤其在中文理解任务上国内领先。基于MoE架构设计,其综合性能超过多款超大规模预训练模型,推理成本显著降低。截至2025年3月,豆包大模型日均调用量达12.7万亿tokens,是一年前的106倍。IDC报告指出火山引擎以46.4%市场份额领跑中国公有云大模型市场。据悉,6月11日将发布豆包大模型最新升级进展。

  • Anthropic 发布 Claude 4 系列 AI 模型,有啥重大突破?

    Anthropic 表示,这两款 AI 模型在多个行业基准测试中表现出色,是目前业内最强的模型之一……

  • 智能体时代,还得看豆包大模型

    火山引擎,又有大动作了。 2025年6月11日,火山引擎Force原动力大会发布豆包大模型1.6、视频生成模型Seedance1.0pro等重磅新模型,以及迭代了一站式AI云原生全栈服务。 对此,字节跳动CEO梁汝波表示:“做好火山引擎对字节跳动成为一家优秀的科技公司、保持技术竞争力很重要。未来,字节跳动会坚定长期投入,追求智能突破,服务产业应用。通过火山引擎,持续把新模型、新�

  • 一场文心大模型的「AI马拉松」

    对于百度而言,既要保持长期主义的战略定力,也要在技术路径上灵活应变,这种「变与不变」的平衡或许正是其在这轮科技革命中的制胜之道。 2025年,模型能力的重要性依然无需多言。 从预训练的角度来看,虽然连 OpenAI 前首席科学家 Ilya Sutskever 都说,预训练数据即将用尽,但海量的图像、视频等多模态数据资源依然有待挖掘。 从后训练的角度来看,强化学习新范式正�

  • 匠心倾注,荣耀封顶!itc产业园项目二期主体结构正式封顶→

    ITC保伦股份产业园二期项目主体结构封顶仪式圆满举行。该项目占地近百亩,总建筑面积12万平方米,总投资超10亿元,是集自动化、信息化、智能化于一体的现代化工厂。作为番禺区灯光音响产业链龙头企业,ITC坚持产业引领,构建全产业链生态体系,显著提升供应链韧性。封顶仪式现场气氛热烈,标志着项目建设取得重大阶段性胜利。ITC保伦股份成立于2008年,专注声光电讯系统集成研发制造,拥有五大生产基地和超30万平方米现代化产业园。未来,ITC将继续以高标准推进项目建设,为区域经济发展注入新动能。

  • Anthropic首席执行官:AI 模型的“幻觉”比人类少!

    Anthropic 首席执行官达里奥·阿莫代伊(Dario Amodei)表示,他认为当前的 AI 模型出现“幻觉”(即编造虚假事实并将其当作真实信息呈现)的频率,比人类还要低……