首页 > 传媒 > 关键词  > 多模态AI最新资讯  > 正文

ISC.AI 2024多模态时代的大模型关键技术与应用论坛成功召开

2024-08-07 16:57 · 稿源: 站长之家用户

近日,ISC.AI2024多模态时代的大模型关键技术与应用论坛成功召开。本次论坛由360人工智能研究院、中国图象图形学学会联合主办,集结业界知名学者、行业技术佼佼者等前沿代表,围绕多模态时代大模型的技术变革、研发挑战、应用场景等问题展开深入探讨,致力共同探索出多模态大模型发展的“中国路径”,为全行业的数转智改提质加速。

在开场致辞环节中,360集团副总裁、360数智化集团CEO殷宇辉表示,人工智能正在以比较罕见的速度改变世界,其中多模态AI技术是重要研究方向之一,实现了更加自然、有效的人机交互和智能决策。对此,360人工智能研究院、中国图象图形学学会以及全国高校展开了大量的合作,希望通过促进产、学、研、用的深度融合,共同推进相关技术的创新和发展。

中国图象图形学学会副秘书长,北京理工大学光电学院教授、博导刘越则表示,大模型正逐步地从单纯的语言处理迈向多模态融合的新阶段,其潜力与价值正初步显现。多模态大模型的提出,通过引入图像、声音等多模态信息,使人工智能系统具备更加全面、深入的理解与处理能力,这一跨越不仅意味着技术层面的巨大挑战与突破,更预示着人工智能场景的无限拓展与深化。

在主题演讲环节中,中国科学院自动化研究所副总工程师,紫东太初大模型研究中心常务副主任、研究员、博导, 武汉人工智能研究院院长,多模态人工智能产业联盟秘书长王金桥就《多模态大模型的实践与思考》进行了分享。他指出,大模型时代,算力产业成为了新质生产力。伴随着参数量的逐渐增加,海量的智能化算力成为必要基础。

360人工智能研究院副院长、视觉方向负责人冷大炜在《多模态大模型LMM与细粒度开放世界目标检测》的主题分享中提到,多模态大模型本质上学习的是文本模型和图像模态细粒度的对齐,细粒度的开放世界目标检测能力将会对办公自动化、机器人具身智能、自动驾驶领域的发展,具有重要的影响。

复旦大学计算机学院教授,中国中文信息学会大模型大搜索与生成专委会副主任,上海市计算机学会自然语言处理专委会主任邱锡鹏在《从大语言模型到世界模型》的主题分享中提到,人工智能的突破主要特点就是通用性,相比上一代模型来讲,一个模型能够解决非常多的任务。当我们有了这样一个基座,就可以去改变下游任务的形式。

清华大学副研究员,青年人才,哈尔滨工业大学博士,加州大学伯克利分校和哥伦比亚大学博士后赵思成在《大模型端侧部署应用关键技术》的主题分享中指出,终端设备蓬勃发展,应用不断深入,与云侧相比,端侧功耗算力有限,实时性要求高,计算分布化,端侧AI技术成为产业界的核心瓶颈。因此,如何在有限资源的端侧设备上运行大模型,以满足端侧设备的智能化需求,也就是大模型小型化,是人工智能普及的迫切需求。

清华大学电子工程系助理研究员杨舒在《当视频语义描述遇见大模型》的分享中表示,人类对世界的理解是基于触觉、听觉、视觉等多个模态的,我们希望机器也可以从语音、视频、文字等多模态来理解这个世界。所以,如何通过机器学习的方法处理和理解多源异构数据,是多模态学习的核心内容,具体包括多模态表征学习、模态转化、对齐、融合和协同学习这些关键研究内容。

360集团佼佼者算法专家赵光香在《大模型继续预训练》的分享中指出,大模型的继续预训练面临着“二阶段训练的影响”、“绝望之谷的沟壑”以及“迁移效率”等挑战,并就上述问题分享了详细的实战经验。

此外,360人工智能研究院文档理解及知识图谱算法负责人刘焕勇在《面向办公问答应用的多模态文档理解范式》中则表示,多模态模型文档处理是文档办公场景中的重要步骤,对文档理解的程度、解析的精细度,决定了后续文档应用场景性能效果的上限。真实落地场景中的文档处理,既需要考虑模型准确性,也需要考虑速度、推理成本等。

作为新质生产力发展的重要引擎,多模态大模型进入了研发和落地的爆发期,进一步实现了多模态信息的混合输出能力。在此背景下,ISC.AI2024多模态时代的大模型关键技术与应用论坛有效促进了国内多模态大模型研究的发展,加强了学术界和工业界的技术交流和成果转化,对推动人工智能行业的发展具有深远意义。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 大家在看
  • sentient:在3行代码内构建浏览器控制代理

    Sentient 是一个框架/SDK,允许开发者在3行代码内构建能够控制浏览器的智能代理。它利用最新的人工智能技术,通过简单的代码即可实现复杂的网络交互和自动化任务。Sentient 支持多种AI模型,包括OpenAI、Together AI等,能够根据用户的具体需求提供定制化的解决方案。

  • Pixtral-12B-2409:多模态12B参数模型,结合视觉编码器处理图像和文本。

    Pixtral-12B-2409是由Mistral AI团队开发的多模态模型,包含12B参数的多模态解码器和400M参数的视觉编码器。该模型在多模态任务中表现出色,支持不同尺寸的图像,并在文本基准测试中保持最前沿的性能。它适用于需要处理图像和文本数据的高级应用,如图像描述生成、视觉问答等。

  • Pixtral 12B:首个多模态 Mistral 模型,支持图像和文本的混合任务处理。

    Pixtral 12B 是 Mistral AI 团队开发的一款多模态 AI 模型,它能够理解自然图像和文档,具备出色的多模态任务处理能力,同时在文本基准测试中也保持了最先进的性能。该模型支持多种图像尺寸和宽高比,能够在长上下文窗口中处理任意数量的图像,是 Mistral Nemo 12B 的升级版,专为多模态推理而设计,不牺牲关键文本处理能力。

  • World Labs:构建大型世界模型,感知、生成和与3D世界互动

    World Labs 是一家专注于空间智能的公司,致力于构建大型世界模型(Large World Models),以感知、生成和与3D世界进行互动。公司由AI领域的知名科学家、教授、学者和行业领导者共同创立,包括斯坦福大学的Fei-Fei Li教授、密歇根大学的Justin Johnson教授等。他们通过创新的技术和方法,如神经辐射场(NeRF)技术,推动了3D场景重建和新视角合成的发展。World Labs 得到了包括Marc Benioff、Jim Breyer等知名投资者的支持,其技术在AI领域具有重要的应用价值和商业潜力。

  • g1:使用开源模型Llama-3.1 70b在Groq上创建类似o1的推理链

    g1是一个实验性的项目,旨在通过使用Llama-3.1 70b模型在Groq硬件上创建类似于OpenAI的o1模型的推理链。这个项目展示了仅通过提示技术,就可以显著提高现有开源模型在逻辑问题解决上的能力,而无需进行复杂的训练。g1通过可视化的推理步骤,帮助模型在逻辑问题上实现更准确的推理,这对于提高人工智能的逻辑推理能力具有重要意义。

  • Dream Machine API:创意智能平台,用于构建魔法般的AI产品

    Dream Machine API是一个创意智能平台,它提供了一系列先进的视频生成模型,通过直观的API和开源SDKs,用户可以构建和扩展创意AI产品。该平台拥有文本到视频、图像到视频、关键帧控制、扩展、循环和相机控制等功能,旨在通过创意智能与人类合作,帮助他们创造更好的内容。Dream Machine API的推出,旨在推动视觉探索和创造的丰富性,让更多的想法得以尝试,构建更好的叙事,并让那些以前无法做到的人讲述多样化的故事。

  • AI问我:一站式AI工具导航平台,探索人工智能的无限可能。

    AI问我是一个集合了多种人工智能工具的导航平台,它为用户展示了从AI写作、设计、编程到娱乐和教育等多个领域的AI工具。该平台通过提供丰富的AI工具列表,帮助用户快速找到适合自己需求的AI解决方案,无论是提高工作效率、创造艺术作品还是进行学术研究,都能在这里找到合适的工具。AI问我的背景信息显示,它旨在为用户提供一个安全、便捷、内容广泛的AI工具搜索和使用环境。

  • 百度AI助手:智能对话平台,提供多领域AI服务。

    百度AI助手是一个集成了多种智能体的在线服务平台,它通过人工智能技术为用户提供包括医疗、教育、娱乐等多领域的智能对话服务。该平台利用大数据分析和机器学习算法,能够理解用户的需求并提供个性化的回答。百度AI助手的主要优点包括快速响应、高准确性和广泛的服务范围。它的背后是百度强大的人工智能技术支撑,旨在为用户提供便捷、高效的智能服务体验。目前,该平台对所有用户免费开放。

  • Shangchen Zhou:专注于计算机视觉和机器学习领域的研究与创新的博客网站

    Shangchen Zhou 是一位在计算机视觉和机器学习领域有着深厚研究背景的博士生,他的工作主要集中在视觉内容增强、编辑和生成AI(2D和3D)上。他的研究成果广泛应用于图像和视频的超分辨率、去模糊、低光照增强等领域,为提升视觉内容的质量和用户体验做出了重要贡献。

  • MiniMax:引领AI视频、音乐、文本创作新潮流

    MiniMax模型矩阵是一套集成了多种AI大模型的产品,包括视频生成、音乐生成、文本生成和语音合成等,旨在通过先进的人工智能技术推动内容创作的革新。这些模型不仅能够提供高分辨率和高帧率的视频生成,还能创作各种风格的音乐,生成高质量的文本内容,以及提供超拟人音色的语音合成。MiniMax模型矩阵代表了AI在内容创作领域的前沿技术,具有高效、创新和多样化的特点,能够满足不同用户在创作上的需求。

  • Magickimg AI 贴纸生成器:快速创建个性化AI贴纸,让沟通更生动有趣。

    Magickimg AI贴纸生成器是一个利用人工智能技术,根据用户输入的提示词快速生成个性化贴纸的在线工具。它主要面向需要为社交媒体、聊天应用等增添个性化元素的用户。产品背景基于深度学习技术,通过用户友好的界面,提供简单快捷的操作体验。产品的主要优点包括快速生成、易于操作、高质量输出以及安全可靠的服务。

  • 讯飞虚拟人:全栈式虚拟人多场景应用服务

    讯飞虚拟人利用最新的AI虚拟形象技术,结合语音识别、语义理解、语音合成、NLP、星火大模型等AI核心技术,提供虚拟人形象资产构建、AI驱动、多模态交互的多场景虚拟人产品服务。一站式虚拟人音视频内容生产,AIGC助力创作灵活高效;在虚拟'AI演播室'中输入文本或录音,一键完成音、视频作品的输出,3分钟内渲染出稿。

  • 智谱AI大模型开放平台:几行代码接入大模型

    智谱AI大模型开放平台是一个提供多种AI模型服务的平台,支持开发者和企业快速接入大模型API,构建变革性AI体验。平台提供GLM-4系列大模型,包括免费模型GLM-4-Flash、全自研最新版本GLM-4-Plus、支持200万上下文的GLM-4-Long等。此外,还提供多模态大模型,如视觉能力GLM-4V-Plus、文生图CogView-3-Plus、文生视频CogVideoX。平台面向开发者提供模型API、Alltools API、批处理API等服务,面向企业服务提供医疗健康、汽车、游戏娱乐、文旅、智能终端、智能制造、消费等行业解决方案。

  • 24h搜书:一站式免费电子书搜索和下载平台

    24h搜书是一个提供各类电子书资源的在线平台,用户可以通过书名、作者、出版社或ISBN编号进行搜索,找到所需的电子书资源并进行下载,内置AI辅助功能的电子书搜索引擎和下载工具。该平台支持多种语言版本的书籍,包括中文、英文、日文等,满足不同用户的需求。24h搜书以其便捷的搜索功能和丰富的电子书资源库,成为电子书爱好者和学习者的优选平台。

  • Hello!GPT:AI繪本創作系統,激發孩子的創意與想像力。

    Hello!GPT是一套专为小学生设计的AI绘本创作系统,通过集成的AI引擎,帮助学生生成适合的故事文案,并根据想法自动绘制出画家级别的图片。它能够自动生成电子绘本,不仅可作为学习工具,还可出版发行,参加比赛。产品通过AI智能绘图、文案生成等技术,为孩子们提供了一个创意无限、操作简单的创作平台,旨在提升他们的语言表达、创意思维和绘画技巧。

  • C知道:专业程序员AI问答工具

    C知道是由CSDN和外部合作伙伴联合研发的生成式AI产品,专注于为程序员提供问答、对话、文件分析、代码生成等服务,旨在提高工作学习效率。它通过先进的人工智能技术,能够理解并回答与编程相关的问题,支持多种编程语言和框架,是程序员日常开发和学习过程中的得力助手。

  • Miniflow:轻松创建AI工作流程,提升效率。

    Miniflow是一个AI工作流程自动化平台,它允许用户无需编写代码即可轻松创建和自动化各种AI工具的工作流程。该平台通过直观的拖放界面,提供了大量内置的工作流节点和模板,旨在简化任务,提高生产力。Miniflow适合希望简化工作流程、提高效率的用户,无论是技术用户还是非技术用户。目前产品仍在开发中,预计2024年推出。

  • Zhou Yi Easy Fortune:提供个性化的风水和占卜服务

    Zhou Yi Easy Fortune周易简易占卜是一个结合了中国传统文化和现代互联网技术的网站,它通过用户提供的出生信息和问题,运用周易的智慧来提供个性化的风水和占卜服务。该产品以周易为背景,结合现代算法,为用户提供一个简单易用的占卜平台,帮助用户在日常生活中寻找指导和启示。

  • StoryTribe:在线故事板制作工具,无需绘画技能。

    StoryTribe是一个在线故事板制作工具,它为UX设计师、营销人员和内容创作者提供定制化的故事板和插图。用户无需具备绘画技能即可轻松创建故事板,支持多种角色组合和场景道具,提供高质量的插画,适合专业和学术使用。StoryTribe旨在支持多元文化、种族和身体条件,其角色设计反映了现实生活中的人物比例,便于与真实照片背景结合,增强视觉叙事的沉浸感。

  • Flux AI 图像生成器:利用尖端AI技术,将创意转化为高质量图像。

    Flux AI 图像生成器是由Black Forest Labs开发的,基于革命性的Flux系列模型,提供尖端的文本到图像技术。该产品通过其120亿参数的模型,能够精确解读复杂的文本提示,创造出多样化、高保真的图像。Flux AI 图像生成器不仅适用于个人艺术创作,也可用于商业应用,如品牌视觉、社交媒体内容等。它提供三种不同的版本以满足不同用户的需求:Flux Pro、Flux Dev和Flux Schnell。

今日大家都在搜的词: