11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
中国香港中文大学和SmartMore的研究人员推出了一种名为Mini-Gemini的新颖框架,通过增强多模态输入处理来推动VLMs的发展。Mini-Gemini采用了双编码器系统和一种新颖的补丁信息挖掘技术,结合一个特别策划的高质量数据集,使其能够有效处理高分辨率图像并生成内容丰富的视觉和文本内容,从使其脱颖出。正如研究人员所承认的那样,Mini-Gemini在视觉理解和推理能力方面仍有改进�
社交媒体上的毒性言论可能会像野火般蔓延,特别是针对个人和边缘化群体。明显的仇恨言论相对容易被发现,但隐含毒性——依赖于刻板印象和编码语言不是明显的侮辱——提出了更为棘手的挑战。但通过谨慎使用,它为赋予边缘化声音权力和遏制网络上的压制性言论提供了一条道路。
LaVague是一个旨在自动化浏览器交互的大型动作模型框架,通过将自然语言指令转化为无缝的浏览器交互,重新定义了互联网浏览体验。该框架的设计初衷是为用户自动化繁琐的任务,节省时间,让用户能够专注于更有意义的事务。未来的发展方向可能包括优化本地模型、改进信息检索以确保生成的代码片段相关性、支持其他浏览器引擎等。
在最新的研究中,由卡内基梅隆大学的研究团队开发,提出了一种名为H2O的框架,通过强化学习实现了人对人形机器人的实时全身遥控操作。该框架在仅使用RGB摄像头的条件下,成功地让人形机器人模仿并实时执行各种动态的全身运动,包括行走、后空翻、踢球、转身、挥手、推动、拳击等。这是首次在人形机器人领域实现了这一技术上的突破,为全新的人机交互和协作场景�
加利福尼亚大学圣地亚哥分校和南加利福尼亚大学的研究人员最近推出了一种名为CyberDemo的新型人工智能框架,旨在通过视觉观察进行机器人模仿学习。传统的模仿学习方法通常需要大量高质量的示范数据来教导机器人完成复杂任务,特别是对于需要高度灵巧的任务来说。虽然为每个任务设计模拟环境需要额外的工作,但减少了数据收集的人为干预,并避免了复杂的奖励设计�
MIT和Google的研究人员共同提出了一种名为Health-LLM的新型人工智能框架,旨在将大语言模型应用于健康预测任务,利用可穿戴传感器的数据。该框架的提出标志着健康领域在可穿戴技术和人工智能的交叉点上取得了重大突破。这为以更加可访问和可扩展的方式应用先进的医疗保健分析打开了新的可能性,从为个性化医疗的更广泛目标做出了贡献。
随着自然语言处理和自然语言生成的进步,大型语言模型在实际应用中得到了广泛使用。由于它们能够模仿人类行为,并具有通用性,这些模型已经涉足各个领域。研究团队强调了对预训练数据筛选程序及其社会影响进行更多研究的需求。
南洋理工大学与商汤科技的S-Lab团队近日发布了一项令人振奋的研究成果,推出了基于GaussianSplatting的高效3D人体建模框架,被命名为GauHuman。该框架在快速重建和实时渲染方面取得了显著的突破,为数字领域的人体建模提供了高效解决方案。他们对GauHuman的未来发展充满信心,同时已经将代码完全开源,鼓励广大开发者共同参与,共同推动这一领域的研究和创新。
在虚拟现实领域,快速创建定制虚拟人物并实现与其互动是一个普遍的应用场景。以往的方法在快速重建高保真3D数字人体和实时渲染之间往往难以平衡。Human101通过引入创新的技术和实用的方法,成功地解决了单视角视频中快速建模和实时渲染之间的矛盾,为实时交互应用和沉浸式虚拟现实体验提供了可行的解决方案。
来自南加州大学、华盛顿大学、巴伊兰大学和谷歌研究团队的研究人员推出了DreamSync,这是一种新型人工智能框架,致力于解决扩散型文本到图像模型中对齐和审美吸引力的问题无需进行人工标注、修改模型架构或使用强化学习。DreamSync的方法是通过生成候选图像,利用视觉问答模型对其进行评估,然后对文本到图像模型进行微调。拓展DreamSync的应用到其他模型架构,并在不同场景中进行性能评估和额外研究也是未来持续调查的方向。
一项名为HyperHuman的新型人工智能框架正式亮相,为生成超逼真人体图像开创了崭新纪元。这一框架的重要突破在于结合了结构扩散技术,成功克服了以往模型在生成人体图像中面临的种种挑战。HyperHuman的出现为生成超逼真人体图像提供了一种全新的方法,突破了以往模型的局限性,为未来的虚拟试穿、图像动画等应用带来了更为广阔的可能性。
一款创新的人工智能多模态音乐生成框架Video2Music引起了广泛关注。该框架利用独特的数据集和经过用户研究验证的转换器模型,能够为视频生成情感上相符的音乐,填补了这一领域的空白。这有助于学术和创作领域的知识传播。
斯坦福大学的研究人员推出了一个名为DSPy的AI框架,用于利用语言模型和检索模型来解决各种高级任务。DSPy包含多种技术,可以提示和微调语言模型,改进其推理和检索增强。适合研究人员探索新的流程和任务,也方便实践者开发知识密集型NLP应用。
YouTube首席执行官NealMohan表示,AI技术正在迅速发展,YouTube与音乐产业长期以来一直保持紧密合作,保护音乐作品的版权。为了进一步加强合作,YouTube正在与音乐合作伙伴共同开发AI框架,以增强音乐的独特创造性表达,并保护音乐艺术家及其作品的完整性。他们共同确定了三个基本的AI原则:1)积极拥抱AI技术,与音乐合作伙伴共同发展;2)确保AI技术既保护创作作品,又为音乐合作伙伴提供机会;3)建立行业领先的信任和安全机构和内容政策,保护YouTube社区。
苹果公司和哥伦比亚大学的AI研究人员提出了一种新型的AI框架,可以让一张照片生成3D模型时拥有真实的光线。该框架结合了物理光照模型和神经体积渲染技术,通过使用球面谐波将光照和渲染过程解耦,实现了更逼真的图像生成。通过FaceLit,用户可以获得高质量的人脸三维重光效果,并在不同光照条件下进行灵活的编辑和操作,为人脸图像处理和应用提供了新的可能性。
LoraHub是一个AI框架,用于自动组合LoRA模块,以实现对新任务的适应性性能。它可以根据之前未识别任务的少量样本,自动组织合适的LoRA模块,并通过LoRA学习的方式进行训练。该团队正在努力动态组合LoRA节点,以提高LLM的能力。
伦敦帝国理工学院和DeepMind的研究人员设计了一个AI框架,将语言作为强化学习智能体的核心推理工具。该框架利用了大型语言模型和视觉语言模型,能够有效解决强化学习中的几个基本问题,包括在奖励稀疏环境中的高效探索、顺序学习中的数据重用、新任务的能力调度以及从专家智能体的观察中学习。研究结果表明,语言模型和视觉语言模型可以有效地成为强化学习智能体�
人工智能框架生态峰会将于6月16日在上海召开。根据官方议程,将发布“共建人工智能框架生态,繁荣中国人工智能产业”倡议,并举办“上海昇思AI框架&大模型创新中心启动暨伙伴入驻仪式”。昇思MindSpore坚持开源开放,使能伙伴打造AI大模型、创新应用,推动人工智能产业生态蓬勃发展。
最近的人工智能研究指出了触觉和视觉之间的协同效应。其中一个可以测量三维表面和惯性特性,而另一个则提供了物体投影外观的整体视图。
“无AI,不未来”,值此数字经济蓬勃发展、智能经济加速涌现之际,各行各业已经意识到没有AI的产品或服务,很难赢得未来。拥抱智能经济的第一步,便是AI应用开发,充分“吃透”海量数据与强大算力的红利。 而“无AI框架,不AI开发”,AI应用开发首要选对AI计算框架,去降低环境部署、测试迭代、训练部署等从应用开发到推出的一系列繁杂步骤所带来的巨大难度,节省时间与精力,加速产品上市。 正因如此,AI计算框架成全球科技巨头“
当人工智能不再遥不可及,用户像“插上电”一样“接入云”,开发者再次迎来新一波的机遇。在云+未来峰会上,腾讯云正式推出“智能云”。而在 6 月 22 日的开发者专场上,腾讯发布面向开发者的云实验室,让未来AI技术唾手可得。 同时预告,针对AI领域,即将开源Angel、NCNN等项目,并表示支撑 3000 多家企业的腾讯高效开发工具TAPD将在腾讯云开放,以及明年初开放支持移动APP开发的持续集成云平台。 现场,腾讯云揭秘内测中的CDN边
DreaMoving是什么?DreaMoving是阿里一个基于扩散模型的可控制视频生成框架,用于生成高质量的定制人类舞蹈视频。DreaMoving能够适应大多数风格化扩散模型以生成多样化的结果。
在当今人工智能时代,计算机可以通过扩散模型生成自己的“艺术”,逐步向嘈杂的初始状态添加结构,直到清晰的图像或视频出现。扩散模型突然变得异常受欢迎:输入几个词,即可体验现实与幻想交汇的梦幻景象。当前版本使用StableDiffusionv1.5作为教师模型,学生继承了一些限制,如渲染文本和小脸部的细节描绘,这表明更先进的教师模型可能进一步提升DMD生成的图像。
HPT是HyperGAI研究团队推出的新型多模态大型语言模型框架。它具有高效且可扩展地训练大型多模态基础模型的能力,能够理解包括文本、图像、视频等多种输入模态。点击前往HPT官网体验入口需求人群:"适用于需要处理和理解多模态数据的研究人员和开发者,如进行视觉-语言任务、图像分析、图表解读等。
MovieLLM是一个创新框架,旨在为长视频创建合成的、高质量的数据。该框架利用GPT-4和文本到图像模型的力量,生成详细的脚本和相应的视觉内容。MovieLLM将为您提供强大的支持和创意工具,让视频创作更加简单和高效。
在与法国大语言模型初创公司MistralAI的投资和合作伙伴关系之后,微软今日宣布推出了名为“AI访问原则”的全新框架,旨在指导公司如何运营其AI数据中心基础设施及其他重要AI资产。该框架包含了11个要点,涵盖了诸如应用程序商店的构建和运营等领域。史密斯在演讲中补充道:“事实上,截至今天,我们的数据中心运行着近1600个模型,其中1500个是开源模型,展示了我们作为
SegMoE是一个强大的框架,能够在几分钟内将稳定扩散模型动态组合成专家混合体,无需训练。该框架支持即时创建更大的模型,提供更多知识、更好的粘附性和更好的图像质量。为了深入了解该框架并开始体验其强大功能,请点击前往SegMoE官网。
OLMo是由AI2研究院发布的开源语言模型和训练框架。该框架提供了完整的训练数据、代码、模型参数以及评估代码等资源,为语言模型技术研究人员提供了全面的支持。通过访问OLMo官网,您将进入一个开放的学术世界,与全球研究人员共同推动语言模型技术的发展。
AI视频生成,是最近最热门的领域之一。各个高校实验室、互联网巨头AILab、创业公司纷纷加入了AI视频生成的赛道。这一做法针对其他很多视频生成中的问题或许也有效。
阿里推ReplaceAnything框架可通过AI替换万物阿里智能计算研究院提出的ReplaceAnything框架通过AI技术,实现对服装、证件照背景、人脸等的替换,引发社区热议�