11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
北京大学崔斌教授团队在鹏城实验室支持下,研发了面向大模型的高效分布式训练框架。该框架通过统一训练接口、细粒度模型切分与并行策略搜索算法,解决了训练任务多样性和负载不均问题,实现训练效率提升15%。同时利用昇腾计算资源管理能力,优化硬件通信效率,通过计算通信重叠技术提升流水线效率。研究成果已在NeurIPS等顶会发表3篇论文,展现了国产算力在分布式计算领域的潜力,为AI产业自主化突破提供支撑。
谷歌AI研究团队与加州大学圣迭戈分校的研究人员合作,提出了一种名为PixelLLM的智能模型,旨在解决大型语言模型在细粒度定位和视觉-语言对齐方面的挑战。这一模型的提出受到了人类自然行为的启发,尤其是婴儿描述其视觉环境的方式,包括手势、指向和命名。这一研究成果标志着在大型语言模型领域取得的一项重要进展,为实现更精确的视觉-语言对齐和定位打开了新的�
BSChecker:细粒度大模型幻觉检测工具与基准测试排行榜大模型长期以来一直存在一个致命的问题,即生成幻觉。由于数据集的复杂性,难免会包含过时和错误的信息,这使得输出质量面临着极大的挑战。对于BSChecker来说,引入一个关于有益性的评估标准可能很重要。
MoMask是一个创新的3D人体运动生成模型,其核心思想是通过层级量化方案表示人体动作,包括基础层和逐层的残差标记。在模型结构上,引入了MaskedTransformer和ResidualTransformer,分别用于预测基础层的掩码动作标记和逐渐预测更高层次的标记。其在重建、生成和比较方面的实验证明了其在3D人体动作建模领域的卓越性能。
字节大模型,BuboGPT来了。支持文本、图像、音频三种模态,做到细粒度的多模态联合理解。再来一张图片,并带有一段音频,BuboGPT也正确匹配了声音来源:Audio-8-bicycle_bell,量子位,22秒当然,它也会出现识别不成功,表述错误的情况,比如说下面这张图中并没有人,音频也只是钟声,但它的描述和图片似乎并不搭边。
据外媒报道,在iOS15中,苹果对照片回忆(Photos Memories)中的人物和地点引入了更细粒度的控制,它能让用户可以调整在?照片?应用和?照片小部件中随机出现的人。当在?照片?的“为你推荐(For You)”部分查看一段回忆时,用户已经能够选择“建议更少像这样的回忆(Suggest Fewer Memories Like This)”或从照片建议中完全删除一张照片,但现在则还可以选择更少地突出一个特定的人。在查看?照片应用的“为你推荐”部分时,用户可以?
近日,计算机视觉A类顶级会议CVPR 2020 开幕在即, 由Kaggle承办的FGVC(Fine-Grained Visual Categorization,细粒度图像分类)全球挑战赛结果揭晓,支付宝天筭安全实验室夺冠,超越全球1316支顶尖计算机视觉团队。Kaggle是全球最大机器学习平台。
近日,在Kaggle上举办的CVPR 2019 Cassava Disease Classification挑战赛公布了最终结果,深兰科技DeepBlueAI团队荣获冠军。据介绍,国际计算机视觉与模式识别会议(CVPR)是IEEE一年一度的学术性会议,会议的主要内容是计算机视觉与模式识别技术,是世界顶级的计算机视觉会议之一。每年被收录的论文均来自计算机视觉领域顶级团队,代表着国际最前沿的科研技术,并指引着计算机视觉领域未来的研究方向。今年此次挑战赛共有来自全球