11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
为什么当代年轻人越来越愿意将时间投身于运动?很大程度上也反映了当代年轻人工作压力大的现状。平时工作中,人们往往会全神贯注、忘我投入。近期FITURE魔镜PRO新升级版本,也保留5000课程、18大类专题、30健身计划以及80运动专题,且全新的MotionEngine™2.0运动分析引擎,采用新一代NPU,4G运存DDR,5T强大算力,实时纠错,识别率稳居全球范围智能健身行业TOP。
【新智元导读】近日,西交微软北大联合提出信息密集型训练大法,使用纯数据驱动的方式,矫正LLM训练过程产生的偏见,在一定程度上治疗了大语言模型丢失中间信息的问题。辛辛苦苦给大语言模型输入了一大堆提示,它却只记住了开头和结尾?这个现象叫做LLM的中间迷失,是大模型当前仍面临的最大挑战之一。以宽松的匹配准确性作为衡量标准:如果响应中的标签或描述完全匹配,则给出1分,否则为0分。
1块钱买100万个tokens,为跟上OpenAI,这家公司先给自己打个“骨折价”。1一比一复刻OpenAIAI大模型在商业化路途中还在摸索,便已开打“价格战”。2024年大模型会迎来商业化落地潮,智谱AI的商业化竞争压力也会加大。
全国节能宣传周期间,占据社会能耗约1/3的建筑行业成为开展节能降碳行动的重要领域。但建筑内各系统复杂、能耗大,如何将节能落到实处,成为一大行业难题。海尔智慧楼宇作为节能方案提供方,从科技到方案持续创新,为用户带来软硬一体化解决方案的同时,也为我国建筑绿色升级发展贡献了力量。
在网络通信领域的国际顶会SIGCOMM2024上,阿里云6篇论文被收录。其中最引人注目的是介绍其最新一代智算集群网络架构HPN7.0的论文,该论文也是SIGCOMM历史上首篇关于AI智算集群网络架构的论文。这一全新的网络集群架构创新,有望成为下一代AI高性能网络架构的新范式,与谷歌的Jupiter网络相媲美,后者曾被SIGCOMM收录并成为业界经典。
5月11日,首届新消费品牌创新发展大会在浙江省湖州市德清县举行。大会以“品牌新消费提质新生活”为主题,汇聚400余位嘉宾,解读新消费趋势,研究品牌创新发展新路径,探讨助推经济社会高质量发展的“破题之法”。首届新消费品牌创新发展大会是2024世界品牌莫干山大会系列活动之一,由新华社、中国品牌建设促进会指导,浙江省商务厅、新华社品牌工作办公室、新华�
AI语音技术领域的公司正努力寻求何规范Deepfakes,同时又不抑制创新。ElevenLabs的联合创始人兼CEOMatiStaniszewski告诉《大西洋月刊》说:“这将是一场猫鼠游戏”。ElevenLabs已与包括AI、Anthropic、Google和Meta在内的几家人工智能公司签署了一项协议,共同打击2024年选举中的Deepfakes。
在线文本识别模型取得了显著进展,但数学表达识别作为更为复杂的任务仍未得到足够关注。谷歌研究团队推出了MathWriting,一个专注于在线手写数学表达的数据集,包含230k人工编写和400k合成样本,超越了类似IM2LATEX-100K的离线HME数据集。未来的研究可以专注于优化训练/验证/测试分割以及开发针对数学表达的语言模型。
北大与字节跳动AILab联合提出了一种图像生成新范式——VAR,这一新方法的核心在于预测下一级分辨率非传统的预测下一个token。VAR的提出不仅在图像生成质量上超越了Sora的核心组件DiffusionTransformer在推理速度上也实现了20倍以上的提升。VAR的开源也体现了学术界与工业界合作的积极成果,有助于推动整个AI领域的发展和创新。
来自香港中文大学-商汤科技联合实验室等机构的研究者们提出了FouriScale,旨在通过一种全新方法实现生成图像的尺寸和分辨率自由。扩散模型因其卓越的性能,已逐渐超越GAN和自回归模型,成为生成式模型的主流选择。定量和定性的实验对比表明,FouriScale能够在不同预训练模型,不同分辨率下都能够保证更高的图像生成质量。
在文档处理中,特别是在视觉丰富的文档中,高效信息提取的需求变得越来越关键。VRDs,如发票、水电费单和保险报价,在业务工作流中随处可见,通常以不同的布局和格式呈现类似信息。他们的研究为使普通用户能够访问先进的文档处理功能铺平了道路,标志着该领域迈出了重要的一步。
3月27日,湖南长沙的朱先生与某公司设计师方女士之间,因装修设计图的纠纷引发了关注。朱先生委托方女士为其200平米的复式住宅进行装修设计,双方在2023年12月22日签署了合同,并约定在2024年1月28日前交付包括平面图、效果图和施工图在内的全套设计图,总费用为6万元。也有人对于合同约定的细节和执行情况提出了质疑,认为在签订合同时应该更加明确双方的权利和义务,以避免类似的纠纷发生。
3月16日,在2024年中国电动汽车百人会论坛上,国科础石总裁薛云志受邀发表《探索国产汽车操作系统发展之路》主题演讲,提出了突破国产汽车操作系统两大卡点,针对国产汽车操作系统发展提出了三大主张。汽车智能化、硬件集中化对车规级汽车操作系统提出了更高的要求。可以预期的是,新型产业链生态的成功打造,将带来新型零部件产业链的聚集,提高零部件厂商全方位服务能力,助力行业向软件定义转型升级,带动产业繁荣。
清华大学教授甘阳在受访时提出引人深思的观点:“现今的大学越来越类似于工厂院系则仿佛成为了生产车间。”他进一步指出,清华大学和北京大学的学生普遍展现出疲惫、焦虑和过早衰老的状态。在追求改革的同时,需要权衡各种因素,确保教育能够既满足学生的成长需求,又能够为社会选拔出优秀的人才。
对大模型进行量化、剪枝等压缩操作,是部署时最常见不过的一环了。这个极限究竟有多大?清华大学和哈工大的一项联合研究给出的答案是:90%。作者进一步分析了这种极低比特量化模型的能力和前景,并为未来的研究提供了指导。
近期提出的VisionLLaMA架构在视觉任务领域取得了突破性进展。该架构致力于解决视觉和语言模态之间的架构差异,通过引入类似于LLAMA的统一接口,将视觉任务推向了一个新的高度。VisionLLaMA架构的提出标志着视觉任务的新一轮技术革新,将为未来的研究和应用带来更多可能性和机遇。
MetaAI研究团队推出的MobileLLM标志着大语言模型朝着模拟人类理解和生成自然语言迈出了革命性的一步。LLMs在处理和分析大量数据集方面的能力已经显著影响了自动化客户服务、语言翻译和内容创作等多个领域。MobileLLM的发展代表了在移动设备应用中利用LLMs能力的重大进步,通过重新构思这些模型的架构和整合创新技术,研究团队取得了显著的性能提升,为LLMs的部署拓宽了视野。
清华大学和哈尔滨工业大学联合发布了一篇论文,成功将大模型压缩到1bit,仍保持83%的性能。这一成果标志着量化模型领域的一次重大突破。随着技术的不断进步,将有望实现将大型语言模型等大模型压缩到极低位宽,并实现在移动设备上高效运行的愿景。
在人工智能领域,多模式大语言模型在推动进步方面发挥了巨大作用,但它们面临处理误导性信息的挑战,可能导致不正确或产生幻觉的响应。这种脆弱性引发了对MLLM在需要准确解释文本和视觉数据的应用中可靠性的担忧。作为一个不断发展的领域,解决这些挑战对于在现实应用中部署MLLMs至关重要。
扩散模型中,UNet的longskipconnection上的scaling操作被证实能够稳定模型训练。在一些流行的扩散模型中,如Imagen和Score-basedgenerativemodel中,已经观察到设置scaling系数可以有效加速模型的训练过程。最近的一些后续工作也进一步验证了skipconnection上scaling的重要性,为这一领域的发展提供了新的思路和方向。
谷歌最新论文揭示的SpatialVLM,是一种具备空间推理能力的视觉语言模型,旨在解决当前视觉语言模型在空间推理方面的困难。视觉语言模型在图像描述、视觉问答等任务上取得显著进展,但在理解目标在三维空间中的位置或空间关系方面仍存在难题。这一研究为视觉语言模型的空间推理能力提供了新的思路,为未来在机器人、图像识别等领域的发展带来了新的可能性。
LLM智能体被众多业界AI大佬看好,甚至有望成为将人类从琐碎工作中解放出来的利器。它们该如何与世界进行最佳互动?最近,来自UIUC和苹果的华人研究员,提出了一种全新的智能体框架——CodeAct。在表5中,研究人员还发现CodeActAgent在测试的一般LLM任务中表现更好,除了CodeActAgent在MMLU上略有下降。
大型语言模型的成功离不开「基于人类反馈的强化学习」。RLHF可以大致可以分为两个阶段,首先,给定一对偏好和不偏好的行为,训练一个奖励模型,通过分类目标为前者分配更高的分数。该研究从多个维度将SPO与迭代奖励建模方法进行比较,旨在回答4个问题:当面intransitive偏好时,SPO能否计算MW?在具有独特CopelandWinners/最优策略的问题上,SPO能否匹配或超过RM样本效率?SPO对随机偏好的稳健性如何?SPO可以处理非马尔可夫偏好吗?在最大奖励偏好、噪声偏好、非马尔可夫偏好方面,该研究的实验结果分别如下图6、7、8所示:感兴趣的读者可以阅读论文原文,了解更多研究内容。
一提到提高大模型长文本能力,就想到长度外推或者上下文窗口扩展?不行,这些都太费硬件资源了。来看一个奇妙新解:和长度外推等方法使用KV缓存的本质不同,它用模型的参数来存储大量上下文信息。不过从邮箱信息来看,可能来自港城大、港中文等学校。
谷歌AI研究团队最近提出了SpatialVLM,这是一种旨在增强视觉语言模型空间推理能力的创新系统。尽管先进的模型如GPT-4V在人工智能驱动任务中取得了显著进展,但它们在空间推理方面仍存在显著局限。-SpatialVLM的开发标志着人工智能技术的重大进步。
在AAAI2024上,小红书搜索算法团队推出了一项创新框架,旨在解决大语言模型在推理任务中的黑盒属性和庞大参数量带来的问题。传统研究方法主要关注正样本这项工作强调了负样本在知识蒸馏中的价值。这一研究为提高大语言模型应用性能提供了新思路,通过引入负样本的知识,弥补了传统研究方法的不足,为推理任务的应用提供了更可靠和高效的解决方案。
英伟达高级科学家JimFan在最新的TEDAI2023演讲中提出了「基础智能体」的概念,指出AI的下一个前沿将是能在虚拟和现实世界中泛化的通用智能体模型。这将在现实、技能数量、身体形态等三个维度上进行扩展,并将从根本上改变人们的生活。这一技术实现和前景展望,为人工智能的发展指明了一条新的方向,值得期待。
MIT和Google的研究人员共同提出了一种名为Health-LLM的新型人工智能框架,旨在将大语言模型应用于健康预测任务,利用可穿戴传感器的数据。该框架的提出标志着健康领域在可穿戴技术和人工智能的交叉点上取得了重大突破。这为以更加可访问和可扩展的方式应用先进的医疗保健分析打开了新的可能性,从为个性化医疗的更广泛目标做出了贡献。
UCLA等机构的研究人员推出了具身智能大模型MultiPLY,该模型不仅具备多模态感知能力,包括触觉、视觉、听觉等,使得AI能够更全面地与3D环境进行交互。这标志着具备多感官能力的大模型成为未来AI发展的重要方向。这一研究的出现,为构建更全面、具备多感官能力的大模型提供了新思路。
AI技术在视频领域的应用一直备受关注,通过AI快速检测视频中的高光片段,可以实现观众直接空降到精彩时刻,主播也可以复盘自己的表现。针对视频领域增量学习的困境,字节跳动联合中科院自动化研究所标注了用于域增量学习的美食视频数据集LiveFood,并提出了基于原型学习的解决方案。该方法取得了良好的高光检测性能,并对视频领域增量学习问题有重要意义,为AI技术