11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
LLaVA-1.6是一项新的技术成果,通过提升推理、OCR能力以及支持更多场景和广泛用户,为用户带来更好的体验。LLaVA-1.6不仅在多项基准测试中超越了GeminiPro,并且优于Qwen-VL-Plus,展现出了强大的性能。这将对多模态技术的发展产生积极的推动作用,为用户带来更广泛的应用场景和更好的体验。
MoE-LLaVA是一种新型稀疏LVLM架构,通过使用路由算法仅激活top-k专家,解决了通常与多模态学习和模型稀疏性相关的性能下降问题。研究者联合提出了一种新颖的LVLM训练策略,名为MoE-Tuning,以解决大型视觉语言模型的扩大参数规模会增加训练和推理成本的问题。MoE-LLaVA能够帮助我们更好地理解稀疏模型在多模态学习上的行为,为未来研究和开发提供了有价值的见解。
微软开源了多模态模型LLaVA-1.5,继承LLaVA架构并引入新特性。研究人员对其在视觉问答、自然语言处理、图像生成等进行了测试显示,LLaVA-1.5达到了开源模型中的最高水平,可媲美GPT-4V效果。LLaVA-1.5在多模态领域取得显著进展,通过开源促进了其在视觉问答、自然语言处理、图像生成等方面的广泛应用。
GPT-4V的开源替代方案在中国的顶尖学府清华、浙大等的推动下,出现了一系列性能优异的开源视觉模型。LLaVA、CogAgent和BakLLaVA是三种备受关注的开源视觉语言模型。虽然BakLLaVA在训练过程中使用了LLaVA的语料库,不允许商用,但BakLLaVA2则采用了更大的数据集和更新的架构,超越了当前的LLaVA方法,具备商用能力。
最近,来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA,使得LLM能够同时接收图片和视频为输入。Video-LlaVA在下游任务中取得了卓越的性能,并在图片、视频的13个基准上达到先进的性能。这些结果证明了联合图片和视频一起训练能够促进LLM理解视觉表示。
OpenAI数百名员工集体威胁辞职,指责董事会解职Altman处理不当,要求董事会辞职,或将跟随Altman加入微软。Runway正式发布运动画笔和Gen-2风格预设Runway近日发布了一系列新功能和更新,其中包括运动画笔、Gen-2风格预设、更新的相机控制以及图像模型的改进。模型在13个基准测试上表现出色,无需配对数据训练,且通过预先对齐视觉输入,提高了对视频问答任务的性能。
【新智元导读】GPT-4V风头正盛,LLaVA-1.5就来踢馆了!它不仅在11个基准测试上都实现了SOTA13B模型的训练,只用8个A100就可以在1天内完成。9月底,OpenAI宣布ChatGPT多模态能力解禁。他的研究方向是可控的多模态图像生成与处理,以及其他与创意视觉相关的问题。
LLaVA-1.5是来自威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究人员近期开源的一款全新的端到端多模态大模型,可与OpenAI的GPT-4V形成正面竞争。LLaVA-1.5在11项基准测试中都实现了新的状态最优成绩,包括视觉问答、图像caption等任务,展现出了强大的多模态理解能力。LLaVA-1.5以其出色的多模态理解能力,向业内掀起了一股“硬刚GPT-4”的新风潮。
英伟达最新推出的大型语言模型Nemotron-415B,以其卓越性能和创新架构引起广泛关注。该模型拥有150亿参数,基于庞大的8万亿文本标注数据进行了预训练。这一成就为大型语言模型的发展和应用提供了崭新的视角。
零跑汽车港股股价上涨11.41%。今日早些时候,零跑汽车官方宣布,Stellantis集团和零跑汽车创建了双方的全球战略伙伴关系。Stellantis集团的本次投资15亿欧元使其获得了零跑汽车约20%的股权,成为了零跑汽车的重要股东,并在零跑汽车董事会获得2个席位。
训练大模型,几千块就能实现了!现在,15小时、几千块钱、85亿token数据,即可训出中文LLaMA2。综合性能达到开源社区同规模从头预训练SOTA模型水平。更多应用场景、不同领域、不同版本的模型、企业私有化平台部署等正不断迭代。
据外媒报道,Xsolla是一家为游戏行业提供支付处理选项的公司,该公司解雇了约1/3的员工,因为该公司使用的一种算法判定这150人是“不敬业且效率低下的员工”。如此大规模的裁员本身就是件令人不安的事情,但在这件事上,Xsolla也因其围绕大规模裁员发出的冷冰冰的信息以及使用AI来确定一个人是否有足够的生产力来继续就业的做法而受到抨击。就在上周裁员的消息传出后不久,Xsolla CEO Aleksandr Agapitov发给被解雇员工的一封内部?
Mozilla 在两年前发起了致力于改变语音识别领域的 Common Voice 项目,允许志愿者为公共领域的语音识别软件数据库做出贡献,并且分享给所有人使用。今天,这家非盈利组织宣布了最新的进展。首先,作为让人工智能变得更加值得信赖的计划的一部分,该项目现已被移至 Mozilla 基金会领导下。其次,Common Voice 刚刚获得了英伟达提供的 150 万美元资金。(来自:Mozilla Blog)Mozilla 指出,当前许多训练算法的语音数据被少数几家大?
2021 年 3 月 1 日,阿联酋迪拜——Yalla Group Limited(以下简称“ Yalla”或“公司”)(NYSE:YALA),中东和北非地区领先的语音社交与娱乐平台,今日宣布将于 2021 年 3 月 15 日周一美国股市开市前公布其 2020 年第四季度和全年的未经审计的财务业绩。财报发布后,公司将于 2021 年 3 月 15 日周一上午8:00(即北京时间当日晚21:00)举行电话会议,讨论其财务业绩。您可通过拨打电话号码进入会议,或通过公司的投资者关系网?
视频分析市场或者说“智能视频”市场比你想象得更大。由于企业对物联网云报告、事件检测、流量监控和其他此类用例的兴趣日益增长,预计到2023年它将从27.7亿美元增长到85.5亿美元。既然前景如此光明
人民币不是橘子皮,除了某些特别强悍的有钱淫,站长们的钱包都是不够鼓的,所以性价比是灰常重要滴,今天,uper给大家介绍一款灰常灰常性价比的VPS。
网易科技讯8月19日消息,据VentureBeat报道,智能手机随需应变维修服务平台CellSavers今天宣布,A轮融资获得了1500万美元投资,由以色列风险投资公司Carmel Ventures领投,硅谷著名风投机构红杉资本参投。据了解,CellSavers的A轮融资所获资金将被进一步用于加速其端对端技术平台的增长。这个平台拥有专门的算法,可以将需要修复智能手机和其他移动设备的消费者与技术熟练、响应迅速的技术人员匹配起来。CellSavers成立于2015年中