11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
ArchetypeAI推出的Newton是一个革命性的人工智能平台,专为理解和推理物理世界设计。与传统的文本和图像分析AI模型不同,Newton结合了实时传感器数据和自然语言处理技术,使用户能够对周围环境提出开放式问题,并据此做出明智的决策。Newton支持与各种传感器结合使用,支持实时或预录数据流。
MetaAI近日推出了一种名为MA-LMM的新型模型,旨在解决长期视频理解中的挑战。LLMs在处理文本数据时表现出了令人印象深刻的能力,但在处理视频输入方面存在一些限制,例如上下文长度限制和GPU内存限制。其创新性的设计以及利用长期记忆库和顺序处理的方法使得该模型能够在各种复杂场景下取得显著成果,证明了其在多模态视频理解应用中的有效性和多功能性。
4月10日凌晨,谷歌在官网正式发布了Gemini1.5Pro,现在可在180多个国家/地区使用。除了能生成创意文本、代码之外,Gemini1.5Pro最大的特色是能根据用户输入的文本提示,理解、总结上传的视频、音频内容进行深度总结,并且支持100万tokens上下文。Gemini1.5Pro已经全面开放使用了,有兴趣的小伙伴赶紧去试试吧。
苹果公司近日发布了一款名为MLLLLMFerret-UI的新型机器学习语言模型,旨在提升对移动应用用户界面的理解。这款模型经过特别优化,能够处理移动UI屏幕上的各种任务,并具备指向、定位和推理等能力。Ferret-UI还能够通过功能推断来解释屏幕的整体目的,显示出在理解和生成自然语言指令方面的高级能力。
Ferret-UI是一个新的MLLLM,专门为提高对移动UI屏幕的理解设计。具备引用、定位和推理能力,处理UI屏幕上的任务。点击前往Ferret-UI官网体验入口需求人群:适用于移动UI屏幕的理解和操作,提高对UI元素的识别精度。
MiniGPT4-Video是什么?MiniGPT4-Video是为视频理解设计的多模态大模型,能处理时态视觉数据和文本数据,配标题、宣传语,适用于视频问答。用户可以上传视频,让模型生成标题与宣传语,理解特效处理,或作超美抒情诗。
【新智元导读】秒懂视频的AI诞生了!KAUST和哈佛大学研究团队提出MiniGPT4-Video框架,不仅能理解复杂视频,甚至还能作诗配文。OpenAI官方账号发布了第一支由Sora制作的MV——Worldweight,引全网围观。下一步研究将模型能力扩展到处理更长视频的能力。
【新智元导读】一家来自纽约的初创公司HumeAI发布了一款标榜为「第一个具有情商的对话式人工智能」的共情语音接口,并表示其能够从用户那里检测到53种不同的情绪。AI的下一个重大突破是理解情感吗?HumeAI表示是的。但这不过泛泛谈,当AI真的有了情感之后,如何用伦理、用法律去约束,人类还有很长的路要去探索。
来自加州大学伯克利分校的研究人员最近发布并开源了首个世界模型,被称为LWM系列模型。这一模型采用了大量视频和书籍数据集,通过RingAttention技术实现了长序列的可扩展训练,使得模型的上下文长度达到了1Mtoken。其优秀的性能表现和开源特性吸引了众多开发者的关注和参与,为人工智能领域的进步和创新带来了新的契机。
【新智元导读】苹果公司发布了一款参数量仅为80M的最新模型——ReALM,能够将各种形式的上下文转换为文本进行理解,包括解析屏幕、多轮对话以及上下文引用,提升了Siri等智能助手的反应速度和智能程度。会读心的Siri想不想要?今天,苹果发布了自家的最新模型ReALM,仅需80M参数,就能在上下文理解能力上打平甚至超越GPT-4!论文地址:https://arxiv.org/pdf/2403.20329.pdfReALM可以将任何形式的上下文转换为文本来进行理解,比如解析屏幕、多轮对话、以及上下文中的引用。随着模型大小的增加,所有数据集的性能都有所提高屏幕相关数据集的差异最为明显,因为这项任务在本质上更加复杂。
在江苏盐城,一位时尚的90后年轻父亲因其独特的穿着风格,在接女儿放学时意外地成为了众人瞩目的焦点。他的潮流装扮不仅吸引了路人的关注,更让自家的小公主产生了出人意料的反应。他未曾想到,这样的举动竟然会引发女儿的“抗议”。
AI时代到来,我们需要积极拥抱AI工具ChatGPT引爆了一个全新的AI时代,在诸多领域展示出惊人的生产力。由于模型训练没法及时更新以及在一些专业领域语义理解宽泛,经常遇到AI睁着眼睛「胡说八道」,同时在处理长文本方面,Chat们受限于token数,表现得「无能为力」。@老Y:一个比较好的免费AI文档阅读助手,通过它可以快速整理总结PDF文档信息。
谷歌在ICLR2024上推出了一项重大成果:他们成功让大型语言模型学会理解「图的语言」,性能提升了高达60%。这项研究解决了LLMs在处理图形问题上的瓶颈,开启了图形数据与文本表示之间的新篇章。通过合理地将图形数据转换为文本表示,并结合适当的编码方式和任务类型,谷歌团队成功提升了LLMs在图形任务上的性能,为未来更深入的研究和应用打下了基础。
腾讯昨天发布了一个名为ELLA的项目,这是一个高效的大语言模型适配器,能够无需训练就增强现有SD模型提示词理解的能力。ELLA将强大的大语言模型整合到文本到图像的扩散模型中,从显著提升模型处理文本对齐的能力不需要额外对U-Net或大语言模型进行训练。这个项目的发布为文本到图像模型的发展带来了新的可能性,也为未来的研究和应用提供了新的思路。
凭借独特的“魏氏眼光”,魏建军每每总能找寻到市场的蓝海,几乎踩准了每一个节点,一步步带领长城汽车从普通的乡镇企业发展成为中国汽车细分市场中,皮卡及SUV领域的领导者。魏建军曾表示,有些企业靠资本,而长城的逻辑则是靠制造、靠技术、靠扎实的产品。诚然,这种路线会走得慢一些,但是长城用实际行动和大笔投入,证明自己始终在技术研发的路上奋力前行�
LaVague是一个旨在自动化浏览器交互的大型动作模型框架,通过将自然语言指令转化为无缝的浏览器交互,重新定义了互联网浏览体验。该框架的设计初衷是为用户自动化繁琐的任务,节省时间,让用户能够专注于更有意义的事务。未来的发展方向可能包括优化本地模型、改进信息检索以确保生成的代码片段相关性、支持其他浏览器引擎等。
Hume.AI是一家专注于开发能够理解人类情感和表情的技术的公司。他们提供表情测量API和自定义模型API,以帮助预测和改善人类福祉。想要了解更多信息和体验Hume.AI的产品,请访问Hume.AI官方网站。
【新智元导读】谷歌在语言和声控计算机界面的漫长道路上又迈出了重要一步。最新ScreenAI视觉语言模型,能够完成各种屏幕QA问答、总结摘要等任务。谷歌研究人员表示,ScreenAI模型还需要在一些任务上进行更多研究,以缩小与GPT-4和Gemini等更大模型的差距。
这是GPT-4发布之后,第一次在纸面上被完全碾压。OpenAI最强竞争选手Anthropic发布了旗下最新大模型家族Claude3。还有人在线点名Altman,可以发布GPT-5了。
谷歌研究最新发布的ScreenAI标志着语言和语音控制计算机界面的又一重要进展。这一AI模型不仅能理解用户界面和信息图表在回答基于信息图表的问题、总结内容以及导航用户界面等多项任务上,创下了新的性能标杆。为鼓励更多的发展,谷歌研究计划发布ScreenAI的评估数据集,其中ScreenQA已经提供了包含36,000张截图的86,000个问答对;更复杂的变体和包含截图及其文本描述的集合将会推出。
【新智元导读】就在刚刚,GPT-4被从大模型铁王座上扯下来了!OpenAI最强竞对Anthropic发布的Claude3系列模型,已经实现了对GPT-4的全面超越。网友表示:GPT-4时代已经终结,OpenAI可以请出Q*了。
一边是越卖越贵,一边是宁可扔掉也不打折。有关面包价格和浪费的话题,多次登上热搜。对于卖不出去的面包该如何处理,你有什么好建议呢?
看到一个表述——看待AI的发展,不能只站在技术变革和商业创新的层面来理解它。应该更多站在“社会变革”的层面来理解它。能理解到这一层,你要去思考应对AI带来的各种挑战,也许才会更坦然。
VideoPrism是一个通用的视频编码模型,可在各种视频理解任务上取得领先的性能,包括分类、定位、检索、字幕生成和问答等。其创新点在于预训练的数据集非常大且多样,包含3600万高质量的视频-文本对,以及5.82亿带有嘈杂文本的视频剪辑。要获取更多详细信息并开始使用VideoPrism,请访问VideoPrism官方网站。
作为一个淮安人,掼蛋的火爆让我在诧异中又带有一些惊喜。掼蛋起源于江苏淮安,是一个几乎人人都会玩的纸牌游戏。此时此刻的他们或许不会想到,中国的某一个地方,身价400亿的富豪或许在跟他们玩着一样的游戏。
当全球还沉迷在如何用文本生成文本,以及文本生成图片的时候,OpenAI就这么掏出来了一个视频生成模型Sora。有关Sora的具体介绍和效果展示可以看我们昨天的文章《OpenAISora问世,通往AGI的又一个ChatGPT时刻!GPT4可能也要被干掉了》。OpenAI显然在把Sora描述成它一直坚持的Scalinglaw的又一次胜利——没有多么纯粹原创的技术,很多技术成分早已存在,但它却比所有人都更笃定的走了
深度学习领域泰斗LeCun在WGS峰会上怒斥Sora模型不能真正理解物理世界,引起广泛关注。仅根据文字提示生成逼真的视频,并不代表模型理解了物理世界,与基于世界模型的因果预测有本质区别。V-JEPA的发布不仅是对Sora的回击,更展示了Meta公司在AI领域的先进技术,为实现具身AI技术和未来增强现实眼镜提供了有力支持。
【新智元导读】短短几天,「世界模型」雏形相继诞生,AGI真的离我们不远了?Sora之后,LeCun首发AI视频预测架构V-JEPA,能够以人类的理解方式看世界。Sora一经面世,瞬间成为顶流,话题热度只增不减。它仍然是插值潜在空间的嵌入,到目前为止你还不能以这种方式构建「世界模型」。
气温突然回暖,东北地区迎来开化,天然冰窖失效。辽宁一女子因家中急需处理阳台上开化的冻货,被迫一天之内干掉了4斤大虾,引发网友热议。前天拿放在阴面阳台小冻柿子还是硬的,昨天再拿就化了,春卷,南瓜饼全软了,努力打扫中。
大语言模型是否是世界模型?大语言模型除了在数字世界完成如写作或翻译等任务,它们能否理解并处理物理世界中的信息并进完成更广泛的任务呢?最近来自香港科技大学、南洋理工大学与加利福尼亚大学洛杉矶分校的研究者们提供了新的思路:他们发现大语言模型如ChatGPT可以理解传感器信号进完成物理世界中的任务。该项目初步成果发表于ACMHotMobile2024。如想进一步了解渗透式