11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
腾讯昨天发布了一个名为ELLA的项目,这是一个高效的大语言模型适配器,能够无需训练就增强现有SD模型提示词理解的能力。ELLA将强大的大语言模型整合到文本到图像的扩散模型中,从显著提升模型处理文本对齐的能力不需要额外对U-Net或大语言模型进行训练。这个项目的发布为文本到图像模型的发展带来了新的可能性,也为未来的研究和应用提供了新的思路。
这是GPT-4发布之后,第一次在纸面上被完全碾压。OpenAI最强竞争选手Anthropic发布了旗下最新大模型家族Claude3。还有人在线点名Altman,可以发布GPT-5了。
近期来自纽约大学和UC伯克利的研究团队在多模态大语言模型领域取得了重要突破,成功捕捉到了其在视觉理解方面存在的重大缺陷。研究人员发现,当前的MLLM在特定场景下,甚至在一些人类容易识别的图像问题上,表现不如随机猜测。这不仅对AI领域的研究有着积极的推动作用,也为未来开发更强大、全面的多模态大模型奠定了基础。
【新智元导读】大模型能否理解自己所说,Hinton和LeCun再次吵起来了。LeCun新论文证明,GPT-4回答问题准确率仅为15%,自回归模型不及人类。GPT-4无法处理文件和多模态问题,但能够解决注释者使用网络浏览解决的问题,主要是因为它正确地记住了需要结合起来才能得到答案的信息片段。
GitHub上一个名为LongQLoRA的新工具引发关注。它的作用是让LLMs能够理解更长的序列。这对于开发者和研究人员来说是一个好消息,他们可以利用这个工具来提升他们的LLMs模型的性能,进在自然语言处理领域取得更好的成绩。
据报道,成都龙泉驿区有人放生了约七八箱上百只虎皮鹦鹉。爆料称这些鹦鹉没有野外生存能力,志愿者前往现场救援时已有不少鹦鹉死亡。公众应当树立正确的观念,不可随意放生,否则有可能会对放生地点周围的环境造成破坏。
研究人员日前发布了一项名为"FAVOR"的创新技术,它能够在帧级别巧妙地融合音频和视觉细节,从增强大型语言模型对视频内容的理解能力。这一引入FAVOR方法的举措,为拓展大型语言模型在视频理解领域的潜力开辟了新的机遇。这些示例可以作为起点,帮助用户开始构建他们自己的多模态交互。
麻省理工学院与香港中文大学联手开发了一项名为LongLoRA的新微调方法,为大型预训练语言模型的发展提供了全新的途径。这一方法被设计用来增强LLM对上下文的理解能力无需过多的计算资源,为经济型超大LLM的构建铺平了道路。LongLoRA方法的推出为经济型超大LLM的发展提供了新的路径,通过优化上下文理解能力,降低了训练成本,有望推动自然语言处理领域的进一步发展。
OpenAI宣布推出DALL・E3图像生成模型,它的前身是DALL・E2。相比于之前的版本,DALL・E3在理解细微差别和细节方面有了显著提升,能够更准确地将想法转化为图像。OpenAI表示,DALL·E3目前处于研究预览阶段,将于10月份通过API向ChatGPTPlus和企业客户提供,并于今年秋天晚些时候在实验室中提供。
阿里云旗下魔搭社区宣布开源视觉语言模型Qwen-VL。Qwen-VL以通义千问70亿参数模型Qwen-7B为基座语言模型研发,支持图文输入,具备多模态信息理解能力。该模型的推理速度快,资源消耗相对较低。
宋徽宗赵佶曾创作过一幅名为《蜡梅山禽图轴》的画作,并为该画题了一首诗:“山禽矜逸态,梅粉弄轻柔,已有丹青约,千秋指白头。”讲述的是一对白头翁立于这丹青笔墨的虚空中,没有风,没有阴影,没有俗世喧嚣、红尘侵染,一千年恩爱如初,一千年只不过黯淡些羽毛上的墨色,艺术比生命更长久。曾参与国产芯片基础数学库优化、国产万亿高性能集群、“十四五”数�
如果你只需要训练一个线性层,就能拿将纯视觉模型转变为具备语言理解能力的视觉语言模型,结果会怎样?有研究人员想到了这个办法。研究人员通过使用没有文本监督训练的现成视觉编码器来将文本映射到概念向量,以便直接比较单词和图像的表示。他们的简单方法在92%的测试中都取得了成功。
Stability+AI及其多模态+AI+研究实验室+DeepFloyd+宣布发布+DeepFloyd+IF+研究版,这是一种尖端的文本到图像级联像素扩散模型,并且可以智能地将文本集成到图像中+该模型最初仅限于非商业、研究许可使用场景,但计划在未来发布开源版本。DeepFloyd+IF+拥有几个显着的特点,包括:深度文本指提示词理解能力:该模型使用T5-XXL-1.1作为文本编码器,具有多个文本-图像交叉注意力层,确保提示和图像之间更好的对齐。DeepFloyd+s+hugs+Face空间网址:+https://huggingface.co/DeepFloyd。
备受瞩目的百度大语言模型产品文心一言今日正式发布,百度创始人、董事长兼首席执行官李彦宏、百度首席技术官王海峰出席。李彦宏表示文心一言除了能够应用于文学创作、商业文案创作、数理推算、中文理解、多模态生成五个使用场景外可以处理英文。虽然文心一言目前还没有中文这么好,部分原因是因为在训练数据样本还不够大,但他依然强调,未来一定要加强信息�
据小爱同学”官微发文,小爱同学搜歌能力升级,可精准理解复杂语音指令,基于使用场景,进行个性化智能推歌。比如:我心情不好放首歌;又堵车了,放首音乐听;放点看书时工作时听的音乐。特别是在汽车领域,小爱同学化身为旅行中的得力助手,不仅提供智能导航与音乐推荐增设了汽车问答、车外唤醒防御等创新功能,让驾驶之旅更加安全便捷,充满乐趣。
5月30日,2024百度移动生态万象大会在苏州召开。百度文库发布全新产品“橙篇”,是行业首个集“专业知识检索和问答、超长图文理解和生成、深度编辑和整理、跨模态自由创作”于一身的综合性AINative产品,将一站式满足用户在科研、学术等领域的查阅、创作、编辑等全链路需求。“橙篇”将率先上线PC网页端和PC客户端,未来还将上线智能PPT、AI思维导图、AI漫画、AI有声画本等行业领先的AI功能,提供更自由、便捷和沉浸式的一站式服务。
2024年1月18日凌晨,三星在举办了GalaxyAI全球新品发布会,宣告GalaxyS24系列的登场,应用了谷歌Gemininano大模型共同迎接“GalaxyAI时代”的到来。除了这个模型,GalaxyS24的一些功能还受益于谷歌Imagen2模型,将文本到图像的能力植入手机。S24、S24的起售价为115.5万韩元、135.3万韩元Ultra版则以169.84万韩元起售。
LEGO是一个由字节跳动和复旦大学联合研发的多模态理解和图像定位模型。这一模型具有处理和理解多种类型的输入的能力,包括图像、音频和视频。LEGO模型的研发和应用将为多模态理解和图像定位领域带来重大的突破,为相关领域的发展提供新的思路和解决方案。
生成式AI模型如GPT-4和Midjourney引发了全球关注,它们展现了惊人的生成能力,能够以令人信服的质量输出文本和视觉内容。人们也开始关注这些模型是否能够理解它们所生成的内容。它为AI研究提供了一个新的视角,鼓励将模型作为人类智能的有趣对立面来研究不是简单地将其视为平行的对立面。
百度创始人、董事长兼首席执行官李彦宏还在世界大会上展示了经过AI重构的新如流、百度文库、百度网盘等产品。智能办公平台新如流具备群聊消息“1000条消息,一秒划重点”、一键差旅、资料生成等功能,成为办公人士的超级助理,让“智能工作”代替“勤奋工作”。百度网盘智能助理上线“云一朵”,语音搜索即可获取相关所需视频分类、智能提取视频语音转文字。
长虹电视旗下大模型“长虹超脑”正式发布,具备感知、理解、创造三大核心能力。长虹推出了全球首台人工智能电视、发布了全球首款多模态交互电视、实现了全球首个电视交互的免唤醒能力。6月15日,搭载长虹超脑的部分电视,已经面向全球用户进行公测,感兴趣的朋友不妨去长虹电视终端进行体验。
衍生品已经进入新的上升周期。和2017年前后由VC和创业者推动的创业潮不同,新的阶段,IP衍生品在商业化能力上交出了更优秀的答卷。一个代表性的例子是2019年上映的《流浪地球》和2023年上映的《流浪地球2》之间的对比,同样在淘宝的「造点新货」众筹工具发起众筹,前者的IP衍生品众筹项目最终定格在700万左右,而《流浪地球2》的众筹超过了1.2亿,发起方赛凡科幻空间甚
凤凰网科技讯 4月2日,中国电动汽车百人会论坛在北京钓鱼台国宾馆举办,工业和信息化部原部长李毅中、财政部原部长楼继伟、中国科学院院士欧阳明高等嘉宾,参与了本次会议。小桔能源总经理解晶晶发布《双碳战略驱动充电设施数智化转型》主旨演讲。她指出,未来将按照国家政策指引,发挥小桔能源自身技术和线下充电网络的核心优势,构建“数智化能源管控平台”,让开放合作,绿色消费,成为能源产品创新投入的主要驱动力,助力行业低碳转型。小桔能源是数智化能源服务商,目前,已覆盖全国100余座核心城市,链接近90000余台快充桩,累计合?
近日,在斯坦福大学、华盛顿大学、Allen AI 和 UMass 联合发起的机器阅读理解(QuAC[1] (Choi et al., 2018))比赛上,京东 AI 研究院语音语言实验室提出的 EL-QA 模型(Single Model)登顶 QuAC Leaderboard,全部三项指标均获得第一名。其中,在 F1-Measure(又称为 F1-Score) 指标上达到 74.6,大幅拉近了机器与人类在该任务上的水平差距。这也意味着以零售、物流、金融、客服等优质场景为依托的京东 AI 研究院,在机器阅读理解能力