11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
LaVague是一个旨在自动化浏览器交互的大型动作模型框架,通过将自然语言指令转化为无缝的浏览器交互,重新定义了互联网浏览体验。该框架的设计初衷是为用户自动化繁琐的任务,节省时间,让用户能够专注于更有意义的事务。未来的发展方向可能包括优化本地模型、改进信息检索以确保生成的代码片段相关性、支持其他浏览器引擎等。
Midjourney推出了一种新工具——角色一致性功能,帮助用户复制他们喜欢的风格。这是MidjourneyV6的新功能。将推出官方的V6beta版。
普渡大学最新发布了Talk2Drive框架,利用大型语言模型为自动驾驶汽车提供智能指令解析能力。这一框架的核心在于通过接收命令、处理与推理,生成可执行代码,结合云端实时环境数据来实现人车交互的全新方式。Talk2Drive框架的推出将为自动驾驶汽车提供更加安全、舒适和个性化的驾驶体验,预示着以人为本、智能化的未来交通时代的到来。
Gemma-2B-IT是谷歌推出的2B参数指令调整模型,基于Gemini架构,专为提高数学、推理和代码处理能力设计。该模型在普通笔记本上即可运行,无需庞大的AI算力,适用于多种应用场景。赶快体验这款强大的AI写作指令调整工具吧!
微软让升级Windows11的硬件条件越来越苛刻了,所以你升级还是不升级呢?微软正在把带有POPCNT指令的CPU作为Windows1124H2的一项要求。不过在Steam调查的参与者中,新操作系统的表现要好一些,几乎一半的被访者都在使用Windows11。
苹果开源了一种新的技术,名为多模态大语言模型引导的编辑,这项技术能够帮助用户通过自然语言指令来修改图片,使得编辑图片更加简单和自然。MGIE采用多模态大型语言模型进行图像编辑指令的生成,通过端到端训练,模型不仅捕捉视觉想象力执行图像处理操作。在实现更加直观和自由的图像编辑过程中,这一方法有望为未来的计算机视觉和图像处理研究提供新的思路。
图像恢复是一个基本问题,涉及从模糊的照片中恢复高质量的干净图像。多合一图像恢复模型可以使用特定于退化的信息作为指导恢复模型的提示,有效地从各种类型和级别的退化中恢复图像。你还可以尝试常规图像增强提示,看看它如何改善颜色。
用图2的风格画图1的猫猫并给它戴上一顶帽子。谷歌新设计的一种图像生成模型已经能做到这一点了!通过引入指令微调技术,多模态大模型可以根据文本指令描述的目标和多张参考图像准确生成新图像,效果堪比PS大神抓着你的手助你P图。请参阅原始论文以获取更多详细信息。
MotionGPT是一款令人惊叹的技术创新,它统一了语言和运动,将语言指令转换为引人入胜的3D人体运动。这一模型的设计灵感源于即时学习,通过混合运动语言数据进行预训练,并通过基于提示的问答任务进行微调,使其具备卓越的性能。MotionGPT不仅是一种技术的突破,更是对人机交互的重大推动,将语言与运动巧妙地融合,开创了全新的应用前景。
Alter3是由日本东京大学开发的一种仿人机器人。研究人员通过将Alter3与GPT-4相连接,成功实现了让机器人模仿人类行为的目标。他们认为这项研究为探索人工智能与仿人机器人的交互提供了新的途径,也为机器人在日常生活中的运用带来了更多可能性。
刚刚过去的一年,网易有道词典公布了2023年度词汇:Prompt。Prompt的查词量在有道词典中增长了惊人的1872%。随着科技的发展,每个人都具备造Prompt能力,将人类的思考和需求注入给AI。
在这项最新的研究中,来自南洋理工大学的研究团队介绍了一项名为InsActor的创新性生成框架。该框架旨在通过使用先进的扩散式人体运动模型,以指令驱动的方式生成基于物理的角色动画。文章表示InsActor的能力使其成为未来指令驱动的基于物理的动画发展的重要基准。
近期的研究表明,通过在高质量指令数据集上进行微调,生成的模型可以在广泛的任务上展现出色的能力。现有的指令数据生成方法通常会产生重复数据,并且在数据质量上不够可控。未来的工作可能会探索不同任务和更大数据集之间的相互作用,以进一步增强单任务性能和泛化能力。
研究人员合作开发的CoDi-2多模态大语言模型标志着在处理复杂多模态指令生成和理解方面的重大突破。该模型集成了加州大学伯克利、MicrosoftAzureAI、Zoom和UNC-ChapelHill的研究力量,致力于解决主题驱动的图像生成、视觉转换和音频编辑等领域的难题。未来的研究还可能涉及评估和比较CoDi-2与其他模型,以了解其优势和局限性。
GoogleBard推出了强大的扩展功能,使其能够访问YouTube、搜索航班和酒店,以及用户的个人文档和电子邮件。这也为潜在的安全漏洞敞开了大门。但漏洞的具体修复方式尚不明确。
北大的研究团队近期推出了一项具身导航系统,可使机器人无需额外训练或建图,仅通过口头指令在室内环境中自如移动。这一系统包括指令分析、视觉感知、完成估计和决策测试等多个关键任务,需要不同领域的知识,这些任务由一个大模型专家团队协同完成。北大的DiscussNav系统代表了具身导航领域的一项重要突破,使机器人能够根据口头指令自如导航,同时具备零样本能力,这对未来的智能机器人和自动化应用具有重要意义。
Intel即将推出的MeteorLake是全新第一代酷睿Ultra明年的ArrowLake将会是第二代酷睿Ultra,届时将不上缺失的桌面版,接口更改为LGA1851。但是根据Intel最新公布的技术文档,ArrowLake的桌面版、移动版在指令集上居然不一样,后者精简了一部分,主要包括:AVX-VNNI-INT16、SHA512、SM3、SM4。可能是故意做产品区分?
研究人员最近在大型语言模型的指令调整方面取得了令人瞩目的进展。这一发现对于提高通用语言模型的性能和多模态指令响应能力具有重要意义。ImageBind-LLM展示了四个关键特点:这项研究的成果为大型语言模型的多模态指令响应能力提供了新的方法和思路,具有重要的实际应用潜力。
谷歌DeepMind的研究人员开发了一个大型语言模型SayTap,可将人类各种指令转换为四足机器狗可以理解的格式。这个模型让机器狗不仅可以理解基本的前进、后退等指令可以理解一些情况性的复杂概念,比如抓住松鼠或快速跑等。尽管该技术还处在早期阶段,但未来可能让人类通过自然语言指令来控制机器人。
微软公司似乎计划推出一款充满传感器、人工智能驱动的背包专利,这款背包可以检测你的声音发布的指令。该专利上周获得美国专利局的批准,首先被MSPowerUser博客发现,不过该背包的一些规格非常奇怪,其中包括该可穿戴设备可能能够检测用户语音并提供建议,类似Siri可以出于某种原因记录和存储用户声音。现在或许是推出智能背包的时候了,不过像往常一样的是,大多数专利无法落地。
CMU与清华的研究者联合发布了Prompt2Model框架,它可以根据用户提供的prompt,快速训练一个小型专业模型。仅需投入5美元用于数据收集和20分钟的训练时间,就能获得性能优于ChatGPT平均水平20%的小型模型,同时模型参数规模减小了700倍。未来的工作将继续致力于进一步优化框架的性能。
OpenAI宣布,正式在欧盟和英国推出自定义指令功能。8月10日,OpenAI宣布,除了欧盟和英国之外,ChatGPT用户已可以通过免费计划使用自定义指令。因此不必在每次对话中重复您的偏好或信息。
前不久的小米年度演讲中,雷军介绍了小米在AI技术上的努力,并宣布小爱同学率先升级支持大模型,并已经开放测试。根据官方演示,新的小爱同学将支持智能问答功能,并能够根据用户的文字要求创作文案、甚至图片内容。针对Promt指令,小爱同学大模型支持海量指令,可以写发言稿、起标题、故事创作及解释复杂概念等等。
Inst-Inpaint是一个创新的图像修复框架,可以根据给定的文本指令从图像中移除对象。传统的图像修复方法通常需要使用二值掩膜来定义要移除的像素点,但这种方法需要用户手动创建掩膜,耗时且容易出错。-实用的数据集和预训练模型:Inst-Inpaint提供了GQA-Inpaint数据集和预训练模型,可以用于训练和评估模型的性能。
Meta的研究人员开发了一种名为"指令回译"的新技术,用于提高大语言模型的指令跟踪能力。该技术可对LLaMa等大型语言模型进行微调以遵循指令无需依赖昂贵的人工注释或从GPT-4等更强大的模型进行提炼。研究人员表示,他们计划通过考虑更大的未标记语料库来进一步扩展这一方法,从获得更好的效果。
欢迎来到站长之家的[每周AI大事件],这里记录了过去一周值得关注的AI领域热点内容,帮助大家更好地了解人工智能领域的动态和发展风向。Part1动态[国内要闻]百度网盘正式推出智能助理“云一朵”百度网盘推出了基于大模型的智能助理“云一朵”,该助理可以帮助用户快速搜索文件和视频、总结知识、翻译文档等。千帆大模型平台的目标是降低大模型的使用门槛,让更多专�
OpenAI宣布,目前ChatGPT用户已可以在欧盟和英国之外,通过免费计划使用自定义指令。7月21日,OpenAI宣布了一项新功能:自定义指令。开发人员更喜欢使用非Python语言的高效代码等。
加州大学伯克利分校研究人员推出了一种名为Dynalang的智能体,这是一种通过在线体验获取世界语言和视觉模型的智能体,并利用该模型来理解如何行为。由于世界建模与动作不同,Dynalang可以在单一模式上进行预训练无需活动或任务奖励。Dynalang还可以在视觉语言导航中接收复杂的指令,并展示了超越其他算法和任务特定架构的能力。
香港大学宣布,新学期开始,师生可免费使用OpenAI和Dalle-E等人工智能工具,但每月只能向AI发出最多20个指令。港大副校长赵宝贻表示,这样做既能培养学生提出明智的问题的能力,也能有效防止外人借用学生的账号滥用工具。虽然现在仍然不能阻止学生使用校外的工具,但能保证每个同学都有机会使用AI,“至少在同一条起跑线上”。
OpenAI推出了ChatGPT的自定义指令功能后,似乎没有收到用户们的热情回应,Altman本人都下场亲自教大家使用。小编也来实测一波,希望给大家一些启发。大家在填写自定义指令中的第二个框,可以参考这个模板,要求ChatGPT扮演某个角色,输出某种特定格式的答案,更好的为自己服务。