首页 > 业界 > 关键词  > Open-Sora最新资讯  > 正文

AI日报:Open-Sora Plan v1.2发布;Mistral Large2突然开源;腾讯智影推智能画布功能

2024-07-25 15:08 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、震撼来袭!Open-Sora Plan v1.2发布,清晰度、推理速度起飞

Open-Sora Plan v1.2版本引入新的3D全注意力架构,提升了对物理世界的理解能力。更新带来了全新的3D全注意力架构,文本生成视频能力升级,清晰度和一致性提升,空间与时间完美融合,推理速度大幅提升。Open-Sora团队开源代码、数据、模型,致力让每个人成为视频创作的上帝。

【AiBase提要:】

🌟 新的3D全注意力架构让AI对物理世界有质的飞跃,360度无死角理解立体世界。

🎥 文本生成视频能力升级,敲下文字即可呈现栩栩如生的视频画面。

⏱️ 空间与时间完美融合,视频在空间表现和时间流畅度上显著提升。

详情链接:https://top.aibase.com/tool/open-sora-plan-v1-2

2、神仙打架!Mistral Large2突然开源:1230亿个参数、媲美Llama3.1

Mistral AI推出旗舰模型Mistral Large2,拥有1230亿个参数,超大的128k上下文窗口,性能与成本表现卓越。用户可通过La Plateforme访问新模型,在云服务平台上广泛应用。

【AiBase提要:】

🌟 Mistral Large2具备128k上下文窗口,支持多达十种语言及80多种编程语言。

📈 在MMLU基准测试中实现84.0%的准确率,性能与成本表现卓越。

💻 用户可通过La Plateforme访问新模型,并在云服务平台上广泛应用。

详情链接:https://console.mistral.ai/

3、腾讯智影PC端推出“智能画布”功能

腾讯智影PC端最近推出了一项新功能——“智能画布”,为用户提供了多种实用的图片编辑功能,结合AI绘画技术,让作图变得更加轻松。这项功能特别适合需要对AI绘画图片进行再创作、抠图、消除、扩图等编辑操作的用户。用户现在可以登录智影首页,体验这些新功能。

image.png

【AiBase提要:】

🎨 智能画布结合AI绘画技术,提供多种实用的图片编辑功能,让用户轻松进行再创作、抠图、消除、扩图等操作。

🖌️ 用户可以选择画布尺寸并上传图片,利用丰富的素材贴纸和工具进行编辑,还可进行AI创作。

🔍 智能画布提供图片AI调整功能,包括裁剪、抠图、消除、扩图、局部重绘、无损高清,满足各种创意和专业需求。

4、金山办公WPS AI上线“AI 伴写”功能

金山办公最近推出了WPS AI中的AI伴写功能,旨在提升用户写作效率和质量。用户可通过WPS Office界面启用该功能,享受智能建议和续写服务,轻松表达灵感。AI伴写还提供多样化的内容生成和中华诗词引用支持,增强写作连贯性。WPS AI2.0升级进一步推动了人工智能在办公领域的应用。

【AiBase提要:】

✨ 提升写作效率和质量,智能辅助用户写作

📚 多种场景角色满足不同用户的写作需求

💡 提供智能建议、续写服务和多样化内容生成,支持中华诗词引用

5、Stable Video4D横空出世,一键让你的视频变身全景大片!

Stable Video4D是一款颠覆性的视频处理工具,由Stability AI推出,能让普通视频变身为八面玲珑的全景大片。其快速生成多视角视频,保持画面一致性,将影响游戏开发、视频编辑和VR制作领域。未来或将改变观影方式,带来全新的互动式体验。

【AiBase提要:】

🎥 Stable Video4D能让普通视频变身为全景大片,展现多角度细节。

🔮 快速生成多视角视频,保持画面一致性,应用前景广阔。

🌌 未来或将改变观影方式,带来全新的互动式体验。

详情链接:https://huggingface.co/stabilityai/sv4d

6、AI音乐生成工具Udio更新 V1.5模型音质提升显著

昨晚,AI音乐生成工具Udio带来了一系列令人瞩目的更新,其中V1.5模型的音质得到显著提升,为音乐创作者提供更清晰丰富的听觉体验。新功能包括关键音调控制、多语言支持等,拓宽了用户群体。产品功能增强包括专属创作页面、下载音乐片段等,提供更个性化和高效的创作环境。

【AiBase提要:】

✨ V1.5模型音质显著提升,提供更清晰丰富的听觉体验。

🎵 新功能包括关键音调控制和多语言支持,满足创作者需求。

🔧 产品功能增强包括专属创作页面、下载音乐片段,提供更个性化和高效的创作环境。

详情链接:https://top.aibase.com/tool/udio

7、媲美GPT-4o!复旦推语音模型SpeechGPT2能听懂你的喜怒哀乐

SpeechGPT2是复旦大学研究团队提出的一种创新的大型语言模型,具有跨模态的语音理解和生成能力。虽然展现出强大的任务执行能力,但仍存在噪声鲁棒性和音质稳定性方面的挑战。团队计划未来开源技术报告、代码和模型权重,以推动技术的进一步发展和完善。

【AiBase提要:】

🔑 SpeechGPT2是一种新型的大型语言模型,具有跨模态的语音理解和生成能力。

🔑 SpeechGPT2通过三阶段训练策略,包括模态适应预训练、跨模态指令微调和模态链指令微调。

🔑 SpeechGPT2展现出强大的能力,在文本任务、跨模态任务和口语对话任务上表现出色。

详情链接:https://top.aibase.com/tool/speechgpt2

8、Reddit开启 “付费墙”,屏蔽搜索引擎和AI机器人随意抓取内容

Reddit最近采取了引人注目的举动,开始限制各大搜索引擎和AI机器人获取其内容,需付费才能获取。这一举措导致除Google外的搜索引擎无法轻易访问最新的Reddit内容,引发了广泛关注和讨论。

【AiBase提要:】

🌐 付费墙开启: Reddit限制搜索引擎和AI机器人访问内容,需付费才能获取。

🤖 Google独占资源: 只有Google能通过“site:reddit.com”获取最新结果,其他搜索引擎被排除。

💰 数据变现策略: Reddit加强数据保护,提升API费用,寻求新的收入来源以吸引投资者。

9、Nvidia AI推ChatQA2长文本理解和RAG能力媲美GPT-4

在人工智能的快速发展中,长文本上下文理解和检索增强生成(RAG)的能力变得至关重要。Nvidia AI 的最新研究——ChatQA2模型,正是为了应对这一挑战而生。ChatQA2通过扩展上下文窗口和实施三阶段指令调整过程,取得了与GPT-4-Turbo相媲美的长文本理解和RAG性能。

【AiBase提要:】

⚙️ ChatQA2通过将上下文窗口扩展到128K tokens,显著提升了指令遵循能力和长文本理解。

🔍 ChatQA2在InfiniteBench评估中超越了GPT-4-Turbo,在多项任务上表现出全面能力。

💡 ChatQA2解决了RAG流程中的关键问题,提高了检索的准确性和效率。

详情链接:https://arxiv.org/abs/2407.14482

10、百川智能完成50亿元A轮融资,估值达200亿元

百川智能近期完成A轮融资,融资总额达50亿元人民币,估值攀升至200亿元。这标志着大模型初创公司取得了重要的资本支持,展现出行业发展的活力和潜力。

【AiBase提要:】

🚀 大模型初创公司百川智能完成50亿元A轮融资,估值达200亿元,吸引国资背景产业投资基金加入。

💡 百川智能在医疗AI领域表现突出,Baichuan3模型超越GPT-4,提出AI医疗的L0-L5分级发展路线。

💰 大模型行业融资格局变化,国资背景基金成为重要资金来源,公司采取超级模型+超级应用双轮驱动策略。

11、英伟达推出 Minitron 小型语言模型

英伟达最新推出的Minitron小型语言模型在人工智能领域引起轰动。这一系列模型训练速度提高了40倍,通过修剪和知识蒸馏技术,大幅降低了训练成本,并已开源在Huggingface上,推动AI技术普及。

【AiBase提要:】

📈 提升训练速度: Minitron模型训练速度比传统模型快40倍,省时省力。

💡 节省成本: 通过修剪和知识蒸馏技术,降低训练所需的计算资源和数据量。

🌍 开源共享: Minitron模型已在Huggingface上开源,促进更多人获取和使用AI技术。

详情链接:https://huggingface.co/collections/nvidia/minitron-669ac727dc9c86e6ab7f0f3e

12、OpenBuddy开源大语言模型团队发布Llama3.1-8B模型中文版

Meta最近发布了新一代开源模型系列Llama3.1,其中包括一个405B参数的版本,其性能接近甚至在某些基准测试中超越了GPT-4等闭源模型。OpenBuddy利用Llama3.1-8B-Instruct模型,通过在少量中文数据上进行训练,发布了OpenBuddy-Llama3.1-8B-v22.1-131K,具备中文问答和跨语言翻译能力。

image.png

【AiBase提要:】

🚀 Llama3.1-8B-Instruct是新一代开源模型,支持多语言且上下文长度高达131072tokens,展现出与GPT3.5Turbo相近的认知和推理能力。

🔍 OpenBuddy-Llama3.1-8B-v22.1-131K是具备中文问答和跨语言翻译能力的新一代开源跨语言模型,展现出更强的认知潜力。

💡 OpenBuddy计划对8B和70B模型进行更大规模的训练,以增强模型的中文知识储备、长文能力和认知能力,并探索微调405B模型的可能性。

详情链接:https://modelscope.cn/models/OpenBuddy/openbuddy-llama3.1-8b-v22.1-131k

13、颠覆认知!AI自训练9次崩溃 牛津剑桥发现AI潜藏致命弱点

这篇文章揭示了通过再训练AI图像生成模型使用自己生成的图像可能导致模型崩溃的现象。研究人员发现,即使只包含少量自生成图像在再训练数据中,模型也会产生高度扭曲的图像,难以完全恢复。这一发现提醒我们AI系统对数据“污染”非常敏感,需要谨慎处理。

image.png

【AiBase提要:】

⚠️ 再训练AI模型使用自生成图像可能导致模型崩溃,图像质量急剧下降

🔍 模型崩溃不仅影响图像质量,还导致生成的图像缺乏多样性

⚔️ 一旦模型被“污染”,恢复困难且可能是长期甚至不可逆的

详情链接:https://arxiv.org/pdf/2311.12202

举报

  • 相关推荐
  • 防诈骗买鸿蒙手机!鸿蒙星盾安全再升级:首创六大防诈能力

    华为HarmonyOS 7今日正式发布,在安全方面迎来重大升级。 据介绍,鸿蒙星盾安全再升级,采用全新全新AI安全底座,行业首家通过信通院增强级端云协同AI安全认证,具有数据不存储,数据不泄漏,数据不滥用等特点。 同时,HarmonyOS 7具有超强AI反诈功能,行业首个联合防诈平

  • 如何理解「小红书精选」

    小红书又有新动作。 如果你最近在刷小红书,可能会发现部分视频左下方多了一个“RED精选视频”标识,点击旁边的“去看看”选项,就能跳转到一个聚合页,看到更多带有RED精选标签的视频内容。不过,这个页面里的推荐视频有一定的随机性,且并非每条视频的左下方都会出现“RED精选”标识。 与此同时,也有不少用户最上方的“发现”菜单栏的二级选项,也直接出现了�

  • 跻身全球第一梯队!京东开源JoyAI-Echo框架:解决长视频生成三大难题

    今日,京东宣布推出JoyAI-Echo长音视频生成框架,号称解决行业长期头疼的长视频生成三大难题:角色易崩、声音乱变、生成缓慢。 目前,JoyAI-Echo代码与权重已全部开源,项目页和GitHub代码仓库均已上线,开发者和创作者可进行体验和二次开发。 京东表示,JoyAI-Echo的推出,标志着京东在长视频生成领域实现重大突破,进入全球第一梯队。 据了解,JoyAI-Echo内置跨模态音视频�

  • 日本熊袭击人清晰视频流出:工人被狂追后扑倒在地

    当地时间6月2日上午,日本福岛钢铁厂的监控视频记录下一头亚洲黑熊袭击人类的过程,当天它先后袭击了工厂两名男性员工、附近住宅的一名80多岁女性,以及另一家公司一名60多岁男性。 监控画面显示,这头黑熊在工厂入口穷追一名20多岁的工人,虽然工人已经绕着圈子闪躲,但最终还是不敌,被黑熊扑倒在地,好在有人驾驶一辆汽车驱赶,这才将黑熊给吓退,否则后果怕�

  • 全量机型推送!荣耀与微信首个A2A合作上线:一句话发消息、视频电话

    今日,荣耀宣布,荣耀与微信首个A2A合作成果落地,目前已面向荣耀全量机型推送。 升级后,荣耀YOYO可支持一句话调用微信,完成发送微信消息、拨打微信语音电话、视频电话等操作。 据介绍,该功能基于A2A技术方案实现。 荣耀用户只需将系统、YOYO智能体和微信升级至最新版本,打开荣耀YOYO后,即可通过一句话调起微信,为指定联系人发送消息,或发起语音、视频通话�

  • 合十思维发布物界OS双脑架构具身系统及全尺寸双足人形机器人Humanoid-X 探索物理AI落地路径

    合十思维发布全尺寸双足人形机器人Humanoid-X及底层“物界OS双脑架构”,通过仿脑感知与智脑逻辑结合,以行为树(BTS)和脉冲神经网络(SNN)实现低算力、高泛化的物理认知,并具备语义控制能力。硬件采用差速锁齿轮结构控制成本。商业化方面,已通过物界OS赋能机场导览、清洁机器人实现8000万营收,并与HCR慧辰股份合作推进物流、制造等行业应用。公司定位“为服务而工作”,计划覆盖清洁、养老等场景,构建全栈通用具身操作系统平台。

  • 微信正与手机厂商合作推出A2A助手:可语音发消息、视频通话

    微信正在与华为、荣耀、小米、OPPO、vivo等手机厂商合作推出A2A(Agent-to-Agent)助手能力,可通过手机语音助理发起微信的音视频通话,或向好友发送消息。 目前,荣耀部分机型已经支持该功能,把YOYO智能体和微信更新到最新版本,即可唤醒YOYO直接语音下达指令,比如语音发微信消息、拨打微信语音、视频通话。 A2A为跨应用智能体通信标准,打破APP生态壁垒,运行逻辑为手�

  • 国内大型音视频系统厂商!itc保伦股获评2025年度番禺区“科技创新企业”称号!

    近日,番禺区厂商会2026年会员代表大会暨企业家活动日成功举办,聚焦制造业高端化、智能化、绿色化转型。ITC保伦股份凭借持续技术创新、高研发投入及丰硕成果转化,荣获2025年度番禺区“科技创新企业”称号。该公司坚持自主创新,已推出70余款AI智慧系统产品,广泛应用于智慧政务、教育、文旅等领域。通过人才建设、产学研联动、装备革新及成果转化,ITC累计获得2254项知识产权,展现了强劲的科技创新实力,为区域产业高质量发展注入动能。

  • 流水的世界杯 铁打的夏奇拉:四届世界杯舞台见证

    2026年美加墨世界杯开幕式,49岁的哥伦比亚天后夏奇拉第四次站上世界杯舞台,演唱官方主题曲《Dai Dai》。网友感叹:“流水的世界杯,铁打的夏奇拉。” 从2010年南非世界杯的《Waka Waka》,到2014年巴西、2018年俄罗斯、2022年卡塔尔,再到2026年美加墨,夏奇拉横跨20年,四届世界杯,从未缺席。这次开幕式在墨西哥城阿兹特克体育场举行,现场音响收音不佳,但夏奇拉一开口,

  • 快手亮相2026金砖产融合作论坛:直播短视频出海赋能金砖合作

    5月28日,2026金砖国家新工业革命伙伴关系系列活动之金砖产融合作论坛在厦门举行。论坛以“深化金砖产融协同,赋能企业国际化发展”为主题,围绕产业合作、企业国际化、技术创新出海等议题展开交流。快手受邀参会,副总裁、快手研究院院长蔡雄山发表题为《直播短视频出海赋能金砖合作》的主旨演讲,分享了快手在技术、商业模式和文化出海方面的实践。快手通过AI技术降低视频创作门槛,助力AIGC在影视、广告等领域落地;在巴西等市场深耕本土化,推动数字平台赋能当地商业生态;并强调文化深度融合,以长期责任服务当地社会发展,助力构建开放、包容、互利共赢的数字经济合作生态。

今日大家都在搜的词: