首页 > 业界 > 关键词  > Open-Sora最新资讯  > 正文

AI日报:Open-Sora Plan v1.2发布;Mistral Large2突然开源;腾讯智影推智能画布功能

2024-07-25 15:08 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、震撼来袭!Open-Sora Plan v1.2发布,清晰度、推理速度起飞

Open-Sora Plan v1.2版本引入新的3D全注意力架构,提升了对物理世界的理解能力。更新带来了全新的3D全注意力架构,文本生成视频能力升级,清晰度和一致性提升,空间与时间完美融合,推理速度大幅提升。Open-Sora团队开源代码、数据、模型,致力让每个人成为视频创作的上帝。

【AiBase提要:】

🌟 新的3D全注意力架构让AI对物理世界有质的飞跃,360度无死角理解立体世界。

🎥 文本生成视频能力升级,敲下文字即可呈现栩栩如生的视频画面。

⏱️ 空间与时间完美融合,视频在空间表现和时间流畅度上显著提升。

详情链接:https://top.aibase.com/tool/open-sora-plan-v1-2

2、神仙打架!Mistral Large2突然开源:1230亿个参数、媲美Llama3.1

Mistral AI推出旗舰模型Mistral Large2,拥有1230亿个参数,超大的128k上下文窗口,性能与成本表现卓越。用户可通过La Plateforme访问新模型,在云服务平台上广泛应用。

【AiBase提要:】

🌟 Mistral Large2具备128k上下文窗口,支持多达十种语言及80多种编程语言。

📈 在MMLU基准测试中实现84.0%的准确率,性能与成本表现卓越。

💻 用户可通过La Plateforme访问新模型,并在云服务平台上广泛应用。

详情链接:https://console.mistral.ai/

3、腾讯智影PC端推出“智能画布”功能

腾讯智影PC端最近推出了一项新功能——“智能画布”,为用户提供了多种实用的图片编辑功能,结合AI绘画技术,让作图变得更加轻松。这项功能特别适合需要对AI绘画图片进行再创作、抠图、消除、扩图等编辑操作的用户。用户现在可以登录智影首页,体验这些新功能。

image.png

【AiBase提要:】

🎨 智能画布结合AI绘画技术,提供多种实用的图片编辑功能,让用户轻松进行再创作、抠图、消除、扩图等操作。

🖌️ 用户可以选择画布尺寸并上传图片,利用丰富的素材贴纸和工具进行编辑,还可进行AI创作。

🔍 智能画布提供图片AI调整功能,包括裁剪、抠图、消除、扩图、局部重绘、无损高清,满足各种创意和专业需求。

4、金山办公WPS AI上线“AI 伴写”功能

金山办公最近推出了WPS AI中的AI伴写功能,旨在提升用户写作效率和质量。用户可通过WPS Office界面启用该功能,享受智能建议和续写服务,轻松表达灵感。AI伴写还提供多样化的内容生成和中华诗词引用支持,增强写作连贯性。WPS AI2.0升级进一步推动了人工智能在办公领域的应用。

【AiBase提要:】

✨ 提升写作效率和质量,智能辅助用户写作

📚 多种场景角色满足不同用户的写作需求

💡 提供智能建议、续写服务和多样化内容生成,支持中华诗词引用

5、Stable Video4D横空出世,一键让你的视频变身全景大片!

Stable Video4D是一款颠覆性的视频处理工具,由Stability AI推出,能让普通视频变身为八面玲珑的全景大片。其快速生成多视角视频,保持画面一致性,将影响游戏开发、视频编辑和VR制作领域。未来或将改变观影方式,带来全新的互动式体验。

【AiBase提要:】

🎥 Stable Video4D能让普通视频变身为全景大片,展现多角度细节。

🔮 快速生成多视角视频,保持画面一致性,应用前景广阔。

🌌 未来或将改变观影方式,带来全新的互动式体验。

详情链接:https://huggingface.co/stabilityai/sv4d

6、AI音乐生成工具Udio更新 V1.5模型音质提升显著

昨晚,AI音乐生成工具Udio带来了一系列令人瞩目的更新,其中V1.5模型的音质得到显著提升,为音乐创作者提供更清晰丰富的听觉体验。新功能包括关键音调控制、多语言支持等,拓宽了用户群体。产品功能增强包括专属创作页面、下载音乐片段等,提供更个性化和高效的创作环境。

【AiBase提要:】

✨ V1.5模型音质显著提升,提供更清晰丰富的听觉体验。

🎵 新功能包括关键音调控制和多语言支持,满足创作者需求。

🔧 产品功能增强包括专属创作页面、下载音乐片段,提供更个性化和高效的创作环境。

详情链接:https://top.aibase.com/tool/udio

7、媲美GPT-4o!复旦推语音模型SpeechGPT2能听懂你的喜怒哀乐

SpeechGPT2是复旦大学研究团队提出的一种创新的大型语言模型,具有跨模态的语音理解和生成能力。虽然展现出强大的任务执行能力,但仍存在噪声鲁棒性和音质稳定性方面的挑战。团队计划未来开源技术报告、代码和模型权重,以推动技术的进一步发展和完善。

【AiBase提要:】

🔑 SpeechGPT2是一种新型的大型语言模型,具有跨模态的语音理解和生成能力。

🔑 SpeechGPT2通过三阶段训练策略,包括模态适应预训练、跨模态指令微调和模态链指令微调。

🔑 SpeechGPT2展现出强大的能力,在文本任务、跨模态任务和口语对话任务上表现出色。

详情链接:https://top.aibase.com/tool/speechgpt2

8、Reddit开启 “付费墙”,屏蔽搜索引擎和AI机器人随意抓取内容

Reddit最近采取了引人注目的举动,开始限制各大搜索引擎和AI机器人获取其内容,需付费才能获取。这一举措导致除Google外的搜索引擎无法轻易访问最新的Reddit内容,引发了广泛关注和讨论。

【AiBase提要:】

🌐 付费墙开启: Reddit限制搜索引擎和AI机器人访问内容,需付费才能获取。

🤖 Google独占资源: 只有Google能通过“site:reddit.com”获取最新结果,其他搜索引擎被排除。

💰 数据变现策略: Reddit加强数据保护,提升API费用,寻求新的收入来源以吸引投资者。

9、Nvidia AI推ChatQA2长文本理解和RAG能力媲美GPT-4

在人工智能的快速发展中,长文本上下文理解和检索增强生成(RAG)的能力变得至关重要。Nvidia AI 的最新研究——ChatQA2模型,正是为了应对这一挑战而生。ChatQA2通过扩展上下文窗口和实施三阶段指令调整过程,取得了与GPT-4-Turbo相媲美的长文本理解和RAG性能。

【AiBase提要:】

⚙️ ChatQA2通过将上下文窗口扩展到128K tokens,显著提升了指令遵循能力和长文本理解。

🔍 ChatQA2在InfiniteBench评估中超越了GPT-4-Turbo,在多项任务上表现出全面能力。

💡 ChatQA2解决了RAG流程中的关键问题,提高了检索的准确性和效率。

详情链接:https://arxiv.org/abs/2407.14482

10、百川智能完成50亿元A轮融资,估值达200亿元

百川智能近期完成A轮融资,融资总额达50亿元人民币,估值攀升至200亿元。这标志着大模型初创公司取得了重要的资本支持,展现出行业发展的活力和潜力。

【AiBase提要:】

🚀 大模型初创公司百川智能完成50亿元A轮融资,估值达200亿元,吸引国资背景产业投资基金加入。

💡 百川智能在医疗AI领域表现突出,Baichuan3模型超越GPT-4,提出AI医疗的L0-L5分级发展路线。

💰 大模型行业融资格局变化,国资背景基金成为重要资金来源,公司采取超级模型+超级应用双轮驱动策略。

11、英伟达推出 Minitron 小型语言模型

英伟达最新推出的Minitron小型语言模型在人工智能领域引起轰动。这一系列模型训练速度提高了40倍,通过修剪和知识蒸馏技术,大幅降低了训练成本,并已开源在Huggingface上,推动AI技术普及。

【AiBase提要:】

📈 提升训练速度: Minitron模型训练速度比传统模型快40倍,省时省力。

💡 节省成本: 通过修剪和知识蒸馏技术,降低训练所需的计算资源和数据量。

🌍 开源共享: Minitron模型已在Huggingface上开源,促进更多人获取和使用AI技术。

详情链接:https://huggingface.co/collections/nvidia/minitron-669ac727dc9c86e6ab7f0f3e

12、OpenBuddy开源大语言模型团队发布Llama3.1-8B模型中文版

Meta最近发布了新一代开源模型系列Llama3.1,其中包括一个405B参数的版本,其性能接近甚至在某些基准测试中超越了GPT-4等闭源模型。OpenBuddy利用Llama3.1-8B-Instruct模型,通过在少量中文数据上进行训练,发布了OpenBuddy-Llama3.1-8B-v22.1-131K,具备中文问答和跨语言翻译能力。

image.png

【AiBase提要:】

🚀 Llama3.1-8B-Instruct是新一代开源模型,支持多语言且上下文长度高达131072tokens,展现出与GPT3.5Turbo相近的认知和推理能力。

🔍 OpenBuddy-Llama3.1-8B-v22.1-131K是具备中文问答和跨语言翻译能力的新一代开源跨语言模型,展现出更强的认知潜力。

💡 OpenBuddy计划对8B和70B模型进行更大规模的训练,以增强模型的中文知识储备、长文能力和认知能力,并探索微调405B模型的可能性。

详情链接:https://modelscope.cn/models/OpenBuddy/openbuddy-llama3.1-8b-v22.1-131k

13、颠覆认知!AI自训练9次崩溃 牛津剑桥发现AI潜藏致命弱点

这篇文章揭示了通过再训练AI图像生成模型使用自己生成的图像可能导致模型崩溃的现象。研究人员发现,即使只包含少量自生成图像在再训练数据中,模型也会产生高度扭曲的图像,难以完全恢复。这一发现提醒我们AI系统对数据“污染”非常敏感,需要谨慎处理。

image.png

【AiBase提要:】

⚠️ 再训练AI模型使用自生成图像可能导致模型崩溃,图像质量急剧下降

🔍 模型崩溃不仅影响图像质量,还导致生成的图像缺乏多样性

⚔️ 一旦模型被“污染”,恢复困难且可能是长期甚至不可逆的

详情链接:https://arxiv.org/pdf/2311.12202

举报

  • 相关推荐
  • 大家在看
  • AI Lyrics Generator:利用AI技术快速生成原创歌词

    AI Lyrics Generator是一个基于人工智能技术的在线歌词生成工具,专为词曲作者、音乐家和创意人士设计。它能够根据用户输入的风格、主题和情感等参数,快速生成原创歌词。这个工具利用先进的机器学习算法,模仿人类创作歌词的过程,为用户提供灵感和创作辅助。AI Lyrics Generator不仅能够节省创作时间,还能拓宽创作视野,帮助用户探索不同的音乐风格和表达方式。

  • Fancy Text Generator:创意文字转换器,轻松生成独特、炫酷的文字效果。

    Fancy Text Generator是一个在线工具,利用AI算法为用户提供多种风格的花式文字生成服务。它支持包括花式字体、emoji装饰、特殊符号在内的多种文字效果,适用于社交媒体、个人签名、艺术创作等场景。该产品的主要优点包括用户友好的界面、快速生成作品的能力、高分辨率输出以及社区分享功能。它免费在线使用,无需下载,适合所有希望在数字平台上展示个性化文字的用户。

  • Flux Lora Online:在线生成精美图片,释放创意潜力。

    Flux Lora Online 是一个在线平台,提供多种 Flux Lora 模型,用于生成各种风格的图像。这些模型包括但不限于写实风格、动漫风格、迪士尼风格等,能够满足不同用户对图像生成的多样化需求。平台采用先进的图像生成技术,提供高分辨率和细节丰富的图像,同时拥有用户友好的界面,简化工作流程,提高生产力。

  • Vadoo AI:AI视频生成器,将文本快速转化为视频。

    Vadoo AI是一个全功能的AI视频生成器,它使用先进的人工智能技术,让用户能够将文本提示快速转化为视频内容。该产品支持多种语言字幕,提供多种视频风格和模板,以及背景音乐和自动缩放等功能,使得视频制作变得简单而高效。Vadoo AI的目标是帮助用户,无论是社交媒体创作者还是企业营销人员,都能轻松创建专业质量的视频内容,以吸引和保持观众的注意力。

  • AI Youtube Shorts Generator:从长视频中生成引人入胜的YouTube短片

    AI Youtube Shorts Generator 是一个利用GPT-4和Whisper技术的Python工具,它可以从长视频中提取最有趣的亮点,检测演讲者,并将内容垂直裁剪,以适应短片格式。这个工具目前处于0.1版本,可能存在一些bug。

  • Cavela:全球首个虚拟采购代理,连接全球制造商网络

    Cavela是一个创新的虚拟采购代理平台,它通过自动化技术连接全球的供应商网络,为企业提供从供应商匹配、报价编制、样品生产、质量保证到订单交付的一站式服务。Cavela通过其平台,帮助企业降低采购成本,提高效率,同时确保产品质量。它特别适合需要全球采购资源的中小型企业和初创公司,帮助他们在竞争激烈的市场中快速响应市场需求。

  • Landerino:最简洁的网页构建器,设计至上

    Landerino是一个创新的网页构建平台,它通过提供简单易用的界面,让用户能够快速创建、编辑和发布落地页。它不仅支持实时编辑和预览,还提供了强大的分析工具,帮助用户优化页面并进行A/B测试。Landerino的目标是让每个人都能轻松地构建和管理自己的网页,无需专业的技术背景。它通过简化网页制作流程,降低了维护成本,使内容创造成为焦点。

  • Mneme AI:在设备上与您的笔记进行对话,提升生产力。

    Mneme AI 是一款运行在iPhone上的本地AI助手应用,它允许用户通过与个人笔记、文档和书籍的对话来提高工作效率。这款应用完全离线运行,确保了用户数据的隐私和安全。Mneme AI 通过提供个性化的响应,帮助用户整理思绪和知识,支持用户使用内置文本编辑器记录新笔记或添加PDF文档。它支持英语,并推荐在iPhone 14或更新型号上使用以获得最佳性能。

  • AI-Faceless-Video-Generator:利用AI生成视频脚本、语音和会说话的头像

    AI-Faceless-Video-Generator是一个利用人工智能技术,根据话题生成视频脚本、语音和会说话头像的项目。它结合了sadtalker进行面部动画,gTTS生成AI语音和OpenAI语言模型生成脚本,提供了一个端到端的解决方案,用于生成个性化视频。该项目的主要优点包括脚本生成、AI语音生成、面部动画创建以及易于使用的界面。

  • FLUX.1-dev-LoRA-Dark-Fantasy:生成幻想生物和角色的AI模型

    FLUX.1-dev-LoRA-Dark-Fantasy是由Shakker AI的GUIZANG(歸藏)训练的LoRA模型,专注于生成幻想生物和角色。该模型受到Klee、Odilon Redon、Eyvind Earle等艺术家的影响,能够生成具有电影质感、复杂光影效果和精细细节的图像。模型遵循flux-1-dev-non-commercial-license,适用于非商业用途。

  • 通义万相AI视频生成:利用AI技术,将文字和图像转化为创意视频。

    通义万相AI创意作画是一款利用人工智能技术,将用户的文字描述或图像转化为视频内容的产品。它通过先进的AI算法,能够理解用户的创意意图,自动生成具有艺术感的视频。该产品不仅能够提升内容创作的效率,还能激发用户的创造力,适用于广告、教育、娱乐等多个领域。

  • Windows Agent Arena:用于测试和开发AI代理的可扩展开源框架

    Windows Agent Arena (WAA) 是一个专注于Windows操作系统的可扩展、开源框架,用于测试和开发能够使用语言模型在PC上进行推理、规划和行动的AI代理。它通过模拟真实的Windows环境,允许代理自由操作,并使用与人类用户相同的应用程序、工具和网络浏览器来解决任务。WAA通过Azure实现可扩展性和并行化,能够在短短20分钟内完成完整的基准测试评估。

  • VELS by Kaiden AI:AI驱动的模拟训练,提升沟通技能。

    VELS by Kaiden AI是一个基于人工智能的模拟训练平台,提供定制化、反馈丰富的模拟场景,帮助用户准备各种交流互动。该平台通过创建逼真的训练场景和AI虚拟对话伙伴,模拟真实世界的交流环境,让用户在安全的环境中练习和提高沟通技能。VELS通过实时反馈和性能分析,为用户提供个性化的训练体验,帮助他们在各种行业和角色中提升表现。

  • Selfplanr:规划你的高中四年,迈向梦想大学。

    Selfplanr是一个为高中生设计的在线规划工具,旨在帮助学生规划他们的高中生涯,以实现进入理想大学的目标。通过个性化的目标设定、动态的四年规划、每周任务安排、与导师和同伴的协作规划以及动态进度跟踪,Selfplanr帮助学生构建全面而独特的简历,发现学术之外的无数机会,如实习、奖学金、研究和志愿活动。

  • GoMaxAI:一站式AI服务,提供多样化智能解决方案。

    GoMaxAI是一个集成了多种AI功能的平台,旨在为用户提供包括3D视频创建、智能问答、AI绘画、文档分析和思维导图等多种智能服务。它通过先进的AI技术,帮助用户在影视制作、设计、艺术创作、信息处理等领域提高效率和创造力。

  • XVERSE-MoE-A36B:多语言大型语言模型,支持多领域文本生成。

    XVERSE-MoE-A36B是由深圳元象科技自主研发的多语言大型语言模型,采用混合专家模型(MoE)架构,具有2554亿的总参数规模和360亿的激活参数量。该模型支持包括中、英、俄、西等40多种语言,特别在中英双语上表现优异。模型使用8K长度的训练样本,并通过精细化的数据采样比例和动态数据切换策略,保证了模型的高质量和多样性。此外,模型还针对MoE架构进行了定制优化,提升了计算效率和整体吞吐量。

  • Peter Cat:智能答疑机器人解决方案,助力GitHub社区维护者和开发者

    Peter Cat 是一个专为社区维护者和开发者打造的智能答疑机器人解决方案。它通过对话式答疑 Agent,配置系统、自托管部署方案和便捷的一体化应用SDK,让用户能够一键创建智能答疑机器人,并快速集成到各类官网或项目中,为社区提供更高效的技术支持生态。

  • Covers:将您的音乐作品转换为全新风格。

    Covers 是 Suno 推出的一款音乐创作工具,它允许用户将任何声音,从简单语音备忘录到完整制作的音乐,转换成全新风格的音乐作品,同时保留原始的旋律。这一功能特别适合想要尝试不同音乐风格或为纯音乐添加歌词的音乐创作者。Covers 目前处于早期访问测试阶段,向所有 Pro 和 Premier 订阅者提供,用户可以免费试用200次,之后每次生成新 Cover 将消耗10个积分。

  • AgentRE:基于代理的框架,用于在复杂信息环境中进行关系抽取。

    AgentRE是一个基于代理的框架,专门设计用于在复杂信息环境中进行关系抽取。它通过模拟智能代理的行为,能够高效地处理和分析大规模数据集,从而识别和提取实体之间的关系。该技术在自然语言处理和信息检索领域具有重要意义,尤其是在需要处理大量非结构化数据的场景中。AgentRE的主要优点包括其高度的可扩展性、灵活性以及对复杂数据结构的处理能力。该框架是开源的,允许研究人员和开发者自由使用和修改,以适应不同的应用需求。

  • GoMaxAI Pro版 (ChatGPT-Midjourney):个人、团队、企业私有化AIGC应用平台

    GoMaxAI Pro版是一个基于Node.js、Vue3、uniapp开发的AIGC平台,提供ChatGPT、Midjourney绘画、Suno音乐、Pika/Runway/Sora视频服务。它支持私有化部署,适用于个人、团队和企业,强调用户体验和资源集成,具备权限管理和安全审计功能。

今日大家都在搜的词: