首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:1秒出图!英伟达开源文生图模型Sana;阿里妈妈推淘宝星辰视频生成大模型;OpenAI发布经济蓝图

2025-01-14 15:25 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、震撼登场!英伟达开源图像生成模型Sana ,1秒生图、支持中英文和emoji

英伟达近日开源了图像生成模型Sana,凭借仅0.6亿个参数和高达4096×4096分辨率的生成能力,极大降低了使用门槛。该模型在16GB显卡上可在不到1秒内生成高质量图像,表现出色。Sana采用了深度压缩自编码器和线性扩散变换器,提升了生成速度和质量,并支持多种语言提示,方便用户创作。

image.png

【AiBase提要:】

🌟 高效生成:Sana可以快速生成高达4096×4096分辨率的高质量图像,适合在普通笔记本GPU上使用。

⚙️ 创新设计:深度压缩自编码器和线性扩散变换器大幅提升了生成速度和质量。

🚀 卓越性能:Sana在多项测试中表现优异,吞吐量显著高于其他先进模型,支持快速内容创作。

详情链接:https://nv-sana.mit.edu/

2、OpenAI发布AI经济蓝图,呼吁美国加强监管与发展

OpenAI最近发布的“经济蓝图”旨在与美国政府及盟国共同探讨政策,以巩固美国在人工智能领域的技术领导地位。蓝图强调吸引资金、人才和资源的重要性,并对现行的监管模式表示担忧。OpenAI呼吁政府加大投资,制定最佳实践以防止AI模型滥用,并在知识产权方面为开发者提供灵活性。

【AiBase提要:】

💰 美国需吸引数十亿美元资金以增强AI竞争力。

⚖️ OpenAI对各州立法的冲突和现行监管表示担忧。

🌱 建议政府增加对新型能源和数据传输的投资。

3、Mistral推出新一代编程模型Codestral25.01,编程速度提高两倍

Mistral公司最近发布了其开源代码生成模型Codestral的最新版本Codestral25.01,显著提升了代码生成速度,达到了前版本的两倍。新版本在Python编码测试中表现出色,获得86.6%的HumanEval测试分数。该模型专注于低延迟和高频操作,适合于代码纠正、测试生成等任务,尤其对数据量大的企业尤为重要。

image.png

【AiBase提要:】

🌟 Mistral推出Codestral25.01,代码生成速度提高至前版本的两倍。

💻 该模型在Python编码测试中表现优异,获得86.6%的HumanEval测试分数。

📈 Codestral25.01迅速在C o p i l o t Arena中升至榜首,受到开发者广泛关注。

详情链接:https://mistral.ai/news/codestral-2501/

4、清华、复旦与斯坦福联合开源 “Eko” 框架,让Agent自动化操作电脑

近日,清华大学、复旦大学与斯坦福大学的研究团队联合发布了名为“Eko”的Agent开发框架,旨在通过简单的代码和自然语言帮助开发者快速构建可用于生产的“虚拟员工”。Eko框架能够接管用户的电脑和浏览器,代替人类完成各种繁琐的任务,从而大幅提升工作效率,减轻人类的负担。

【AiBase提要:】

🌟 Eko框架可接管用户电脑与浏览器,替代人类完成繁琐任务。

🔧 通过自然语言与程序语言的结合,简化开发过程。

🛡️ 允许人类实时监控和干预,确保自动化工作的安全性与准确性。

详情链接:https://eko.fellou.ai/

5、Adobe推出AI驱动Bulk Create,可一键批量编辑1万张图像

Adobe最近推出了全新的AI工具Bulk Create,旨在帮助企业创意团队高效地进行图像编辑。该工具通过Web平台提供批量编辑功能,无需下载应用程序或Photoshop许可,极大地提升了工作效率。用户可以轻松更改背景和调整图像大小,同时支持品牌定制,满足不同企业的需求。尽管目前仍在测试阶段,预计将在不久的将来全面上线,进一步推动AI在创意领域的应用。

image.png

【AiBase提要:】

🎨 Bulk Create允许用户通过Web平台批量编辑图像,无需下载桌面应用程序或Photoshop许可。

📏 该工具支持背景更改和图像大小调整,并提供社交媒体预设尺寸,便于用户快速适应不同平台。

🚀 Adobe计划在未来推出视频支持功能,进一步增强Bulk Create的多功能性。

6、新 AI 模型 LlamaV-o1,测试推理能力超越Claude3.5Sonnet

阿联酋穆罕默德・本・扎耶德人工智能大学推出的LlamaV-o1模型在多模态人工智能领域树立了新的基准,特别是在复杂文本和图像推理任务中展现了卓越的性能。该模型通过逐步推理的透明性,提升了在医疗、金融等行业的应用价值,增强了用户的信任感。

image.png

【AiBase提要:】

🌟 LlamaV-o1是一款新发布的AI模型,擅长解决复杂文本和图像推理任务。

📊 该模型在VRC-Bench基准测试中表现优越,提供透明的逐步推理过程。

🏥 LlamaV-o1在医疗和金融等行业中具有重要的应用价值,能够增加信任感和合规性。

详情链接:https://mbzuai-oryx.github.io/LlamaV-o1/

7、研究揭示:仅需0.001% 的虚假数据就能让 AI 模型失效

近期的研究揭示了大规模语言模型(LLM)在数据训练中的脆弱性,尤其是在医疗领域。研究表明,即使是极少量的虚假信息,只有0.001%的比例,也能够导致模型产生重大错误,影响患者安全。这项研究强调了在医疗应用中使用AI工具时的风险,呼吁开发者在确保模型安全性之前,不应将其用于关键医疗任务。

【AiBase提要:】

🌐 研究表明,仅需0.001%的虚假信息,就能让大规模语言模型(LLM)失效。

🩺 医疗领域中,虚假信息的传播可能严重影响患者安全。

💡 研究人员呼吁在确保安全之前,不应将LLM用于诊断或治疗等重要医疗任务。

8、微软画图应用新增 AI 擦除功能免费用,轻松删除任意元素!

微软对其经典画图应用进行了升级,引入了基于 AI 的擦除功能,使得用户在图像处理时更加便捷。用户只需简单圈选要删除的元素,AI 就能自动识别并进行擦除,显著简化了传统的处理流程。经过两个月的测试,这项新功能现已向所有用户推送,用户可在微软商店免费升级使用。

image.png

【AiBase提要:】

🌟 AI 擦除功能: 用户只需圈选即可轻松删除图像中的元素。

⏳ 使用时间: 擦除元素可能需要40到80秒,但无需专用硬件支持。

🔍 完美度: 删除效果与元素周围的背景复杂度有关,有时可能不够理想。

9、阶跃星辰与茶百道达成深度合作

上海阶跃星辰智能科技有限公司与茶百道的深度合作标志着茶饮行业向智能化和数字化转型的重要一步。通过阶跃星辰的大模型技术,茶百道的运营效率得到了显著提升,尤其是在自检核验方面,节省了大量时间。这一合作不仅优化了门店的生产运营方式,还为消费者提供了更安全、智能且有趣的奶茶消费体验,展现了未来茶饮行业的发展潜力。

image.png

【AiBase提要:】

🚀 阶跃星辰与茶百道合作,探索智能巡检和AIGC营销新模式。

📈 Step-1V多模态理解大模型已接入数千家茶百道门店,提升运营效率。

☕ 智能巡检确保茶饮安全送达,提升消费者的服务体验。

10、抖音创始成员任利锋创办的GenAI创意社区Hitems获数千万美元融资

抖音创始成员任利锋的创业项目数美万物完成数千万美元的 Pre-A 轮融资,由美团龙珠领投,老股东继续支持。其核心平台 Hitems 结合生成式 AI 和 3D 建模技术,提供创意商品化服务,促进电商与社区的互动。

image.png

【AiBase提要:】

🎉 数美万物获得数千万美元 Pre-A 轮融资,估值约 1.5 亿美元。

🛒 Hitems 平台利用 AI 技术将创意商品化,覆盖全链条服务。

🌟 创始人任利锋曾参与抖音冷启动,积累了丰富经验。

11.阿里妈妈推出淘宝星辰视频生成大模型、图生视频应用

阿里妈妈近日推出了淘宝星辰・图生视频应用,该工具基于自研的大模型,商家只需输入静态图片和简短描述,即可生成高质量视频。此应用结合电商数据与设计语言,简化内容创作流程,助力商家降低成本并提升营销效果。

微信截图_20250114154900.png

【AiBase 提要:】

🎥 阿里妈妈推出图生视频 AI 工具,商家可快速生成高质量视频。

💡 工具利用电商数据与设计语言,智能化内容创作。

🛠️ 降低商家制作成本,提升电商运营智能化水平。

体验入口:https://agi.taobao.com/

举报

  • 相关推荐
  • AI日报:Midjourney重磅推出视频生成模型V1;OpenAI将在今年夏季发布GPT-5;谷歌推Search Live语音搜索功能

    本期AI日报聚焦多项AI领域重要进展:1) Midjourney推出首款视频生成模型V1,支持21秒视频生成;2) OpenAI CEO确认GPT-5将于今夏发布;3) Google上线语音对话搜索功能Search Live;4) OpenAI开源客户服务代理框架;5) MiniMax发布智能代理Agent;6) 恶意工具WormGPT出现新变种;7) OpenAI推出企业版ChatGPT折扣;8) DeepSite V2支持3D网页动画生成;9) AI工具可秒变PPT;10) 比亚迪与字节跳动合作开发动力电池技术;11) 马斯克否认xAI巨额亏损传闻。

  • AI日报:豆包大模型1.6发布;OpenAI推o3-pro模型、o3价格暴降80%;Figma官方MCP重磅上线

    【AI日报】今日AI领域重要动态:1)火山引擎发布豆包大模型1.6和视频生成模型Seedance1.0pro,性能显著提升;2)OpenAI推出o3-pro模型,专注可靠性但响应较慢;3)Figma推出Dev Mode MCP服务,实现设计到代码一键转换;4)Krea AI发布图像生成模型Krea1,解决传统AI绘图问题;5)火山引擎豆包日调用量突破16.4万亿次;6)法国Mistral发布推理模型Magistral;7)苹果系统整合ChatGPT图像生成功能;8)OpenAI大幅下调o3价格80%并推出o3-pro;9)Hugging Face开源榜单显示中国团队Qwen与DeepSeek进入全球前15;10)阿里开源MaskSearch框架,提升AI解决复杂问题能力。

  • 必应引入OpenAI的Sora视频生成器,完全免费使用

    微软表示:“Bing 视频生成器体现了我们让 AI 视频创作变得全民可及的努力。我们相信,创造力应当轻松且人人可用,从而助力你的探索与表达。”

  • AI日报:腾讯混元3D 2.1大模型开源;字节跳动AI Lab负责人李航卸任;OpenAI Codex 全新升级

    本文介绍了AI领域最新动态:1)腾讯开源混元3D2.1大模型,提升3D生成质量;2)OpenAI Codex升级,优化代码生成功能;3)字节跳动AI Lab负责人李航卸任;4)微软发布700个AI应用案例;5)微软推出Code Researcher工具,解决58%系统崩溃问题;6)Observer AI实现屏幕操作自动化;7)Genspark发布AI浏览器;8)麻省理工用AI技术3.5小时修复15世纪名画;9)蚂蚁集团推出开源多模态GPT-4o模型Ming-Omni;10)MagicTryOn视频换衣框架;11)字节跳动发布实时互动AI视频生成模型Seaweed APT2;12)ChatGPT搜索功能升级;13)字节跳动与老凤祥合作开发AI智能眼镜。

  • AI日报:MiniMax推视频生成模型Hailuo 02;Cursor Pro取消500次请求限制;谷歌发布AI模型 Gemini 2.5 Flash-Lite

    本文汇总了AI领域最新动态:1)Cursor Pro取消500次请求限制;2)稀宇科技推出视频生成模型Hailuo02;3)谷歌发布轻量级AI模型Gemini2.5Flash-Lite;4)科大讯飞星火X1升级版7月上线;5)腾讯元宝推出AI编程模式;6)OpenAI将下架GPT-4.5 API;7)苹果Speech API转录速度超Whisper 55%;8)百度推出数字人互动直播间;9)Meta曾试图高薪挖角OpenAI人才;10)Krea1公测开放,解决"AI感"问题;11)特斯拉Grok车载AI助手即将上线;12)谷歌Gemini新增视频分析功能。

  • AI日报:通义千问开源Qwen3向量模型;字节跳动图像编辑模型SeedEdit 3.0;ElevenLabs推v3语音模型

    本文汇总了近期AI领域的重要动态:1)通义千问发布Qwen3-Embedding系列模型,在多语言文本处理表现优异;2)字节跳动推出图像编辑模型SeedEdit3.0,提升细节保持能力;3)ElevenLabs发布情感语音合成系统Eleven v3 Alpha;4)Anthropic推出面向国家安全的Claude Gov模型;5)可灵AI月收入连续两月超1亿元;6)Meta公布智能眼镜Aria Gen2技术细节;7)爱诗科技上线AI视频工具"拍我AI";8)富国银行预测2030年ChatGPT广告收入将达千亿美元。

  • AI日报:阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • AI日报:MiniMax-M1开源;阿里Qwen3升级版适配苹果MLX架构;月之暗面发布新模型Kimi-Dev-72B

    《AI日报》汇总了近期AI领域多项重要进展:1)月之暗面推出开源编程模型Kimi-Dev-72B,在软件工程任务测试中创下新纪录;2)MiniMax开源M1模型,支持超长上下文推理且训练成本低;3)腾讯发布AI音乐模型LeVo,支持音色克隆和分轨生成;4)阿里云Qwen3升级版适配苹果MLX架构;5)豆包推出"AI播客"功能,可将PDF转为对话播客;6)夸克App上线个性化AI家教"夸克老师";7)松下发布多模态大模型OmniFlow,实现文本/图像/音频自由切换;8)TikTok推出三款AI视频创作工具;9)极氪与火山引擎合作,将豆包大模型接入智能座舱系统;10)Meta的Llama3.1模型在文本记忆方面表现突出;11)Grok上线定时追踪X热门话题功能;12)Gemini2.5Pro即将更新Deep Think功能;13)谷歌地图引入AI技术升级导航和个性化推荐功能。

  • AI日报:DeepSeek开源新版R1-0528;字节发布图像Agent小云雀AI;可灵2.1重磅上线

    本期AI日报聚焦多项AI领域突破:1)DeepSeek发布R1-0528模型,支持128K上下文且性能媲美GPT-4;2)字节推出"小云雀AI"图像创作工具;3)可画2.1版本价格降65%性能提升;4)Opera发布全球首款AI浏览器Neon;5)Meta推出多模态空间理解模型;6)北大团队研发ZeroSearch框架降低大模型训练成本88%;7)字节推出AI视频剪辑应用"剪小映";8)MotionPro实现40ms/帧精准视频控制;9)xAI与Telegram达成3亿美元合作部署Grok聊天机器人;10)OpenAI重组架构为IPO铺路;11)像素蛋糕"方糖大模型"获国内首个影像行业备案;12)Paper2Poster实现论文自动转海报;13)Resemble AI开源TTS模型性能比肩ElevenLabs;14)蚂蚁集团开源对标GPT-4o的多模态模型Ming-lite-omni。

  • AI日报:阿里云通义灵码AI IDE上线;小米多模态大模型Xiaomi MiMo-VL开源;黑森林实验室推出FLUX.1Kontext

    【AI日报】今日AI领域重要动态:1)阿里云推出通义灵码AI IDE,集成千问3模型,显著提升编程效率;2)小米开源多模态大模型MiMo-VL-7B,性能超越更大规模闭源模型;3)黑森林实验室发布FLUX.1Kontext图像生成模型,支持文本和参考图像多次编辑;4)Midjourney V7渲染速度提升40%,新增用户投票功能;5)DeepSeek R1-0528大模型在AGI领域取得突破,性能超越xAI等公司;6)Hugging Face进军机器人市场,推出开源人形机器人HopeJR;7)字节跳动火山方舟接入DeepSeek最新大模型;8)Anthropic开源"电路追踪"工具,揭示大模型决策过程;9)阿里巴巴开源自主搜索AI智能体WebAgent;10)Hume发布低延迟语音语言模型EVI3;11)Manus Slides支持一键生成专业幻灯片;12)Runway Gen-4 References支持手机照片艺术化处理。