11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
本期AI日报聚焦多项AI领域创新:1)阿里开源Qwen-Image-Edit图像编辑模型,支持中文渲染与精准文本编辑;2)淘宝测试"AI万能搜"功能,重构电商搜索体验;3)小红书发布DynamicFace人脸生成技术,实现高质量图像视频换脸;4)Gemini API新增URL Context功能,简化网页内容获取流程;5)Nvidia推出小型开放模型Nemotron-Nano-9B-v2,支持智能推理开关;6)马斯克发布Grok Imagine 0.1测试版,进军AI图像生成领域;7)Vercel推出iOS版AI开发工具v0;8)理想汽车发布MindGPT 3.1模型,处理速度提升5倍;9)ToonComposer工具简化动画制作流程;10)ElevenLabs推出视频到音乐生成流程。
【AI日报】汇总了近期AI领域重要进展:1)月之暗面推出Kimi Playground平台,实现从对话助手到智能助理的转变;2)OpenAI发布ChatGPT Agent,支持自主执行浏览、购物等任务;3)Suno发布v4.5+版本,新增人声替换等音乐创作功能;4)谷歌Veo3视频生成模型上线,支持文本转视频;5)全球首个直播流扩散模型MirageLSD发布,实现实时视频转换;6)VSCode编程助手Traycer提升大型代码库处理效率;7)ART框架支持Python一键训练AI Agent;8)NVIDIA语音识别模型Canary-Qwen-2.5B词错率创新低;9)Mistral AI推出Le Chat挑战ChatGPT;10)百度小度上线首个支持物理交互的MCP Server;11)Lightricks的LTXV模型实现60秒高质量视频生成;12)开源模型LTX-Video13B支持30倍速高清视频生成。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、Anthropic旗下ClaudeAI推出桌面客户端Anthropic公司推出了AI聊天机器人Claude的桌面应用程序,提升用户体验,使用户能更便捷地与Claude互动。12、谷歌地图终于开挂!Gemini加持解锁多项神
【新智元导读】Mistral7B诞生一周年之际,法国AI初创公司Mistral再次连发两个轻量级模型Ministral3B和Ministral8B,性能赶超Llama38B。Mistral7B仅仅发布一周年,法国AI初创小模型「lesMinistraux」就打败它了。对于Mistral也是如此,若要持续打造优秀的模型,只有这一种选择。
微软下一代SurfaceLaptop的原型机在闲鱼上被提前泄露,这款未发布的设备在外观上与当前型号相似。最大的不同就是,该原型机搭载了英特尔最新的酷睿Ultra7268V处理器,目前的SurfaceLaptop7仅有骁龙XPlus/Elite处理器版本,如果想要英特尔芯片,只能选择上代产品。因此为那些尚未准备好转用ARM上的Windows的用户提供更多选择,扩大现有产品阵容是微软的必然之举。
【新智元导读】o1模型发布1周,lmsys的6k投票就将o1-preview送上了排行榜榜首。为了满足大家对模型「IOI金牌水平」的好奇心,OpenAI放出了o1测评时提交的所有代码。这位网友还表示,o1基本沿用了GPT-4的架构;那你想,改换架构后的GPT-5能达到什么高度。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、谷歌推定制化聊天机器人“Gem”,让你创建专属AI虚拟助手谷歌正式推出Gemini订阅用户可定制聊天机器人Gem,满足个性化需求。该工具简化了演示文稿的创建和编辑过程,适用于PowerPoint和GoogleSlides等主流平台。
LLama3-V模型正式发布,这是一种全新的SOTA开源VLM模型。LLama3-V不仅优于LLaVA在与GPT4-V、GeminiUltra、ClaudeOpus相比的性能表现上也不逊色,同时模型体积只有它们的1/100。这一消息让人兴奋不已,相信随着LLama3-V的问世,将会给人工智能领域带来全新的发展和突破。
面壁智能推出了最新一代端侧多模态模型MiniCPM-Llama3-V2.5,这款模型具有超强的综合性能,能够超越GeminiPro和GPT-4V等多模态巨无霸。MiniCPM-Llama3-V2.5在OCR方面取得了SOTA的成绩,能够精准识别难图、长图和长文本。MiniCPM-Llama3-V2.5展现出了强大的多模态综合能力,为端侧AI模型的发展带来了新的突破。
一种名为DynamicTypography的创新“动态排版”技术,正在为文本表达开辟新天地。这项技术通过视频扩散先验,将文本字母转化为动画,从增强语义表达和动态效果。利用向量图形技术,动画在任何分辨率下都能保持高质量,同时用户可以轻松调整文本样式。