首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:即梦灰测图片3.1模型;ElevenLabs推出AI语音助理11ai;百度发布多智能体协同AI IDE

2025-06-24 16:39 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、细节控!即梦灰测图片3.1模型 电影感增强,风格化艺术感更强

即梦灰测的图片3.1模型,相比3.0版本,3.1模型在生成图片时表现出更强的电影感和故事感,场景更加丰富。对于艺术类提示词的响应效果也更好,比如在生成小女孩特写照片时,3.1模型的皮肤细节和环境氛围都更出色。此外,3.1模型在风格化艺术感上也有显著提升,能够更准确地识别和表达特定的视觉特征。然而,对于需要高度一致性的用户来说,3.0模型可能仍然更合适。目前3.1模型还在灰测中,预计很快会全量上线。

image.png

【AiBase提要:】

🎭3.1模型在艺术风格化上表现更精准,视觉特征更明确。

🖼️3.1模型生成的图片细节更真实,如皮肤、毛发和材质纹理。

🎬3.1模型增强了电影感和故事感,场景更丰富。

2、ElevenLabs隆重推出AI语音助理11ai:语音优先并支持集成MCP

ElevenLabs推出的11ai,它以语音优先的设计理念,结合强大的多语言支持和MCP协议,为用户提供了高度个性化的生产力工具。

【AiBase提要:】

🗣️11ai以语音交互为核心,支持超过5000种声音和自定义专属语音。

🔄 支持MCP多通道协议,可集成多种工具实现高度个性化工作流。

🌐 支持70多种语言,具备自动检测功能,适合全球市场应用。

3、文心快码发布多模态、多智能体协同AI IDE“Comate AI IDE”

文心快码发布Comate AI IDE,这是一款多模态、多智能体协同的AI开发工具,能够显著提高开发效率和编程体验。

image.png

【AiBase提要:】

🧠 AI辅助编码全流程,提升开发效率。

🌐 多智能体协同,支持自定义任务。

🎨 设计稿一键转代码,增强前端开发体验。

详情链接:https://comate.baidu.com/zh/download

4、苹果利用 “归一化流” 技术推出创新 AI 生图模型

苹果公司最新发布的论文,他们采用了归一化流技术来开发AI生图模型,这与传统扩散模型不同。TarFlow和STARFlow模型在图像生成方面有显著改进,特别是在处理文本提示时更加灵活高效。

image.png

【AiBase提要:】

🖼️ TarFlow 模型通过拆分图像块生成,避免了压缩造成的质量损失。

🚀 STARFlow 在潜空间工作,并支持调用现有语言模型优化文本提示处理。

🌟 苹果采用 “归一化流” 技术开发新的 AI 生图模型,区别于传统的扩散模型。

5、Grok Web即将推出“文件”选项卡,整合多类型文件管理

Grok Web即将推出的‘文件’选项卡,它将为用户提供一站式文件管理体验,整合图像、电子表格、文本和代码等多种文件类型,显著提升工作效率与便捷性。这一功能将简化文件管理流程,为专业人士和开发者提供直观的体验。

image.png

【AiBase提要:】

🖼️整合多种文件类型,提升工作效率。

💻提供统一界面,便于浏览、创建和编辑文件。

🚀增强功能性,满足多样化工作需求。

6、从文本生成到指令编辑 OmniGen2重塑开源多模态模型应用场景

VectorSpaceLab在Hugging Face平台开源全能多模态模型OmniGen2的创新举措。这款模型通过双组件架构和强大的视觉处理能力,为研究者和开发者提供了高效的可控生成式AI基础工具,展示了其在视觉理解、文本生成图像、指令引导图像编辑和上下文生成四大核心场景中的领先性能。

image.png

【AiBase提要:】

🧠 双组件架构结合视觉语言模型和扩散模型,实现高效可控生成式AI。

🎨 文本生成图像功能支持高保真、符合美学标准的图像生成。

🖼️ 指令引导图像编辑性能达到开源模型前沿水平,可完成复杂修改任务。

详情链接:https://huggingface.co/OmniGen2/OmniGen2

7、ScholAI重磅来袭!基于MCP的智能学术神器,革新论文研究新体验

ScholAI这款智能学术研究工具,它集成了论文查找、分析、管理、CCF排名查询及语义查询分析等功能,为研究人员提供了高效、智能的解决方案。其多源论文搜索和语义查询功能让我印象深刻,极大地提升了我的研究效率。

image.png

【AiBase提要:】

📚 多源论文搜索:支持从arXiv、专业会议及期刊等多个权威学术平台检索论文,覆盖计算机科学、生物医学等多个学科领域。

📊 自动获取CCF排名:内置CCF排名查询功能,用户可快速了解目标期刊或会议的学术影响力,助力投稿决策。

🧠 语义查询分析:通过自然语言处理技术,理解用户研究兴趣,精准匹配相关论文,提升检索效率。

详情链接:https://github.com/oDaiSuno/ScholAI

8、告别代码恐惧症!豆包推出可视化AI编程,拖拽即可创建网页应用

豆包推出的可视化AI编程功能,它让编程变得更加简单和直观,即使是没有任何编程经验的人也能轻松创建网页应用。这种创新不仅降低了编程门槛,还为更多人提供了使用AI辅助开发的机会。

image.png

【AiBase提要:】

🧩 豆包推出可视化AI编程功能,用户可直接在预览界面编辑网页应用。

⚙️ 该功能降低了编程门槛,使非技术背景用户也能快速搭建网页应用。

🚀 豆包的AI编程功能已支持多文件上传、GitHub仓库引入等专业功能。

9、饿了么推出智能AI助手 “小饿”,骑手工作更轻松

饿了么推出的AI助手“小饿”确实为骑手们带来了极大的便利。它不仅简化了工作流程,还提升了配送的安全性和效率。通过语音控制和智能分析,骑手们能够更专注于配送任务,而无需担心繁琐的操作。此外,“带教师傅”功能也为新手骑手提供了很好的支持,帮助他们更快适应工作。

image.png

【AiBase提要:】

🤖 通过语音唤醒“小饿”,骑手可轻松完成接单、确认到店等操作。

🌤️ 实时分析骑手位置和订单状态,主动推送天气预警和路线封路提示。

📈 根据历史数据和订单热力图,提供收入预估和优化接单策略的建议。

10、张雪峰直言:AI 能取代我最好!教育博主对未来充满信心

张雪峰在直播中表达了对AI发展的乐观态度,认为AI可以取代部分工作,但教育工作者仍需与考生和家长沟通,以更好地利用AI工具。

【AiBase提要:】

🧠 张雪峰表示:“能被取代 最好 !” 反映出他对 AI 的乐观态度。

🚀 AI 在高考志愿填报中取得了显著进展,但仍面临挑战。

🤝 教育工作者需与考生和家长加强沟通,帮助他们更好地运用 AI 工具。

11、微软重磅发布设备端小模型 Mu:3.3 亿参数小模型 Windows11 设置 AI 助手的智能引擎

微软推出 Mu 语言模型,为 Windows11 设置应用提供智能 AI 代理,实现自然语言交互,提升用户体验。

【AiBase 提要:】

✨ Mu 模型拥有 3.3 亿参数,专为简化 Windows 设置设计。

⚡ 高效本地处理,响应速度快,降低隐私风险。

🚀 未来将支持更多硬件平台,扩展用户群体。

举报

  • 相关推荐
  • AI日报:通义千问开源Qwen3向量模型;字节跳动图像编辑模型SeedEdit 3.0;ElevenLabs推v3语音模型

    本文汇总了近期AI领域的重要动态:1)通义千问发布Qwen3-Embedding系列模型,在多语言文本处理表现优异;2)字节跳动推出图像编辑模型SeedEdit3.0,提升细节保持能力;3)ElevenLabs发布情感语音合成系统Eleven v3 Alpha;4)Anthropic推出面向国家安全的Claude Gov模型;5)可灵AI月收入连续两月超1亿元;6)Meta公布智能眼镜Aria Gen2技术细节;7)爱诗科技上线AI视频工具"拍我AI";8)富国银行预测2030年ChatGPT广告收入将达千亿美元。

  • AI日报:通义千问3大模型全球爆火;即梦图片3.0智能参考全量上线;智谱AI企业级超级助手Agent CoCo上线

    【AI日报】今日AI领域重要动态:1.通义千问3大模型全球下载量超1250万,衍生模型13万+;2.即梦图片3.0上线,AI设计进入"零门槛"时代;3.智谱AI发布企业级超级助手Agent CoCo;4.百度推出金融行业大模型"千帆慧金";5.小红书开源首个大模型dots.llm1,含1420亿参数;6.Hugging Face开源LeRobot项目,降低机器人研发门槛;7.ChatGPT语音功能升级,支持更自然对话翻译;8.Google Gemini应用下载量超ChatGPT但活跃度不足;9.轻量级文档解析模型MonkeyOCR表现优异;10.Google Veo3推出高速视频生成模式;11.Google调整AI Studio政策,限制Gemini2.5Pro免费访问。

  • AI日报:腾讯混元3D 2.1大模型开源;字节跳动AI Lab负责人李航卸任;OpenAI Codex 全新升级

    本文介绍了AI领域最新动态:1)腾讯开源混元3D2.1大模型,提升3D生成质量;2)OpenAI Codex升级,优化代码生成功能;3)字节跳动AI Lab负责人李航卸任;4)微软发布700个AI应用案例;5)微软推出Code Researcher工具,解决58%系统崩溃问题;6)Observer AI实现屏幕操作自动化;7)Genspark发布AI浏览器;8)麻省理工用AI技术3.5小时修复15世纪名画;9)蚂蚁集团推出开源多模态GPT-4o模型Ming-Omni;10)MagicTryOn视频换衣框架;11)字节跳动发布实时互动AI视频生成模型Seaweed APT2;12)ChatGPT搜索功能升级;13)字节跳动与老凤祥合作开发AI智能眼镜。

  • AI日报:阿里云通义灵码AI IDE上线;小米多模态大模型Xiaomi MiMo-VL开源;黑森林实验室推出FLUX.1Kontext

    【AI日报】今日AI领域重要动态:1)阿里云推出通义灵码AI IDE,集成千问3模型,显著提升编程效率;2)小米开源多模态大模型MiMo-VL-7B,性能超越更大规模闭源模型;3)黑森林实验室发布FLUX.1Kontext图像生成模型,支持文本和参考图像多次编辑;4)Midjourney V7渲染速度提升40%,新增用户投票功能;5)DeepSeek R1-0528大模型在AGI领域取得突破,性能超越xAI等公司;6)Hugging Face进军机器人市场,推出开源人形机器人HopeJR;7)字节跳动火山方舟接入DeepSeek最新大模型;8)Anthropic开源"电路追踪"工具,揭示大模型决策过程;9)阿里巴巴开源自主搜索AI智能体WebAgent;10)Hume发布低延迟语音语言模型EVI3;11)Manus Slides支持一键生成专业幻灯片;12)Runway Gen-4 References支持手机照片艺术化处理。

  • AI日报:昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

    本文介绍了AI领域最新动态:1)昆仑万维推出全球首款AI+Agent架构的Office智能体应用;2)研究显示ChatGPT能提升K12学生成绩近87%;3)谷歌视频生成工具Veo3扩展至更多地区;4)谷歌发布三款Gemma模型变体,覆盖医疗、手语翻译和海豚语言研究;5)VideoTutor实现一句话生成定制教学视频;6)字节跳动开源多模态模型BAGEL;7)Rork支持无代码开发iOS/Android应用;8)AingDesk降低AI助手开发门槛;9)Claude4登陆亚马逊Bedrock平台;10)Youware通过MCP协议提升网页生成能力。这些创新展示了AI技术在各领域的快速发展和应用潜力。

  • AI日报:阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • AI日报:MiniMax发布视频智能体Hailuo Agent;昆仑万维开源 Skywork-SWE-32B;B站接入Qwen 3等模型

    本期AI日报聚焦多项AI领域创新:1)MiniMax推出视频Agent工具,支持文本生成高清视频及人脸驱动;2)昆仑万维开源Skywork-SWE-32B模型,提升软件工程任务表现;3)B站接入通义千问模型,推出数据分析智能体InsightAgent;4)ChatGPT深度整合Gmail与日历功能;5)腾讯云发布全链路AI开发平台"AI Builder";6)HeyGen推出UGC广告数字人功能;7)研究显示过度依赖AI或削弱批判性思维。此外还涵盖AI音乐生成、内容检测工具停运等动态,展现AI技术快速发展的多元应用与潜在影响。

  • 阿里云首款AI原生开发环境工具AI IDE上线:适配千问3 可调用3000多款工具

    AI IDE还全面支持长期记忆、行间建议预测(NES-Next Edit Suggestion)、行间会话(Inline Chat)等能力,为开发者带来更丝滑、更智能的编程体验。 据悉,在通义灵码AI IDE上线后,通义灵码拥有插件和IDE两种产品形态。 深度融入开发者工作流,实现从辅助编码到沉浸式智能开发的跨越,全面覆盖开发者的工作场景。

  • AI日报:DeepSeek开源新版R1-0528;字节发布图像Agent小云雀AI;可灵2.1重磅上线

    本期AI日报聚焦多项AI领域突破:1)DeepSeek发布R1-0528模型,支持128K上下文且性能媲美GPT-4;2)字节推出"小云雀AI"图像创作工具;3)可画2.1版本价格降65%性能提升;4)Opera发布全球首款AI浏览器Neon;5)Meta推出多模态空间理解模型;6)北大团队研发ZeroSearch框架降低大模型训练成本88%;7)字节推出AI视频剪辑应用"剪小映";8)MotionPro实现40ms/帧精准视频控制;9)xAI与Telegram达成3亿美元合作部署Grok聊天机器人;10)OpenAI重组架构为IPO铺路;11)像素蛋糕"方糖大模型"获国内首个影像行业备案;12)Paper2Poster实现论文自动转海报;13)Resemble AI开源TTS模型性能比肩ElevenLabs;14)蚂蚁集团开源对标GPT-4o的多模态模型Ming-lite-omni。

  • 月访问量超千万的AI图片产品,如何炼成

    作为与 AI 最容易产生化学反应的图片行业,在 AIGC 来临后最早起势,但同样面临竞争激烈、产品同质化等挑战,而在如今图片编辑细分方向几乎处于横盘的状态下,这类产品前路如何、团队如何维系用户基础、又怎样探索新的增长机会?在上个月的 GTC 全球流量大会上,我