首页 > 原创 > 关键词  > Lumi最新资讯  > 正文

AI日报:字节推AI模型社区平台炉米Lumi;神秘大模型“小熊猫”身份揭晓;ChatGPT语音模式登陆Mac

2024-10-31 15:20 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、字节跳动推出AI模型社区平台:炉米Lumi 类似Liblib和CIvitai

字节跳动最新推出的AI模型分享社区平台炉米Lumi,展示其在AI领域的全面布局策略。平台提供模型上传分享、Workflow搭建和LoRA训练功能,目前仅向白名单用户开放。与LiblibAI相似,炉米Lumi将成为字节跳动在AI领域的重要布局。

image.png

【AiBase提要:】

🚀 炉米Lumi是字节跳动最新推出的AI模型分享社区平台,提供模型上传分享和训练功能。

💡 与LiblibAI功能定位相似,炉米Lumi展示了字节跳动在AI领域的全面布局策略。

💥 字节跳动在AI领域已有广泛布局,包括大模型、ChatBot、AI社交、AI虚拟陪伴等多个领域。

产品入口:https://top.aibase.com/tool/lumilumi

2、神秘大模型“小熊猫”身份揭晓:英国AI公司最新图像生成模型Recraft V3

我对最新揭晓的英国AI公司Recraft V3图像生成模型进行了点评。该模型以red_panda化名引起关注,具备强大的长文本图像生成能力,突出的文本布局和样式控制功能让用户可以精确创造专业品质的视觉效果。

image.png

【AiBase提要:】

🔍 Recraft V3实为英国AI初创公司Recraft AI推出的最新图像生成模型,以red_panda身份引发关注。

💡 Recraft V3在Artificial Analysis排行榜上以1172的ELO评分领先其他模型,收获超过10万次投票。

🚀 Recraft V3具备强大的长文本图像生成能力,增强的文本布局和样式控制功能,特别适用于品牌推广、营销和复杂图形设计领域。

详情链接:https://www.recraft.ai/

3、OpenAI宣布ChatGPT高级语音模式登陆Windows和Mac平台

OpenAI今日宣布,ChatGPT的高级语音模式(AVM)正式登陆Windows和Mac平台,基于GPT-4o模型开发,提供更自然的实时对话交互体验。用户反馈良好,但部分地区暂时无法使用。系统新增五种语音选项,支持打断和停顿,满足用户更接近人际交流的需求。AI回答准确率高,用户满意度达96%。ChatGPT还推出网页版聊天历史搜索功能,持续突破语音交互技术领域,市场推广效果待观察。

【AiBase提要:】

🔊 ChatGPT的高级语音模式(AVM)正式登陆Windows和Mac平台,提供更自然的实时对话交互体验。

🌐 系统新增五种语音选项,支持打断和停顿,满足用户更接近人际交流的需求。

💬 用户反馈良好,AI回答准确率高,用户满意度达96%。ChatGPT还推出网页版聊天历史搜索功能,持续突破语音交互技术领域。

4、专为苹果AI而生!苹果宣布推出M4Max芯片

苹果公司最新推出的M4Pro和M4Max芯片为Mac电脑带来显著性能提升和先进功能。这些芯片采用领先的制程工艺,优化了性能和能效,为专业和AI任务提供优异表现。

【AiBase提要:】

🚀 M4系列芯片采用第二代3纳米制程工艺,提升性能和能效。

💻 M4Pro和M4Max芯片支持雷雳5和统一内存带宽提升,为Mac带来更强大的功能和速度。

🧠 M4、M4Pro和M4Max芯片搭载神经网络引擎和机器学习加速器,为用户带来全新的智能化体验。

5、OpenAI 重磅升级实时 API:除了降价超50%,还推五种新语音

OpenAI 最新更新了实时 API,推出五种新的语音选项,降低了缓存费用,提供更经济实惠的开发体验。新语音包括生动可调节的 Ash、Verse 和英国风格的 Ballad,提供更自然的交流体验。然而,实时 API仍在测试阶段,无法提供客户端身份验证,且网络条件影响音频处理可靠性。开发者可通过降价和缓存功能吸引更多用户使用。

image.png

【AiBase提要:】

🌟 新增五种自然语音,提升语音应用体验

💰 实时 API通过缓存降低输入费用,开发者更划算

⚡ 实时音频处理受网络条件影响,可靠性需关注

6、好莱坞黑科技!Wonder Dynamics发布视频转3D功能

Wonder Dynamics发布了颠覆性的AI工具Wonder Animation测试版,利用人工智能重新定义影视制作流程。这项技术让创作者可以轻松转换素材为包含CG角色的3D动画场景,实现完整虚拟场景编辑。

【AiBase提要:】

✨ 创作者可使用任何相机、在任何场地拍摄,通过AI转换为3D动画场景

🎬 强大的场景重建能力,精确还原摄像机与角色、环境的位置关系和运动轨迹

🚀 让艺术家保持创作控制权,更容易制作全动画电影

详情链接:https://top.aibase.com/tool/wonder-dynamics

7、谷歌重磅升级AI语音技术:2分钟对话3秒生成,将彻底改变人机交互方式

谷歌最新发布的语音生成技术再次刷新了业界标准,突破性技术能在3秒内生成长达2分钟的自然对话,确保多说话人之间的语音连贯性和音质表现。该技术已在多个谷歌产品中得到应用,全球范围内改变着人们与数字助手和AI工具的交互方式。

【AiBase提要:】

✨ 高效语音编解码器,每秒600比特低比特率下压缩音频,保持高质量输出。

🔍 专门的Transformer架构,处理信息层次结构,预训练并微调在高质量对话数据集上。

🌐 SynthID技术整合,为AI生成的音频内容添加水印,确保技术负责任使用。

详情链接:https://deepmind.google/discover/blog/pushing-the-frontiers-of-audio-generation/

8、面壁智能与百度智能云达成合作

面壁智能与百度智能云宣布战略合作,共同致力于开发大模型端云协同解决方案。合作将提升大模型在智能终端、边缘计算等应用场景中的效果,降低推理成本,提升响应速度,提高用户体验和业务效率。面壁智能发布MiniCPM3.0和MiniCPM-V2.6,实现对GPT系列的赶超,引发国内外高度关注。

image.png

【AiBase提要:】

🤝 合作共同开发大模型端云协同解决方案,提升模型效果、降低成本、提高响应速度。

🚀 发布MiniCPM3.0,4B模型参数规模赶超GPT-3.5,在多领域脱颖而出。

💡 发布MiniCPM-V2.6,全面对标GPT-4V级水平,实现实时视频、多图联合理解,引发国内外关注。

9、19年亏损终结!Reddit CEO发文感谢AI帮助网站首度盈利

Reddit 经过19年的亏损,终于在上市后迎来了利润。第三季度净收入达到2990万美元,营收348.4亿美元,同比增长68%。CEO 哈夫曼表示,人工智能是实现盈利的关键。未来计划加速产品路线图,提升用户搜索体验。

【AiBase提要:】

🌟 Reddit 首次实现盈利,第三季度净收入2990万美元。

📈 用户增长显著,日活跃用户数达9700万,多次突破1亿。

🤖 人工智能助力翻译功能扩展,预计到2025年将覆盖30个国家。

10、波士顿动力新款Atlas机器人:全电动、完全自主,成功完成复杂任务

波士顿动力公司发布了新一代人形机器人Atlas的精彩视频,展示了其在模拟工厂环境中独立完成分拣任务的能力。视频强调了Atlas利用机器学习和升级传感器实现实时环境反馈与调整的特点,展示了完全自主工作能力。

【AiBase提要:】

🤖 波士顿动力展示了全电动Atlas机器人,能够独立完成复杂的分拣任务。

🔧 Atlas利用机器学习和升级传感器,实现了实时的环境反馈与调整。

💡 视频中显示“完全自主”的水印,强调了其在最少人类干预下的工作能力。

11、清华大学推出突破性音源仿真平台SonicSim

清华大学研究团队发布了名为SonicSim的移动音源仿真平台,解决了语音处理领域移动声源场景下数据缺乏的难题。该平台模拟真实声学环境,为语音分离和增强模型提供优质数据支持。SonicSim有效解决了现有数据集难以满足移动声源场景需求的问题。

【AiBase提要:】

🔊 SonicSim平台基于Habitat-sim构建,模拟真实声学环境

🎙 SonicSet数据集使用多场景移动音源数据,确保数据真实性和多样性

🚀 在SonicSet数据集上训练的模型取得更优异性能,证明SonicSim有效模拟真实声学环境

详情链接:https://arxiv.org/pdf/2410.01481

12、百川智能发布一站式解决方案 帮助企业最低成本私有化部署模型

百川智能科技推出的一站式解决方案旨在帮助企业以低成本实现大模型的私有化部署,并提高效率。该解决方案包括全链路优质通用训练数据、Baichuan4-Turbo和Baichuan4-Air两款模型,以及全链路领域增强工具链,能够满足企业在不同场景下的需求。

【AiBase提要:】

🔑 高达96%的多场景可用率,领先行业

🚀 Baichuan4-Turbo在核心能力上有显著提升,部署成本低

💡 Baichuan4-Air采用MoE模型,推理成本极低,降低企业运营成本

详情链接:https://platform.baichuan-ai.com/homePage

举报

  • 相关推荐
  • AI日报: ChatGPT免费开放记忆功能;华为WATCH 5智能手表接入双大模型;Claude Pro升级重磅功能

    本期AI日报主要报道了多项AI领域重要进展:1)OpenAI向所有ChatGPT用户免费开放记忆功能;2)蚂蚁集团推出"AI健康管家",服务4000万用户;3)Anthropic与DeepLearning.AI合作推出免费MCP课程;4)谷歌DeepMind开发无需3D模型即可生成逼真运动视频的新技术;5)Exa与OpenRouter合作为400+大模型提供实时网络搜索功能;6)中国知网推出CNKI AI学术研究助手;7)Anthropic推出Claude Explains博客项目;8)Claude Pro新增研究模式和远程MCP整合功能;9)Fish Audio发布基于200万小时数据训练的OpenAudio S1语音模型;10)OpenAI升级Codex编程工具;11)华为WATCH5接入盘古和DeepSeek双大模型。

  • AI日报:ChatGPT支持MCP和会议记录功能;Cursor 1.0 版本重磅发布;Midjourney视频功能将在本月上线

    本期AI日报聚焦多项AI领域突破:1)OpenAI为ChatGPT新增企业数据连接和会议记录功能;2)Cursor 1.0发布集成BugBot等开发工具;3)Midjourney即将推出视频生成功能;4)秘塔AI搜索新增PPT导出功能;5)Manus推出文本生成视频工具挑战Sora;6)法国Mistral发布企业级编程助手;7)英伟达推出文档处理专用AI模型;8)腾讯公益引入大模型提升互动体验;9)Firecrawl推出网页抓取API工具;10)Bland AI实现超真实语音克隆;11)报告显示AI训练成本逼近百亿美元;12)开源设计工具Jaaz支持批量图像生成;13)《逆水寒》手游接入AI实现图片动效玩法。

  • AI日报:美团No Code平台免费开放;豆包App升级“一句话P图”功能;苹果Xcode 26内置ChatGPT等AI功能

    本文介绍了AI领域多项重要进展:1)美团推出No Code平台和1680个AI应用;2)豆包App升级"一句话P图"功能;3)苹果发布内置ChatGPT的Xcode26开发工具;4)iOS26新增视觉智能功能;5)讯飞星火X1升级版即将发布;6)比亚迪接入阿里通义大模型;7)DeepSeek支持本地工具调用;8)开源框架Rowboat支持快速构建智能助手;9)X平台整合Grok AI优化内容推荐;10)港科大开发进化搜索技术提升小模型图像生成能力;11)硅基流动完成数亿元融资;12)港大与英伟达合作开发新型视觉注意力机制。这些创新展示了AI技术在各领域的快速发展和应用突破。

  • 与 ChatGPT 一起“越陷越深”

    ChatGPT 似乎正在让一些用户走上妄想甚至阴谋论的道路,或者说,至少在某种程度上强化了这类思维模式……

  • AI日报:MiniMax推视频生成模型Hailuo 02;Cursor Pro取消500次请求限制;谷歌发布AI模型 Gemini 2.5 Flash-Lite

    本文汇总了AI领域最新动态:1)Cursor Pro取消500次请求限制;2)稀宇科技推出视频生成模型Hailuo02;3)谷歌发布轻量级AI模型Gemini2.5Flash-Lite;4)科大讯飞星火X1升级版7月上线;5)腾讯元宝推出AI编程模式;6)OpenAI将下架GPT-4.5 API;7)苹果Speech API转录速度超Whisper 55%;8)百度推出数字人互动直播间;9)Meta曾试图高薪挖角OpenAI人才;10)Krea1公测开放,解决"AI感"问题;11)特斯拉Grok车载AI助手即将上线;12)谷歌Gemini新增视频分析功能。

  • AI日报:阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • AI日报:昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

    本文介绍了AI领域最新动态:1)昆仑万维推出全球首款AI+Agent架构的Office智能体应用;2)研究显示ChatGPT能提升K12学生成绩近87%;3)谷歌视频生成工具Veo3扩展至更多地区;4)谷歌发布三款Gemma模型变体,覆盖医疗、手语翻译和海豚语言研究;5)VideoTutor实现一句话生成定制教学视频;6)字节跳动开源多模态模型BAGEL;7)Rork支持无代码开发iOS/Android应用;8)AingDesk降低AI助手开发门槛;9)Claude4登陆亚马逊Bedrock平台;10)Youware通过MCP协议提升网页生成能力。这些创新展示了AI技术在各领域的快速发展和应用潜力。

  • AI日报:阿里云通义灵码AI IDE上线;小米多模态大模型Xiaomi MiMo-VL开源;黑森林实验室推出FLUX.1Kontext

    【AI日报】今日AI领域重要动态:1)阿里云推出通义灵码AI IDE,集成千问3模型,显著提升编程效率;2)小米开源多模态大模型MiMo-VL-7B,性能超越更大规模闭源模型;3)黑森林实验室发布FLUX.1Kontext图像生成模型,支持文本和参考图像多次编辑;4)Midjourney V7渲染速度提升40%,新增用户投票功能;5)DeepSeek R1-0528大模型在AGI领域取得突破,性能超越xAI等公司;6)Hugging Face进军机器人市场,推出开源人形机器人HopeJR;7)字节跳动火山方舟接入DeepSeek最新大模型;8)Anthropic开源"电路追踪"工具,揭示大模型决策过程;9)阿里巴巴开源自主搜索AI智能体WebAgent;10)Hume发布低延迟语音语言模型EVI3;11)Manus Slides支持一键生成专业幻灯片;12)Runway Gen-4 References支持手机照片艺术化处理。

  • AI日报:豆包大模型1.6发布;OpenAI推o3-pro模型、o3价格暴降80%;Figma官方MCP重磅上线

    【AI日报】今日AI领域重要动态:1)火山引擎发布豆包大模型1.6和视频生成模型Seedance1.0pro,性能显著提升;2)OpenAI推出o3-pro模型,专注可靠性但响应较慢;3)Figma推出Dev Mode MCP服务,实现设计到代码一键转换;4)Krea AI发布图像生成模型Krea1,解决传统AI绘图问题;5)火山引擎豆包日调用量突破16.4万亿次;6)法国Mistral发布推理模型Magistral;7)苹果系统整合ChatGPT图像生成功能;8)OpenAI大幅下调o3价格80%并推出o3-pro;9)Hugging Face开源榜单显示中国团队Qwen与DeepSeek进入全球前15;10)阿里开源MaskSearch框架,提升AI解决复杂问题能力。

  • AI日报:夸克发布首个高考志愿大模型;Trae月活跃用户破100万;Manus推出免费无限聊天模式

    【AI日报】今日AI领域热点速览: 1. 夸克APP推出高考志愿大模型,免费提供个性化填报指导 2. Manus AI开放免费无限聊天模式,挑战行业巨头 3. Trae开发者平台月活破百万,累计交付60亿行代码 4. 迪士尼环球起诉Midjourney侵犯影视版权 5. 维基百科暂停AI生成摘要实验 6. 360发布"纳米AI超级搜索智能体",内置80多款大模型 7. PartCrafter项目实现单张图片生成高精度3D模型 8. Meta推出AI视频编辑工具,支持50多种预设效果 9. 阿里工程师放弃春节假期全力追赶DeepSeek技术 10. 火山引擎发布PromptPilot智能提示优化平台 11. OpenAI洽谈400亿美元融资,拓展AI生态系统 12. 新一代o3-pro推理模型发布并调整API定价策略