AI日报：微软发布iPhone可运行AI模型；全国首例AI声音侵权案判了；Kimi创始人套现数千万美金；中文聊天模型Llama3发布

2024-04-23 15:57 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://top.aibase.com/

1、腾讯SaaS产品智能化升级全面接入混元模型

腾讯宣布旗下协作SaaS产品全面接入混元模型，实现软件服务智能化。腾讯乐享、腾讯电子签、腾讯问卷等产品已实现智能化升级，为用户提供更智能、高效的服务。混元大模型已扩展至万亿级参数规模，在国内率先采用混合专家模型结构，性能表现优异。外部开发者和企业可以通过腾讯云上API直接调用腾讯混元能力，解决用户痛点。

【AiBase提要:】
🚀 腾讯SaaS产品实现智能化升级，提供更智能、高效的服务。
💡 混元大模型扩展至万亿级参数规模，性能在多方面表现优异。
🔗 外部开发者和企业可通过腾讯云API调用混元能力，解决不同场景下的痛点。

2、微软发布iPhone可运行的ChatGPT级AI模型Phi-3系列挑战OpenAI地位

微软最新推出的Phi-3系列小型AI模型在AI领域引起轰动，尤其是Phi-3-mini模型在多项基准测试中超越了参数更大的Llama3模型。该系列模型能在iPhone14Pro和iPhone15上实现每秒12token的运行速度，达到了ChatGPT水平。微软强调训练数据的重要性，通过精心设计数据和训练方法提升模型性能。

【AiBase提要:】
🚀 Phi-3-mini模型参数仅3.8B，性能超越8B参数的Llama3模型。
💡 Phi-3系列包括Phi-3-small和Phi-3-medium版本，性能优越。
🔍 微软团队通过精心设计训练数据和独特训练方法提升了Phi-3系列模型的性能。
详情链接:https://arxiv.org/pdf/2404.14219.pdf

3、全国首例AI声音侵权案一审宣判自己声音被AI化出售获赔25万元

这篇文章报道了全国首例AI声音侵权案的一审判决结果，涉及配音师声音被AI技术滥用的案件引起社会广泛关注。法院裁定被告未经授权擅自使用配音师声音开发AI产品构成侵权，需赔偿25万元。判决强调声音作为人格权益应受法律保护，为声音创作者提供了重要法律保障。

【AiBase提要:】
🔍 首例AI声音侵权案一审判决结果：被告未经授权使用配音师声音开发AI产品，需赔偿25万元。
💡 法院强调声音作为独特人格权益应受法律保护，未经授权擅自使用声音构成侵权行为。
👩‍⚖️ 判决为声音创作者提供了重要法律保障，将坚决维护声音权益并打击侵权行为。

4、中文聊天模型Llama3-8B-Chinese-Chat发布

这篇文章介绍了基于Meta-Llama-3-8B-Instruct模型经过ORPO方法微调的中文聊天模型Llama3-8B-Chinese-Chat。该模型减少了中英混合回答和表情符号的使用，使得回答更正式和专业。它在理解中文问题意图、提供恰当回答、拒绝不当请求等方面表现出色。

【AiBase提要:】
🔑 Llama3-8B-Chinese-Chat是基于Meta-Llama-3-8B-Instruct模型通过ORPO方法微调的中文聊天模型，减少了中英混合回答和表情符号的使用。
🌟 ORPO方法利用赔率比概念调整模型偏好设置，优化模型在特定任务中的表现，Llama3-8B-Chinese-Chat模型使用ORPO优化中英文生成偏好。
💡 Llama3-8B-Chinese-Chat模型在安全、道德、数学问题解答、写作和编程示例等方面表现出色，提供更准确、专业的回答和示例代码。
详情链接:https://top.aibase.com/tool/llama3-8b-chinese-chat

5、Adobe发布视频超分辨率项目VideoGigaGAN

Adobe最近推出了视频超分辨率项目VideoGigaGAN，该项目在视频放大技术方面取得了显著进展，能将视频放大至原始分辨率的8倍，保持时间连贯性和高频细节清晰度。这一技术将视频处理带入新阶段，极大扩展了视频内容的应用范围和质量。

【AiBase提要:】
✨ VideoGigaGAN实现视频放大至8倍原始分辨率，保持时间连贯性和高频细节清晰度。
🔍 Adobe优化GigaGAN模型，增强视频稳定性，展示卓越性能。
💡 VideoGigaGAN提升视频视觉质量，适应不同风格视频内容，具有广泛的应用潜力。
详情链接:https://top.aibase.com/tool/videogigagan

6、Midjourney发布random功能可基于提示词生成完全随机的图像风格

Midjourney发布了一个有趣的功能，可以基于提示词生成完全随机的图像风格。用户可以通过随机生成的图像风格来探索不同的创作方向，同时还可以与其他用户进行实时交流和分享，共同探讨创作过程中的灵感和想法。这一功能的推出将进一步丰富用户的图像生成体验，为他们提供更多的创作选择和交流平台。

【AiBase提要:】
⚙️ 可基于提示词生成完全随机的图像风格
💬 用户可以通过Room功能进行实时交流和分享
🎨 探索不同的创作方向，丰富用户的图像生成体验

7、AI独角兽月之暗面创始人杨植麟套现数千万美金官方回应

杨植麟作为月之暗面创始人，通过个人股份销售套现数千万美元，引起广泛关注。公司成立仅一年便获得巨额融资，估值超过25亿美元。月之暗面的成功不仅在估值上体现，旗舰产品Kimi Chat的成功也备受瞩目。

【AiBase提要:】
🚀 月之暗面创始人杨植麟通过个人股份销售套现数千万美元，公司估值超过25亿美元。
💡 月之暗面创立仅一年便迅速崛起，成为中国大模型领域独角兽之一。
💬 月之暗面旗舰产品Kimi Chat凭借“长文本”功能在AI大模型领域脱颖而出，引发资本市场热潮。

8、毫不犹豫！小扎自曝愿开源100亿美元模型直言2025年之前AGI不可能实现

在最新的播客访谈中，小扎展现了开源英雄形象，表示愿意开源价值100亿美元模型，强调开源降低成本促进创新，但也需综合考虑经济利弊。他对2025年之前AGI实现持悲观态度，认为能源短缺是瓶颈，解决可能需数十年。批评苹果和谷歌独占移动生态，希望通过开源改变局面，防范竞争对手威胁。对于人工智能发展瓶颈，担忧能源限制和数据中心挑战，持保留态度未来AI模型能力提升。

【AiBase提要:】
💡 小扎愿意开源价值100亿美元模型，认为开源降低成本促进创新，但需综合考虑经济利弊。
💡 对2025年之前AGI实现持悲观态度，认为能源短缺是瓶颈，解决可能需数十年。
💡 批评苹果和谷歌独占移动生态，希望通过开源改变局面，防范竞争对手威胁。

9、字节跳动发布图像模型蒸馏算法Hyper-SD

这篇文章介绍了字节跳动的Lightning团队发布的新图像模型蒸馏算法Hyper-SD，该算法在图像处理和机器学习领域取得重要进展。通过创新的方法提升了模型性能，在保持模型精简的同时提高了推理速度和效率。

【AiBase提要:】
⚙️ 分段轨迹一致性蒸馏：Hyper-SD技术确保了原始ODE轨迹的完整性。
🧠 人类反馈学习机制：引入人类反馈学习，提升模型表现，减少性能损失。
🔬 分数蒸馏技术：增强了模型在低步推理下的生成能力，进一步提升性能。
详情链接:https://top.aibase.com/tool/hyper-sd

10、AI音乐生成工具AI Jukebox 输入提示词选择曲风即可创作音乐

AI Jukebox是一款利用人工智能技术的音乐生成工具，通过Hugging Face平台提供服务。它简化音乐创作过程，智能化且用户友好。用户可以通过输入提示词指导AI生成特定风格音乐，实现智能化音乐创作。AI Jukebox鼓励人机合作模式，为音乐人和音乐爱好者提供灵感和创作工具，探索无限可能性。

【AiBase提要:】
🎵 本地化模型加载: 用户打开AI Jukebox的网页后，系统自动加载生成模型，无需复杂设置。
🎶 基于提示词的音乐生成: 用户通过输入特定提示词指导AI生成特定风格音乐，包括音乐类型、情感、乐器等描述。
🎼 人机合作模式: AI Jukebox鼓励用户与AI合作，探索新的音乐创作方式，提供灵感和创作工具。
详情链接:https://top.aibase.com/tool/ai-jukebox

11、虚拟人聊天系统Live2D

这篇文章介绍了基于Unity开发的Live2D虚拟人聊天系统项目，利用Live2D技术展现动态虚拟人形象，提供流畅的动画效果，增强用户交互体验。项目集成了Azure、OpenAI和APISpace等API支持自然语言处理和生成，实现实时文本交流。同时支持图像处理和人脸检测，高清分辨率显示，以及自定义扩展功能。

【AiBase提要:】
👩‍💻 Live2D虚拟人形象集成，提供流畅的动画效果，增强用户体验。
💬 实时聊天功能，虚拟人能理解并回应用户文本输入，实现实时交流。
🔍 图像处理和人脸检测，让虚拟人更好地响应用户视觉输入。
详情链接:https://top.aibase.com/tool/live2d-virtual-human-for-chatting-based-on-unity

12、港大与浙大联合研发SC-GS模型

本文介绍了香港大学CVMI实验室与3D大模型公司VAST以及浙江大学联合研究团队提出的SC-GS模型，该模型在数字资产创造和3D重建领域取得突破性成果。通过稀疏控制点实时交互编辑，实现了对动态场景的高效编辑和合成，展现了巨大潜力。

【AiBase提要:】
🌟 SC-GS模型在新视角合成领域掀起革命性浪潮，展现出对动态高斯的稀疏控制点进行实时交互编辑的能力。
🔑 用户可以通过简单的鼠标拖拽和键盘组合按键操作，轻松实现对重建动态场景的编辑。
💡 SC-GS模型通过神经网络预测控制点运动状态，驱动整个场景中的动态高斯进行变形，提升了动态新视角合成的性能。
详情链接:https://top.aibase.com/tool/sc-gs

13、新视频分割技术SAM 可高效识别移动物体

本文介绍了在视频分割领域，研究团队探索新的视频对象分割技术，通过结合SAM模型和光流技术，提高了视频分割性能。两种模型展示了潜力，实现了显著性能提升，并将分割技术扩展到整个视频序列，实现物体追踪。这些技术提升了视频分割精度和效率，降低了计算复杂度，对多个应用场景具有重要意义。

【AiBase提要:】
⚙️ SAM与光流结合的模型展示了提高视频分割性能的潜力。
🔍 SAM与RGB图像结合的模型增强了模型对视频中物体运动的识别和分割能力。
🚀 将基于帧的分割方法扩展到整个视频序列，实现了物体在视频连续帧中的身份追踪。
详情链接:https://www.robots.ox.ac.uk/~vgg/research/flowsam/

（举报）

相关推荐

关键词：

微软

荐AI日报：MiniMax-M1开源；阿里Qwen3升级版适配苹果MLX架构；月之暗面发布新模型Kimi-Dev-72B

《AI日报》汇总了近期AI领域多项重要进展：1)月之暗面推出开源编程模型Kimi-Dev-72B，在软件工程任务测试中创下新纪录；2)MiniMax开源M1模型，支持超长上下文推理且训练成本低；3)腾讯发布AI音乐模型LeVo，支持音色克隆和分轨生成；4)阿里云Qwen3升级版适配苹果MLX架构；5)豆包推出"AI播客"功能，可将PDF转为对话播客；6)夸克App上线个性化AI家教"夸克老师"；7)松下发布多模态大模型OmniFlow，实现文本/图像/音频自由切换；8)TikTok推出三款AI视频创作工具；9)极氪与火山引擎合作，将豆包大模型接入智能座舱系统；10)Meta的Llama3.1模型在文本记忆方面表现突出；11)Grok上线定时追踪X热门话题功能；12)Gemini2.5Pro即将更新Deep Think功能；13)谷歌地图引入AI技术升级导航和个性化推荐功能。

人工智能开源模型软件工程
如何用 Kimi AI 创作儿童歌词？

本文介绍如何利用Kimi AI创作儿童歌词。用户只需在Kimi平台注册登录后，明确创作主题（如"小兔子"等），输入包含歌词风格、内容要求的提示词，AI即可快速生成富有童趣的歌词初稿。用户可对生成内容进行调整优化，如简化副歌、修改韵律等，使歌词更符合儿童理解和演唱需求。该工具适用于亲子互动、儿童教育等场景，能帮助家长轻松创作专属儿歌。

儿童歌词创作亲子互动 Kimi
荐AI日报：即梦灰测图片3.1模型；ElevenLabs推出AI语音助理11ai；百度发布多智能体协同AI IDE

本文介绍了AI领域多项最新进展：1)即梦灰测图片3.1模型增强电影感和艺术风格；2)ElevenLabs推出语音助手11ai；3)文心快码发布多模态AI开发工具Comate AI IDE；4)苹果采用"归一化流"技术开发新型AI生图模型；5)Grok将推出整合多类型文件管理功能；6)OmniGen2开源多模态模型重塑AI应用场景；7)ScholAI革新学术研究工具；8)豆包推出可视化AI编程功能；9)饿了么推出骑手AI助手"小饿"；10)张雪峰认为AI可替代部分教育工作；11)微软发布3.3亿参数小模型Mu。这些创新展示了AI技术在各领域的快速发展和应用潜力。

人工智能 AI产品技术趋势
AI日报：月之暗面首款自主智能体Kimi-Researcher；MiniMax推音色设计功能；Jaaz发布Lovart AI本地化替代品

【AI日报】今日AI领域重要动态：1)月之暗面发布Kimi-Researcher智能体，多轮搜索推理能力超越谷歌和OpenAI同类产品；2)MiniMax推出Voice Design功能，支持多语言/音色组合；3)火山引擎上线AI智能域名推荐功能；4)Anthropic强化VSCode集成；5)Google推出Gemini2.5Flash-Lite模型，可实时生成交互界面；6)苹果拟300亿美元收购AI公司Perplexity；7)月之暗面开源Kimi-2506多模态模型；8)Firecrawl将推出开源问答引擎Fireplexity；9)银河通用机器人获宁德时代10亿元融资；10)字节跳动发布DreamActor-H1视频生成系统；11)Google推出开源实时音乐生成模型Magenta RealTime；12)开源AI设计工具Jaaz发布。

人工智能技术趋势创新产品
荐AI日报：豆包大模型1.6发布；OpenAI推o3-pro模型、o3价格暴降80%；Figma官方MCP重磅上线

【AI日报】今日AI领域重要动态：1)火山引擎发布豆包大模型1.6和视频生成模型Seedance1.0pro，性能显著提升；2)OpenAI推出o3-pro模型，专注可靠性但响应较慢；3)Figma推出Dev Mode MCP服务，实现设计到代码一键转换；4)Krea AI发布图像生成模型Krea1，解决传统AI绘图问题；5)火山引擎豆包日调用量突破16.4万亿次；6)法国Mistral发布推理模型Magistral；7)苹果系统整合ChatGPT图像生成功能；8)OpenAI大幅下调o3价格80%并推出o3-pro；9)Hugging Face开源榜单显示中国团队Qwen与DeepSeek进入全球前15；10)阿里开源MaskSearch框架，提升AI解决复杂问题能力。

人工智能 AI产品视频生成
荐AI日报：MiniMax推视频生成模型Hailuo 02；Cursor Pro取消500次请求限制；谷歌发布AI模型 Gemini 2.5 Flash-Lite

本文汇总了AI领域最新动态：1)Cursor Pro取消500次请求限制；2)稀宇科技推出视频生成模型Hailuo02；3)谷歌发布轻量级AI模型Gemini2.5Flash-Lite；4)科大讯飞星火X1升级版7月上线；5)腾讯元宝推出AI编程模式；6)OpenAI将下架GPT-4.5 API；7)苹果Speech API转录速度超Whisper 55%；8)百度推出数字人互动直播间；9)Meta曾试图高薪挖角OpenAI人才；10)Krea1公测开放，解决"AI感"问题；11)特斯拉Grok车载AI助手即将上线；12)谷歌Gemini新增视频分析功能。

人工智能开发者技术趋势
AI重构文档效率！UPDF完成数千万PreA 轮融资

全球PDF效率服务商UPDF完成数千万元PreA+轮融资，由凯德赛恩创投与上海安亭实业联合领投。UPDF将聚焦"AI+商业化"战略，加速PDF处理及智能办公领域的技术突破与全球化布局。作为融合AI技术与PDF核心能力的工具，UPDF已服务全球数百万企业及个人用户，覆盖法律、教育、金融等多场景。其核心功能包括：1）智能编辑：支持跨设备协作与格式转换；2）AI辅助阅读：提供文档总结、翻译等功能；3）安全加密：支持权限管理与电子签名；4）效率工具：具备批量处理等13项功能。UPDF凭借自主PDF引擎和本土化运营，快速占领市场。本轮融资将重点投入AI算法研发，未来将持续深耕文档处理场景，重新定义全球化协作效率标准。

全球化办公 AI技术 PDF处理
荐AI日报：夸克发布首个高考志愿大模型；Trae月活跃用户破100万；Manus推出免费无限聊天模式

【AI日报】今日AI领域热点速览： 1. 夸克APP推出高考志愿大模型，免费提供个性化填报指导 2. Manus AI开放免费无限聊天模式，挑战行业巨头 3. Trae开发者平台月活破百万，累计交付60亿行代码 4. 迪士尼环球起诉Midjourney侵犯影视版权 5. 维基百科暂停AI生成摘要实验 6. 360发布"纳米AI超级搜索智能体"，内置80多款大模型 7. PartCrafter项目实现单张图片生成高精度3D模型 8. Meta推出AI视频编辑工具，支持50多种预设效果 9. 阿里工程师放弃春节假期全力追赶DeepSeek技术 10. 火山引擎发布PromptPilot智能提示优化平台 11. OpenAI洽谈400亿美元融资，拓展AI生态系统 12. 新一代o3-pro推理模型发布并调整API定价策略

人工智能高考志愿 AI应用
荐「6月27日AI日报」腾讯开源轻量级混元-A13B模型；可灵AI推“视频音效”功能

AI日报主要内容： 1. 腾讯开源混元A13B模型，采用MoE架构，总参数量800亿，激活参数130亿，支持低端GPU部署 2. 可灵AI推出"视频音效"功能，实现所见即所听的沉浸体验 3. Black Forest开源图像编辑模型FLUX.1Kontext，支持消费级硬件运行 4. OpenAI发布Deep Research API新模型o3/o4-mini，支持自动化网页搜索和数据分析 5. 小米推出1999元起AI眼镜，集成拍摄、支付、音乐等功能 6. 迅雷推出下载MCP服务，一句话指令让AI自动完成下载任务 7. HeyGen推出AI视频Agent，几分钟内生成专业级视频内容 8. 谷歌开源端侧多模态大模型Gemma3n，手机也能运行云端AI性能

腾讯混元模型开源AI
荐AI日报：腾讯混元3D 2.1大模型开源；字节跳动AI Lab负责人李航卸任；OpenAI Codex 全新升级

本文介绍了AI领域最新动态：1)腾讯开源混元3D2.1大模型，提升3D生成质量；2)OpenAI Codex升级，优化代码生成功能；3)字节跳动AI Lab负责人李航卸任；4)微软发布700个AI应用案例；5)微软推出Code Researcher工具，解决58%系统崩溃问题；6)Observer AI实现屏幕操作自动化；7)Genspark发布AI浏览器；8)麻省理工用AI技术3.5小时修复15世纪名画；9)蚂蚁集团推出开源多模态GPT-4o模型Ming-Omni；10)MagicTryOn视频换衣框架；11)字节跳动发布实时互动AI视频生成模型Seaweed APT2；12)ChatGPT搜索功能升级；13)字节跳动与老凤祥合作开发AI智能眼镜。

人工智能 3D生成开源大模型

热文

3 天
7天

AI日报：微软发布iPhone可运行AI模型；全国首例AI声音侵权案判了；Kimi创始人套现数千万美金；中文聊天模型Llama3发布

荐AI日报：MiniMax-M1开源；阿里Qwen3升级版适配苹果MLX架构；月之暗面发布新模型Kimi-Dev-72B

如何用 Kimi AI 创作儿童歌词？

荐AI日报：即梦灰测图片3.1模型；ElevenLabs推出AI语音助理11ai；百度发布多智能体协同AI IDE

AI日报：月之暗面首款自主智能体Kimi-Researcher；MiniMax推音色设计功能；Jaaz发布Lovart AI本地化替代品

荐AI日报：豆包大模型1.6发布；OpenAI推o3-pro模型、o3价格暴降80%；Figma官方MCP重磅上线

荐AI日报：MiniMax推视频生成模型Hailuo 02；Cursor Pro取消500次请求限制；谷歌发布AI模型 Gemini 2.5 Flash-Lite

AI重构文档效率！UPDF完成数千万PreA 轮融资

荐AI日报：夸克发布首个高考志愿大模型；Trae月活跃用户破100万；Manus推出免费无限聊天模式

荐「6月27日AI日报」腾讯开源轻量级混元-A13B模型；可灵AI推“视频音效”功能

荐AI日报：腾讯混元3D 2.1大模型开源；字节跳动AI Lab负责人李航卸任；OpenAI Codex 全新升级

热文

华为Mate X5折叠屏降价：8999元起至高优惠4000元

微信：聊天记录备份和迁移已支持外部存储设备可自动备份

罗马仕辟谣倒闭称定将努力解决一切问题

小米汽车回应YU7是否难破窗：无需担心随车赠送破窗锤

特斯拉中国宣布Model 3/Y长续航版续航提升

小鹏G7官宣7月3日发布全球首款L3级算力车型

华为Mate X5折叠屏降价：8999元起至高优惠4000元

董明珠说自己尽量少说话让年轻管理团队走向台前

安克修改召回方案充电宝泡盐水处理后可获赔

小米YU7将开启限时改配非准现车锁单用户可参与

微信：聊天记录备份和迁移已支持外部存储设备可自动备份

罗马仕辟谣倒闭称定将努力解决一切问题

站长商机