首页 > 业界 > 关键词  > 微软最新资讯  > 正文

AI日报:微软发布iPhone可运行AI模型;全国首例AI声音侵权案判了;Kimi创始人套现数千万美金;中文聊天模型Llama3发布

2024-04-23 15:57 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

1、腾讯SaaS产品智能化升级 全面接入混元模型

腾讯宣布旗下协作SaaS产品全面接入混元模型,实现软件服务智能化。腾讯乐享、腾讯电子签、腾讯问卷等产品已实现智能化升级,为用户提供更智能、高效的服务。混元大模型已扩展至万亿级参数规模,在国内率先采用混合专家模型结构,性能表现优异。外部开发者和企业可以通过腾讯云上API直接调用腾讯混元能力,解决用户痛点。

【AiBase提要:】

🚀 腾讯SaaS产品实现智能化升级,提供更智能、高效的服务。

💡 混元大模型扩展至万亿级参数规模,性能在多方面表现优异。

🔗 外部开发者和企业可通过腾讯云API调用混元能力,解决不同场景下的痛点。

2、微软发布iPhone可运行的ChatGPT级AI模型Phi-3系列 挑战OpenAI地位

微软最新推出的Phi-3系列小型AI模型在AI领域引起轰动,尤其是Phi-3-mini模型在多项基准测试中超越了参数更大的Llama3模型。该系列模型能在iPhone14Pro和iPhone15上实现每秒12token的运行速度,达到了ChatGPT水平。微软强调训练数据的重要性,通过精心设计数据和训练方法提升模型性能。

image.png

【AiBase提要:】

🚀 Phi-3-mini模型参数仅3.8B,性能超越8B参数的Llama3模型。

💡 Phi-3系列包括Phi-3-small和Phi-3-medium版本,性能优越。

🔍 微软团队通过精心设计训练数据和独特训练方法提升了Phi-3系列模型的性能。

详情链接:https://arxiv.org/pdf/2404.14219.pdf

3、全国首例AI声音侵权案一审宣判 自己声音被AI化出售获赔25万元

这篇文章报道了全国首例AI声音侵权案的一审判决结果,涉及配音师声音被AI技术滥用的案件引起社会广泛关注。法院裁定被告未经授权擅自使用配音师声音开发AI产品构成侵权,需赔偿25万元。判决强调声音作为人格权益应受法律保护,为声音创作者提供了重要法律保障。

【AiBase提要:】

🔍 首例AI声音侵权案一审判决结果:被告未经授权使用配音师声音开发AI产品,需赔偿25万元。

💡 法院强调声音作为独特人格权益应受法律保护,未经授权擅自使用声音构成侵权行为。

👩‍⚖️ 判决为声音创作者提供了重要法律保障,将坚决维护声音权益并打击侵权行为。

4、中文聊天模型Llama3-8B-Chinese-Chat发布

这篇文章介绍了基于Meta-Llama-3-8B-Instruct模型经过ORPO方法微调的中文聊天模型Llama3-8B-Chinese-Chat。该模型减少了中英混合回答和表情符号的使用,使得回答更正式和专业。它在理解中文问题意图、提供恰当回答、拒绝不当请求等方面表现出色。

【AiBase提要:】

🔑 Llama3-8B-Chinese-Chat是基于Meta-Llama-3-8B-Instruct模型通过ORPO方法微调的中文聊天模型,减少了中英混合回答和表情符号的使用。

🌟 ORPO方法利用赔率比概念调整模型偏好设置,优化模型在特定任务中的表现,Llama3-8B-Chinese-Chat模型使用ORPO优化中英文生成偏好。

💡 Llama3-8B-Chinese-Chat模型在安全、道德、数学问题解答、写作和编程示例等方面表现出色,提供更准确、专业的回答和示例代码。

详情链接:https://top.aibase.com/tool/llama3-8b-chinese-chat

5、Adobe发布视频超分辨率项目VideoGigaGAN

Adobe最近推出了视频超分辨率项目VideoGigaGAN,该项目在视频放大技术方面取得了显著进展,能将视频放大至原始分辨率的8倍,保持时间连贯性和高频细节清晰度。这一技术将视频处理带入新阶段,极大扩展了视频内容的应用范围和质量。

image.png

【AiBase提要:】

✨ VideoGigaGAN实现视频放大至8倍原始分辨率,保持时间连贯性和高频细节清晰度。

🔍 Adobe优化GigaGAN模型,增强视频稳定性,展示卓越性能。

💡 VideoGigaGAN提升视频视觉质量,适应不同风格视频内容,具有广泛的应用潜力。

详情链接:https://top.aibase.com/tool/videogigagan

6、Midjourney发布random功能 可基于提示词生成完全随机的图像风格

Midjourney发布了一个有趣的功能,可以基于提示词生成完全随机的图像风格。用户可以通过随机生成的图像风格来探索不同的创作方向,同时还可以与其他用户进行实时交流和分享,共同探讨创作过程中的灵感和想法。这一功能的推出将进一步丰富用户的图像生成体验,为他们提供更多的创作选择和交流平台。

image.png

【AiBase提要:】

⚙️ 可基于提示词生成完全随机的图像风格

💬 用户可以通过Room功能进行实时交流和分享

🎨 探索不同的创作方向,丰富用户的图像生成体验

7、AI独角兽月之暗面创始人杨植麟套现数千万美金 官方回应

杨植麟作为月之暗面创始人,通过个人股份销售套现数千万美元,引起广泛关注。公司成立仅一年便获得巨额融资,估值超过25亿美元。月之暗面的成功不仅在估值上体现,旗舰产品Kimi Chat的成功也备受瞩目。

【AiBase提要:】

🚀 月之暗面创始人杨植麟通过个人股份销售套现数千万美元,公司估值超过25亿美元。

💡 月之暗面创立仅一年便迅速崛起,成为中国大模型领域独角兽之一。

💬 月之暗面旗舰产品Kimi Chat凭借“长文本”功能在AI大模型领域脱颖而出,引发资本市场热潮。

8、毫不犹豫!小扎自曝愿开源100亿美元模型 直言2025年之前AGI不可能实现

最新的播客访谈中,小扎展现了开源英雄形象,表示愿意开源价值100亿美元模型,强调开源降低成本促进创新,但也需综合考虑经济利弊。他对2025年之前AGI实现持悲观态度,认为能源短缺是瓶颈,解决可能需数十年。批评苹果和谷歌独占移动生态,希望通过开源改变局面,防范竞争对手威胁。对于人工智能发展瓶颈,担忧能源限制和数据中心挑战,持保留态度未来AI模型能力提升。

【AiBase提要:】

💡 小扎愿意开源价值100亿美元模型,认为开源降低成本促进创新,但需综合考虑经济利弊。

💡 对2025年之前AGI实现持悲观态度,认为能源短缺是瓶颈,解决可能需数十年。

💡 批评苹果和谷歌独占移动生态,希望通过开源改变局面,防范竞争对手威胁。

9、字节跳动发布图像模型蒸馏算法Hyper-SD

这篇文章介绍了字节跳动的Lightning团队发布的新图像模型蒸馏算法Hyper-SD,该算法在图像处理和机器学习领域取得重要进展。通过创新的方法提升了模型性能,在保持模型精简的同时提高了推理速度和效率。

image.png

【AiBase提要:】

⚙️ 分段轨迹一致性蒸馏:Hyper-SD技术确保了原始ODE轨迹的完整性。

🧠 人类反馈学习机制:引入人类反馈学习,提升模型表现,减少性能损失。

🔬 分数蒸馏技术:增强了模型在低步推理下的生成能力,进一步提升性能。

详情链接:https://top.aibase.com/tool/hyper-sd

10、AI音乐生成工具AI Jukebox 输入提示词选择曲风即可创作音乐

AI Jukebox是一款利用人工智能技术的音乐生成工具,通过Hugging Face平台提供服务。它简化音乐创作过程,智能化且用户友好。用户可以通过输入提示词指导AI生成特定风格音乐,实现智能化音乐创作。AI Jukebox鼓励人机合作模式,为音乐人和音乐爱好者提供灵感和创作工具,探索无限可能性。

image.png

【AiBase提要:】

🎵 本地化模型加载: 用户打开AI Jukebox的网页后,系统自动加载生成模型,无需复杂设置。

🎶 基于提示词的音乐生成: 用户通过输入特定提示词指导AI生成特定风格音乐,包括音乐类型、情感、乐器等描述。

🎼 人机合作模式: AI Jukebox鼓励用户与AI合作,探索新的音乐创作方式,提供灵感和创作工具。

详情链接:https://top.aibase.com/tool/ai-jukebox

11、虚拟人聊天系统Live2D

这篇文章介绍了基于Unity开发的Live2D虚拟人聊天系统项目,利用Live2D技术展现动态虚拟人形象,提供流畅的动画效果,增强用户交互体验。项目集成了Azure、OpenAI和APISpace等API支持自然语言处理和生成,实现实时文本交流。同时支持图像处理和人脸检测,高清分辨率显示,以及自定义扩展功能。

image.png

【AiBase提要:】

👩‍💻 Live2D虚拟人形象集成,提供流畅的动画效果,增强用户体验。

💬 实时聊天功能,虚拟人能理解并回应用户文本输入,实现实时交流。

🔍 图像处理和人脸检测,让虚拟人更好地响应用户视觉输入。

详情链接:https://top.aibase.com/tool/live2d-virtual-human-for-chatting-based-on-unity

12、港大与浙大联合研发SC-GS模型

本文介绍了香港大学CVMI实验室与3D大模型公司VAST以及浙江大学联合研究团队提出的SC-GS模型,该模型在数字资产创造和3D重建领域取得突破性成果。通过稀疏控制点实时交互编辑,实现了对动态场景的高效编辑和合成,展现了巨大潜力。

image.png

【AiBase提要:】

🌟 SC-GS模型在新视角合成领域掀起革命性浪潮,展现出对动态高斯的稀疏控制点进行实时交互编辑的能力。

🔑 用户可以通过简单的鼠标拖拽和键盘组合按键操作,轻松实现对重建动态场景的编辑。

💡 SC-GS模型通过神经网络预测控制点运动状态,驱动整个场景中的动态高斯进行变形,提升了动态新视角合成的性能。

详情链接:https://top.aibase.com/tool/sc-gs

13、新视频分割技术SAM 可高效识别移动物体

本文介绍了在视频分割领域,研究团队探索新的视频对象分割技术,通过结合SAM模型和光流技术,提高了视频分割性能。两种模型展示了潜力,实现了显著性能提升,并将分割技术扩展到整个视频序列,实现物体追踪。这些技术提升了视频分割精度和效率,降低了计算复杂度,对多个应用场景具有重要意义。

image.png

【AiBase提要:】

⚙️ SAM与光流结合的模型展示了提高视频分割性能的潜力。

🔍 SAM与RGB图像结合的模型增强了模型对视频中物体运动的识别和分割能力。

🚀 将基于帧的分割方法扩展到整个视频序列,实现了物体在视频连续帧中的身份追踪。

详情链接:https://www.robots.ox.ac.uk/~vgg/research/flowsam/

举报

  • 相关推荐
  • 大家在看
  • AI Clone Voice Free:免费的人声克隆工具 支持多种语言和口音。

    AI 克隆声音是一项利用机器学习技术生成与特定人声相似的语音的技术。无需特殊设备,可在浏览器中快速生成高质量的克隆声音。价格分为免费基础服务和付费高级服务,提供更多的声音定制选项。

  • Hacker Search:利用Hacker News历史数据回答关于任何话题的问题

    Hacker Search是一个基于Hacker News历史数据的问答工具,它特别适用于理解HN读者对某个话题的情感,或寻找HN读者感兴趣的话题的专家见解。

  • Voxpad:AI笔记助手,快速生成讲座笔记。

    Voxpad是一款利用人工智能技术帮助用户快速生成讲座笔记的网站。它通过自动化笔记过程,节省了用户手动记录笔记的时间,同时提供了精确和详细的笔记内容,包括关键点和总结,并附有时间戳,方便用户快速定位到特定部分。此外,Voxpad支持多文件格式,具有易于使用的界面和文本编辑器,允许用户编辑和格式化笔记,以满足个性化需求。

  • Pitch Deck Generator:快速创建有说服力的演示文稿

    Pitch Deck Generator 是一个在线工具,旨在帮助用户通过其7步模板工作流程,快速创建出具有说服力的演示文稿。它从识别问题或机会到自信地提出请求,通过引导性的提示帮助用户创建清晰、简洁的演示,展示其独特的解决方案和团队。

  • AutoChat:先进的WhatsApp自动化平台,助力商业升级。

    AutoChat是一个基于云的WhatsApp自动化平台,提供强大的自动化功能,帮助企业简化运营并实现商业目标。它通过无代码聊天机器人构建器、批量消息发送、团队收件箱、GPT-4 AI聊天机器人、原生WhatsApp购物体验等功能,帮助企业提升客户服务水平,增强客户信任,并提高销售效率。

  • LegalLint:法律文件格式化和格式问题识别工具

    LegalLint 是一款专为法律领域设计的文档准备工具,旨在提高文档准备的效率和准确性。它具备以下功能:自动替换引用、插入注释块、检测和突出显示文档中的各种格式问题,如多余的空格、错位的标点或未闭合的括号。这些功能帮助法律专业人士高效地创建无误的文档,节省宝贵的时间并确保文档格式的精确性。

  • TailorLinx:个性化外联信息工具,提升回复率

    TailorLinx是一款结合AI和高级销售心理学的工具,旨在改善冷外联工作,确保与潜在客户的个性化和有效联系。它通过分析电子邮件和LinkedIn数据,包括潜在客户的行业、角色、兴趣和近期活动,来定制信息。TailorLinx利用AI驱动的技术和销售心理学来解释目标潜在客户的详细资料,使信息能够以高度个性化和相关性进行制作。TailorLinx已证明能够将回复率提高至38%。

  • Chirpley:全球首个专注于微纳米影响者的自动化市场平台

    Chirpley是一个创新的自动化、点对点、一站式影响者市场平台,专注于微纳米影响者。它通过人工智能和机器学习技术,为营销人员提供了快速有效的营销手段,并通过一键营销炸弹(1-click marketing bomb)功能,使得营销活动更加迅速和高效。Chirpley旨在解放微影响者营销的巨大盈利潜力,并通过端到端自动化、自适应、数据驱动的微影响者活动,提升营销的覆盖范围和影响力,将结果和效果提升到令人瞩目的高度。

  • helpmee.ai:AI辅助的电脑帮助,让老年人轻松掌握技术。

    helpmee.ai是一个利用AI技术为老年人提供电脑使用指导的网站。通过耐心的语音对话和屏幕共享,AI伴侣逐步引导老年人完成任何计算机任务,确保他们能够自信且独立地在数字世界中导航,支持50多种语言,全天候服务。该服务使用OpenAI的最新GPT-4o模型,提供无与伦比的准确性和理解力。

  • video-subtitle-master:批量生成视频字幕并支持多语言翻译的客户端工具

    video-subtitle-master 是一个基于之前开源项目 VideoSubtitleGenerator 开发的客户端工具,它允许用户批量为视频生成字幕,并支持将字幕翻译成不同的语言。这个工具特别适合需要对视频内容进行本地化处理的个人或团队,无论是为了教育、娱乐还是商业目的。它集成了多种翻译服务,如百度翻译、火山引擎翻译等,并优化了对 Apple Silicon 的支持,提供了快速的生成速度。

  • EngineerDraft:实时字幕生成工具

    BeMyEars 是一款实时字幕生成工具,利用本地设备完成语音识别,为听障人士和需要字幕的用户提供极致体验。其主要优点包括多语言支持、多源输入、隐私保护等。

  • 大设:AI 智能绘画平台,让文本和图片成为艺术作品。

    大设是基于 Stable Diffusion 的免费 AI 绘画网站,提供一键生成高清精绘大图、SDXL 模型教程、AI 提示词工具。背景包括清华大学研发,定位为 AI 智能绘画平台。

  • Supaclip:将视频快速转化为知识库。

    Supaclip是一个旨在帮助用户将视频内容转化为知识库的在线工具。它通过提供视频摘要、AI助手、字幕和时间戳等功能,帮助用户快速理解和导航视频内容。产品适用于内容创作者、学生、播客主持人和研究人员等,通过这些功能,用户可以增加视频的有机覆盖率、从讲座中获取最大价值、提供节目笔记、通过聊天机器人进行互动以及从访谈视频和纪录片中提取关键见解和引用。

  • Context Data:一站式企业级数据平台,专为生成式AI应用设计

    Context Data是一个为生成式AI应用设计的数据处理和转换平台,旨在帮助AI团队构建数据基础设施,以便他们专注于构建AI逻辑。它提供了无需设置基础设施、跨多个源转换数据、连接多个模型、加载数据到主要向量数据库、查询私有向量数据、定时管道以及构建数据和ETL管道等功能。Context Data强调数据隐私控制,避免了将数据上传到OpenAI等外部模型,简化了构建AI就绪数据平台的压力和复杂性。

  • World of Gami:AI驱动的Trello替代品,让团队任务保持最新。

    World of Gami是一个利用AI技术简化任务管理的网站,它将日常任务转化为令人兴奋的挑战,使项目管理不仅是必需的,而且是团队工作流程中令人愉悦和有益的一部分。通过将传统任务列表或看板转变为生动和竞争性的游戏,每个用户可以创建自己的'船',使用Scrum方法进行冲刺,并竞争'冲刺皇冠',这不仅使项目管理更加有趣,而且培养了团队精神和成就感。

  • Dola AI:您的个人 AI 日历助手,简化日程安排,释放时间。

    Dola 是一款通过消息应用进行日程安排的 AI 助手,它与 Google 日历、Apple 日历和 Caldav 兼容,能够通过自然语言快速安排日程,提高效率,同时支持语音、图片和文本输入。Dola 旨在帮助用户节省时间,专注于他们喜欢的事情。

  • Remind AI:使用先进的AI技术,轻松捕捉您的数字活动并作为记忆使用。

    reMind是一款利用AI技术帮助用户捕捉和利用数字活动作为记忆的产品。它通过先进的人工智能技术,让用户能够轻松地记录和回顾自己的工作和活动,从而提高生产力。

  • BrowseBuddy:AI购物助手,提升电商购物体验

    BrowseBuddy是一款AI驱动的聊天机器人,旨在通过提供个性化的帮助来增强在线购物体验。它利用自然语言处理技术来理解客户查询,提供量身定制的产品推荐和支持。BrowseBuddy通过智能产品匹配、实时解决方案、多语言支持等技术,为电商企业提供了一种提升客户满意度和销售效率的解决方案。

  • Depthforge:AI驱动的3D图像生成应用

    Depthforge是一款利用Apple Vision Pro技术,通过文本提示生成沉浸式3D图像的应用。它易于使用,能够让用户通过简单的文本输入来创造独特的高质量3D图像,体验全新的3D图像生成世界。

  • AudiowaveAI:将任何文本转换为有声读物质量的声音。

    AudiowaveAI是一款利用人工智能技术将文本转换成高质量音频的应用程序。它与传统的文本到语音技术不同,提供了更加自然、富有情感的语音输出,让听众在学习和享受内容时获得更好的听觉体验。产品背景信息包括它是由全球创新公司和自由职业者信赖的产品,其主要优点在于其引人入胜的声音、自然的声音效果以及令人愉悦的听觉享受。产品定位为教育工具,旨在帮助用户在移动中学习,享受夏日阳光。

今日大家都在搜的词: