首页 > 业界 > 关键词  > 讯飞星火最新资讯  > 正文

AI日报:讯飞星火Lite API免费;李开复称大模型疯狂降价是双输;AI末日滤镜抖音爆火;AI音乐Suno 融资1.25亿美元

2024-05-22 15:23 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

1、科大讯飞讯飞星火Lite API永久免费开放

科大讯飞宣布讯飞星火API能力正式免费开放,降低开发者调用成本,推动AI技术普惠化进程

image.png

【AiBase提要:】

🚀 降低开发者调用成本,Pro/Max API费用低至0.21元/万tokens,1token相当于1.5个中文汉字

💡 讯飞星火Lite API永久免费开放,开发者仅需2.1元即可调用“讯飞星火3.5Max”生成内容

🌍 科大讯飞全面开放API能力,聚集全球开发者,推动AI技术在各领域应用

2、李开复称大模型疯狂降价是双输 推理大模型成本将每年降10倍

李开复认为中国大模型与美国大模型的差距已经缩小到6个月,展示了中国技术实力的追赶和成就。然而,他对大模型市场的价格战表示忧虑,认为疯狂降价可能导致短期内的双输局面。他强调降价并非商业成功的唯一途径,零一万物将继续推出性能最高的大模型。

【AiBase提要:】

🚀 中国大模型与美国大模型差距缩小到6个月,展示技术实力追赶和成就。

💰 大模型市场价格战引发忧虑,疯狂降价或导致短期内双输局面。

🔮 零一万物计划推出各尺寸模型,致力于做中国最好,强调大尺寸模型在复杂难题中表现优异。

3、百度发布 Comate 代码知识增强2.0

作为基于百度文心大模型打造的代码智能补全和推荐工具,Comate代码知识增强2.0具有全面检索和问答、Web在线检索以及自动生成调用代码和测试用例等三大优势。它为代码编写、学习、面试和测试提供全方位支持,能够加速知识获取,提高编程效率,并生成更贴合业务的代码。

【AiBase提要:】

⚙️ Comate代码知识增强2.0基于百度文心大模型,实时解析开发者编程意图,推荐最佳代码片段和库函数。

🔍 Comate2.0支持全面检索和问答,帮助开发者获取开源框架中具体业务解释,提升编程技能。

💻 Comate2.0能够自动生成调用代码和测试用例,极大提高代码质量和效率。

4、微软发布Phi-3 Vision等最新大模型系列

微软发布了Phi-3系列大型语言模型,展示出强大性能和灵活性,为研究人员和开发者提供了新的工具和可能性。这些模型在特定领域具有独特优势,支持不同上下文长度和拥有不同规模参数。

image.png

【AiBase提要:】

🔍 Phi-3Medium14B型号性能强大,竞争力突出,超过了其他大型模型如Command R+104B和GPT3.5。

🔍 Phi-3Small7B型号在资源有限场景下具有潜在应用价值,性能超过了Mistral7B和Llama38B。

🔍 Phi-3系列模型训练使用了4.8T令牌,持续42天,支持长文本数据处理,引入新的分词器和权重兼容性。

详情链接:https://top.aibase.com/tool/phi-3-vision-128k-instruct

5、Windows 11 新增基于AI的复制和粘贴功能

微软在 Windows 11 中引入了新的高级粘贴功能,利用 AI 技术实现剪贴板内容的即时转换。这一功能让用户可以更快地转换剪贴内容为纯文本、Markdown、JSON 等格式,甚至进行摘要、翻译、生成代码等操作,提升工作效率。

image.png

【AiBase提要:】

⭐ Windows 11 引入新的高级粘贴功能,利用 AI 技术实现剪贴板内容即时转换。

⭐ PowerToys 的 Advanced Paste 功能允许用户将剪贴内容转换为纯文本、Markdown、JSON 等格式,甚至使用 OpenAI 进行摘要、翻译、生成代码等操作。

⭐ 使用该功能需要添加 OpenAI API 密钥,并购买相应的 OpenAI 积分,以进行转换操作。

6、Adobe Lightroom新增AI魔术橡皮擦功能

Adobe Lightroom最近推出了新增的生成式AI工具,包括对象移除和AI镜头模糊效果,为用户提供了更简单和便捷的照片编辑体验。这些新功能使得背景虚化更自然,删除不需要的物体或人物更轻松。Adobe持续将Firefly AI模型应用于创意软件中,为用户带来更多便利和可能性。

image.png

【AiBase提要:】

🎨 “Generative Remove”功能可轻松删除照片中的不需要的物体或人物。

📸 AI镜头模糊工具可一键应用多种模糊效果,提升背景虚化的自然度。

📱 新功能使得使用Lightroom进行照片编辑更加简单和便捷,为新用户提供更友好的操作体验。

7、音乐 AI 初创公司 Suno 完成1.25亿美元融资

Suno 完成1.25亿美元融资,旨在通过其生成式 AI 平台彻底改变音乐行业,引发了人们的激动和版权担忧。随着 AI 在音乐领域的广泛应用,如何平衡技术进步与保护艺术家权益将成为关键问题。

【AiBase提要:】

⭐️ Suno 的 AI 平台有望降低音乐创作门槛,为音乐创作者提供强大工具,挑战传统音乐产业模式。

⭐️ Suno 的创新平台允许任何人通过输入文本提示或歌词来创作原创歌曲,AI 则会根据此生成旋律、和声和完整作曲。

⭐️ Suno 的快速崛起和大额融资发生在关于未经艺术家和权利持有人明确同意使用受版权保护音乐录音来训练 AI 模型的激烈辩论之际。

8、英伟达 GH200超级芯片部署到全球9个超级计算机中

英伟达的GH200超级芯片在全球9台超级计算机中展现出惊人的计算能力,推动高性能计算产业向AI驱动转变。GH200采用了Grace Hopper的异构计算框架,融合了高性能GPU和多功能CPU,具备高性能计算和AI模型处理能力。英伟达在近两年不断布局服务器和高性能计算领域,GH200系列展现出强大的AI和高性能计算能力,加速科学研究进程。

【AiBase提要:】

⭐ 英伟达GH200超级芯片在全球9台超级计算机中实现每秒两百亿亿次浮点数计算的惊人能力

⭐ GH200采用了Grace Hopper的异构计算框架,融合了高性能GPU和多功能CPU,成为AI超算的首选硬件

⭐ GH200系列芯片展现出强大的AI和高性能计算能力,加速科学研究进程

9、ChatGPT改进的数据分析功能开始推送:速度与交互体验大提升

OpenAI推出了最新的ChatGPT数据分析优化功能,提升了处理速度,加入了可交互的图表和表格,使数据分析工具更完备和强大。用户现在更方便进行数据上传、分析和可视化探索,获得更深刻的数据洞察。这种集成了人工智能和高级数据可视化的解决方案,将为数据分析师和业务用户提供巨大帮助。

image.png

【AiBase提要:】

🚀 速度提升: GPT-4o的速度优势使数据分析更迅速。

💬 可交互图表和表格: 用户可与数据可视化组件交互,提高工具实用性和灵活性。

📊 直接展示数据: 上传的表格数据直接展示在界面上,用户可直观查看并操作。

10、FIFO-Diffusion:无需额外训练即可生成无限长视频

FIFO-Diffusion 项目展示了在无需额外训练的情况下生成无限长视频的强大能力,通过对角去噪技术实现了高质量且具有一致性的长视频生成。该技术在视频生成领域具有明显优势,尽管在复杂画面下可能出现闪烁问题,整体效果令人印象深刻。未来有望解决闪烁问题,提升视频生成质量和稳定性。

image.png

【AiBase提要:】

✨ 无需额外训练使得FIFO-Diffusion具有明显优势

⚙️ 核心技术为独特的对角去噪方法

🔗 FIFO-Diffusion展示了生成长视频的巨大潜力

详情链接:https://top.aibase.com/tool/fifo-diffusion

11、末日滤镜下真人和AI傻傻分不清

这篇文章介绍了抖音博主“速速來電”发布的末日游戏滤镜视频,在AI特效生成的图像与真人原图对比下,效果逼真到让人难以分辨。网友热议该视频,称赞其逼真效果。博主分享了制作教程,使用美图秀秀App生成末日特效的方法,强调原图质量对效果重要。

image.png

【AiBase提要:】

🔍 视频展示逼真效果,难以分辨真伪。

📈 视频点赞数高达17万,转发2.4万,成为博主历史最佳作品。

💡 制作教程分享技巧,强调原图质量对最终效果至关重要。

详情:https://www.chinaz.com/2024/0522/1618351.shtml

12、B站UP主花式整活:为了教你学英语 AI都开始讲谐音梗了

这篇文章介绍了B站UP主利用AI技术合成明星声音和形象来教授英语,引发了广泛关注。通过谐音梗的方式,视频在B站上获得了超过100万的播放量。UP主结合娱乐和教育,创造出独特的学习体验,借助AI技术提升了视频制作频率和粉丝数量。然而,使用明星或影视剧素材也存在侵权风险。

image.png

【AiBase提要:】

🤖 利用AI技术合成明星声音和形象进行英语教学,吸引大量粉丝关注。

🎬 视频通过谐音梗方式,获得超过100万的播放量,增强学习的趣味性和互动性。

💡 UP主结合娱乐和教育,创造出别具一格的学习体验,借助AI技术提升视频制作频率和粉丝数量。

详情:https://www.chinaz.com/2024/0522/1618359.shtml

13、谷歌推出的“Say What You See”游戏助力图像阅读和AI提示写作

谷歌推出的“Say What You See”游戏旨在帮助玩家提高图像阅读技能和AI提示写作能力。通过参与游戏,玩家可以锻炼创造力、观察力,体验AI技术在图像生成领域的应用。游戏不仅提供娱乐,还作为学习工具,帮助玩家理解和利用AI技术。总体而言,这款游戏为玩家提供了锻炼图像阅读和AI提示写作能力的平台,是一种寓教于乐的学习方式。

image.png

【AiBase提要:】

🎮 游戏旨在帮助玩家提高图像阅读技能和AI提示写作能力。

🧠 参与游戏可锻炼创造力、观察力,体验AI技术在图像生成领域的应用。

📚 游戏不仅提供娱乐,还作为学习工具,帮助玩家理解和利用AI技术。

详情链接:https://artsandculture.google.com/experiment/say-what-you-see/jwG3m7wQShZngw

14、大模型数据标注平台Scale AI融资10亿美元,估值达138亿美元

Scale AI最近获得10亿美元的F轮融资,估值达138亿美元,成为大模型领域独角兽。该公司主要提供数据标注服务,合作伙伴包括OpenAI、微软、Meta等知名公司。另外,Suno也获得1.25亿美元融资,引起关注。

image.png

【AiBase提要:】

⭐ Scale AI获得10亿美元F轮融资,估值达138亿美元,成为大模型领域独角兽。

⭐ Scale AI主要提供数据标注服务,合作伙伴包括OpenAI、微软、Meta等知名公司。

⭐ Suno也获得1.25亿美元融资,两笔超过1亿美元的融资事件引发关注。

详情链接:https://top.aibase.com/tool/scale

15、Gabby World V2:融合AI和区块链技术的全新龙与地下城风格游戏问世

Gabby World V2是一款融合了人工智能和区块链技术的创新游戏,提供了独特的角色创建、故事探索和战斗体验。游戏处于Alpha测试阶段,仅对白名单成员开放,参与者有机会赢取奖励。通过融合AI和区块链技术,Gabby World V2打造了创意十足、充满挑战的游戏世界。

QQ截图20240522100328.png

【AiBase提要:】

🎮 创新游戏体验,融合AI和区块链技术

🔓 Alpha测试阶段,白名单成员独享,赢取奖励机会

💡 通过独特奖励机制激励玩家积极参与

详情链接:https://medium.com/@Gabby_World/gabby-world-v2-alpha-newbie-guide-72b8ceb97584

16、马斯克的xAI正努力实现Grok多模态化

埃隆・马斯克的人工智能公司xAI正在为其Grok聊天机器人增加多模态输入功能,开发者文档显示了新模型发布进展,Grok1.5V将支持用户上传照片获取文本回复。xAI在缩小与竞争对手差距方面取得进展,尽管相对较新,但在基准测试中表现出潜力。

image.png

【AiBase提要:】

⭐ 埃隆・马斯克的xAI公司正为Grok聊天机器人添加多模态输入功能

最新的开发者文档显示了xAI在推出新模型方面的进展

⭐ Grok1.5V将允许用户上传照片并获得基于文本的答案

举报

  • 相关推荐
  • 大家在看
  • Mistly:自动记录和分析产品反馈,快速构建更好的产品。

    Mistly是一个AI产品管理工具,能够自动从Slack频道、Zoom通话等地方记录产品反馈,并通过AI技术提供深入的洞察。它可以帮助团队快速了解用户需求,提取功能请求和bug报告,从而加速产品迭代和改进。Mistly还提供每周反馈总结和发布更新通知功能,使客户感到被重视,增强产品与用户之间的联系。

  • Omi:智能合同和文档管理平台

    Omi是一个集中化的平台,提供对财务、合同和供应商的全面监督和管理。它简化了采购流程,实现了财务控制,并通过自动化和实时数据提供决策支持,帮助企业提高效率、节约成本,并确保合规性。

  • iPadOS 18:,带来全新的工作方式和个性化体验。

    iPadOS 18是苹果公司为iPad设备推出的最新操作系统,它通过Apple Pencil、应用程序体验和个性化定制等新功能,进一步增强了iPad的生产力和创造力。该系统利用Apple Intelligence技术,根据用户的个人上下文提供最有帮助和相关的智能服务。

  • 雅意信息抽取大模型:基于大规模数据的高质量信息抽取模型

    雅意信息抽取大模型(YAYI-UIE)由中科闻歌算法团队研发,是一款在百万级人工构造的高质量信息抽取数据上进行指令微调的模型。它能够统一训练信息抽取任务,包括命名实体识别(NER)、关系抽取(RE)和事件抽取(EE),覆盖了通用、安全、金融、生物、医疗、商业等多个场景的结构化抽取。该模型的开源旨在促进中文预训练大模型开源社区的发展,并通过开源共建雅意大模型生态。

  • macOS Sequoia:Mac体验新高度,智能化与生产力的飞跃。

    macOS Sequoia是苹果公司推出的下一代桌面操作系统,它通过iPhone镜像、Safari浏览器的更新、苹果智能技术以及一系列新游戏,为Mac带来了全新的工作方式和变革性的智能特性。它利用了苹果芯片和神经引擎的强大能力,提供了深度集成的个人智能系统,注重隐私保护,并简化了日常任务。

  • iOS 18:iPhone个性化、功能强大、智能化的新高度。

    iOS 18是苹果公司推出的最新操作系统,它通过全新的个性化选项、前所未有的照片应用重设计、强大的连接方式更新以及苹果智能(Apple Intelligence)个人智能系统,为iPhone带来更深层次的个性化体验和智能化功能。

  • Invisibility:您的个人助手,集成到您的操作系统中。

    Invisibility 是一款集成到操作系统中的个人助手应用程序,它通过简单的键盘快捷键,允许用户快速与AI进行交互,提高工作效率。该应用提供了一个平台,结合了所有最新的高级模型,用户无需为多个工具或订阅付费。Invisibility 的设计理念在于简化用户与技术的互动,提供流畅的体验,无需在不同的标签和应用程序之间切换。

  • TeamCreate AI:AI助手,快速构建理想团队

    TeamCreate AI是一个在线平台,提供AI助手来帮助企业在销售、市场、财务、产品和更多领域快速构建团队。这些AI助手是无代码且可定制的,可以快速适应并执行特定任务,帮助企业在没有财务限制和繁琐招聘流程的情况下迅速扩展。

  • Midjourney Personalization:个性化图像生成工具

    Midjourney是一个独立的研究实验室,专注于探索新的思想媒介和扩展人类想象力。它是一个自筹资金的小团队,专注于设计、人类基础设施和人工智能。Midjourney Personalization通过用户对图像对的评分来学习用户的偏好,并根据这些偏好生成个性化的图像。

  • YaFSDP:高效的分布式数据并行框架,专为大型语言模型设计。

    YaFSDP是一个分布式数据并行框架,专为与transformer类神经网络结构良好协作而设计。它在预训练大型语言模型(Large Language Models, LLMs)时比传统的FSDP快20%,并且在高内存压力条件下表现更佳。YaFSDP旨在减少通信和内存操作的开销。

  • Onboard:客户管理的AI邮件平台

    Onboard AI Email Platform是一个专为客户管理设计的AI邮件平台。它集成了先进的AI技术,帮助企业精准地将邮件发送到每个客户的主收件箱,提高邮件的到达率和客户的互动率。该平台通过AI技术对客户进行细分,自动生成个性化内容,并创建AI生成的落地页来驱动客户采取行动。

  • SmartEReply:智能提升您的LinkedIn™互动

    SmartEReply是一个AI驱动的助手,旨在增强您的LinkedIn™互动,通过个性化评论、优化帖子和轻松管理私信来提升您的网络机会。它通过AI生成的内容建议,帮助您快速创建更具吸引力和优化的内容。

  • Freepik Designer:在线设计编辑器,无需设计技能。

    Freepik Designer是一个在线设计编辑器,允许用户无需专业设计技能或软件即可创建或编辑设计作品。它提供了大量的可编辑模板,支持AI工具和功能,如AI写作助手、背景移除、AI翻译器等,以简化工作流程。Freepik Designer由Freepik Company S.L.开发,总部位于阳光明媚的马拉加。

  • Source.Plus:AI训练数据的搜索、整理和丰富工具

    Source.Plus是一个专业的AI训练数据搜索平台,它允许用户通过高级搜索操作符来精确地搜索、筛选和整理所需的数据集。它支持多种数据来源,包括Wikimedia Commons、NMNH - Botany Dept.等,提供广泛的图像和文档资源。平台还具备文件上传功能,使用户能够进一步自定义和丰富自己的数据集。Source.Plus的主要优点包括其强大的搜索能力、数据来源的多样性以及对AI训练数据的特别优化。

  • Awesome-ChatTTS:ChatTTS项目的入门指南和资源汇总。

    Awesome-ChatTTS是一个开源项目,旨在为ChatTTS项目提供常见问题解答和相关资源汇总,帮助用户快速入门并解决在使用过程中可能遇到的问题。该项目不仅整理了详细的安装指南和参数说明,还提供了多种音色种子的示例,以及视频教程等辅助材料。

  • DenseAV:一种自监督的视听特征对齐模型。

    DenseAV是一种新颖的双编码器定位架构,通过观看视频学习高分辨率、语义有意义的视听对齐特征。它能够无需明确定位监督即可发现单词的“意义”和声音的“位置”,并且自动发现并区分这两种关联类型。DenseAV的定位能力来自于一种新的多头特征聚合操作符,它直接比较密集的图像和音频表示进行对比学习。此外,DenseAV在语义分割任务上显著超越了先前的艺术水平,并且在使用参数少于一半的情况下,在跨模态检索上超越了ImageBind。

  • ChatTTS-Forge:基于ChatTTS模型的文本到语音转换项目

    ChatTTS-Forge是一个围绕TTS生成模型ChatTTS开发的项目,实现了API服务器和基于Gradio的WebUI,能够提供全面的API服务,支持生成1000字以上的长文本,保持一致性,并通过内置32种不同风格进行风格管理。

  • WorldDreamer:视频生成的前沿模型

    WorldDreamer是一个创新的视频生成模型,它通过预测遮蔽的视觉令牌来理解并模拟世界动态。它在图像到视频合成、文本到视频生成、视频修复、视频风格化以及动作到视频生成等多个方面表现出色。该模型借鉴了大型语言模型的成功经验,将世界建模视为一个无监督的视觉序列建模挑战,通过将视觉输入映射到离散的令牌并预测被遮蔽的令牌来实现。

  • VividDream:从单一图像或文本生成可探索的3D场景

    VividDream是一项创新技术,能够从单一输入图像或文本提示生成具有环境动态的可探索4D场景。它首先将输入图像扩展为静态3D点云,然后使用视频扩散模型生成动画视频集合,并通过优化4D场景表示来实现一致性运动和沉浸式场景探索。这项技术为生成基于多样真实图像和文本提示的引人入胜的4D体验提供了可能。

  • LlamaGen:自回归模型在可扩展图像生成领域的新突破

    LlamaGen是一个新的图像生成模型家族,它将大型语言模型的原始下一个token预测范式应用于视觉生成领域。该模型通过适当的扩展,无需对视觉信号的归纳偏差即可实现最先进的图像生成性能。LlamaGen重新审视了图像分词器的设计空间、图像生成模型的可扩展性属性以及它们的训练数据质量。

今日大家都在搜的词:

热文

  • 3 天
  • 7天