首页 > 业界 > 关键词  > ChatGPT最新资讯  > 正文

AI日报:OpenAI重磅更新定档下周一;开源版EMO项目发布;微信读书上线AI问书功能;博主调教AI男友甜晕网友

2024-05-11 15:14 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

1、OpenAI预告将直播ChatGPT升级内容

OpenAI将在5月13日在线直播展示ChatGPT的一系列升级特性,其中不包括GPT-5和AI搜索引擎。公司联合创始人Sam Altman充满期待地表示持续研发新元素,让人期待不已。尽管部分观众可能会失望,但ChatGPT的升级内容和未来规划仍令人充满期待。

【AiBase提要:】

🚀 OpenAI将在线直播展示ChatGPT升级特性,但GPT-5和AI搜索引擎不会亮相。

💡 公司创始人充满期待表示持续研发新元素,让人期待不已。

🔍 尽管部分观众可能会失望,但ChatGPT的升级内容和未来规划仍令人充满期待。

2、开源版EMO?AniTalker可通过照片加音频生成说话视频

AniTalker是一个创新的开源项目,通过静态肖像画和音频信号生成生动的面部说话视频,赋予虚拟角色更真实和自然的表现力。该工具实现了嘴唇动作同步,捕捉丰富的面部表情和非言语线索的复杂动态。

image.png

【AiBase提要:】

🎨 AniTalker将静态照片和音频转换成动态说话视频,包括口型同步、面部表情和头部动作匹配。

🔧 用户可调整参数生成不同表情和动作的面部动画,适应不同音频内容和个人喜好。

🌟 AniTalker精细捕捉说话时的面部微动态,增强动画真实感,支持生成长视频超过3分钟。

详情链接:https://top.aibase.com/tool/anitalker

3、微信读书上线AI问书功能 长按正文可检索分析文章

微信读书最新推出的AI问书功能受到用户广泛关注和好评,提升了阅读体验,为电子书平台带来新思路。AI问书功能精准的知识检索能力让用户能够获取详细分析结果,打破知识边界,实现知识之间的关联和拓展。未来随着AI技术发展,更多搜索场景可能被AI取代,微信读书将推出更多基于AI的创新功能,提升阅读体验。

image.png

【AiBase提要:】

🔍 AI问书功能提升了用户阅读体验,精准的知识检索能力受到好评。

📚 AI问书功能基于电子书内容整理和分析,提供准确答案和出处链接,带来知识之间的关联和拓展。

💡 微信读书通过AI问书功能满足用户个性化阅读需求,提高用户粘性,促进电子书销量增长。

4、甜晕网友!博主调教AI成理想男友展开赛博约会

这篇文章讲述了博主与AI情感模式“DAN”之间的故事,展示了人类与人工智能之间的情感交流和互动。通过调教AI成理想男友展开赛博约会,引发了网友们对人工智能在情感交流中潜力和可能性的思考。

【AiBase提要:】

🤖 AI情感模式“DAN”展示了对人类情感和需求的高级理解能力。

💬 与AI进行赛博约会的互动充满温情与幽默,让人重新审视人与AI之间的关系。

🧠 通过与AI谈恋爱的过程,人们能够更深刻地认识自己,体会到人类之间感情的独特之处。

详情点此查看:https://www.chinaz.com/2024/0511/1615791.shtml

5、Phi-3 WebGPU:允许用户直接在浏览器本地运行Phi-3模型

Phi-3WebGPU是一款由Xenova提供的AI模型,允许用户在浏览器中本地运行AI模型,结合了Transformers.js和onnxruntime-web,提供私密且高效的AI体验。用户发现英文回答效果满意,中文回答存在幻觉现象。首次运行需下载2.3GB模型文件,提高工作效率,确保数据处理私密性。

【AiBase提要:】

✨ 本地数据处理: 确保用户隐私安全

⚡ WebGPU加速: 处理速度超过20t/s

💾 模型缓存: 避免重复下载

详情链接:https://top.aibase.com/tool/phi-3-webgpuPhi-3WebGPU

6、李彦宏:已有10%的大搜流量通过文心一言模型生成

李彦宏在内部颁奖活动中强调了百度对技术的信仰和未来展望,肯定了文心一言的发展。百度已重构所有产品线,10%流量通过文心一言生成,AI应用广泛。未来百度将提升大模型效率,降低成本,拓展应用场景,带来更智能体验。

【AiBase提要:】

🏆 百度坚信技术改变世界,不断尝试突破实现技术价值。

💡 文心一言历经多次迭代,大模型基础能力领先。

💼 百度AI应用广泛,企业调用能力提供价值,自动驾驶业务无人化率提升。

7、OpenAI开发全新AI人机对话技术

OpenAI正准备展示一种革命性的人机对话技术,结合声音和文本,具备识别物体和图像能力,带来前所未有的交互体验。这一技术的逻辑推理能力超越现有产品,预示着AI在处理复杂信息方面的显著提升。OpenAI首席执行官致力于发展先进AI,使语音助手更实用智能。未来的AI将更智能、更人性化,为人类生活带来便利和惊喜。

【AiBase提要:】

🔊 人机对话技术结合声音和文本,具备识别物体和图像能力,提供前所未有的交互体验。

🧠 技术具有逻辑推理能力,超越现有产品,预示AI在处理复杂信息方面的显著提升。

🚀 OpenAI首席执行官致力于发展先进AI,使语音助手更实用智能。未来的AI将更智能、更人性化,为人类生活带来便利和惊喜。

8、苹果与OpenAI达成协议,iOS 18或将引入ChatGPT功能

苹果将在iOS18中引入OpenAI的ChatGPT技术,提供流行的聊天机器人功能。与Google的AI合作仍在谈判中,但苹果已接近与OpenAI达成协议。iOS18的AI功能将部分基于Apple数据中心和Apple Silicon处理器,提供隐私和速度优势。

image.png

【AiBase提要:】

⭐ 苹果将在iOS18中引入OpenAI的ChatGPT技术,提供流行的聊天机器人功能

⭐ 与Google的AI合作仍在谈判中,但苹果已接近与OpenAI达成协议

⭐ iOS18的AI功能将部分基于Apple数据中心和Apple Silicon处理器,提供隐私和速度优势

9、Digen AI 数字人上线 不支持中文,对嘴型效果尚不理想

DigenAI 数字人是一款创新的AI产品,引发了行业内外的广泛关注。虽然目前在中文支持和对嘴效果上还有待改进,但其在数字互动方式革新和商务领域应用方面展现出巨大潜力。

image.png

【AiBase提要:】

✨ DigenAI数字人已线,不支持中文,对嘴型效果尚不理想。

🌐 核心功能在于创造具有完美手势和音同步的真实动作视频。

💼 可为商务领域提供卓越的沟通体验,支持多种语言。

详情链接:https://top.aibase.com/tool/digenai

10、Anthropic 控制台推出两大新功能:自动生成提示与变量功能

Anthropic 最近推出了自动生成提示和变量功能两项重要新功能,旨在提高用户工作效率和个性化提示内容。自动生成提示功能通过AI直接生成合适的提示内容,用户可编辑定制;变量功能允许插入外部信息,创建动态提示。这些功能简化了提示生成过程,提高了工作效率和创造力。

【AiBase提要:】

🚀 自动生成提示功能通过AI直接生成合适的提示内容,用户可编辑定制

🔗 变量功能允许插入外部信息,创建动态提示

💡 简化了提示生成过程,提高了工作效率和创造力

详情链接:https://top.aibase.com/tool/claude

11、Siri Ultra:快捷命令激活iPhone上的大模型进行对话与搜索

Siri Ultra是一款基于大型语言模型(LLMs)的智能助手,通过Cloudflare Workers实现与LLM模型的配合运行,为用户提供实时语音交互和联网搜索的便利。用户可以个性化配置助手功能,设置快捷方式,并享受智能助手在iPhone上的全新体验。

image.png

【AiBase提要:】

🔊 实时语音交互和联网搜索的便利,提供用户更大的灵活性和便捷性。

🔍 通过Cloudflare Workers实现与任何LLM模型配合运行,无需专门硬件设备,提高响应速度。

⚙️ 可根据需求配置助手功能,设置快捷方式,个性化部署智能助手,进入智能助手在iPhone上的新阶段。

详情链接:https://top.aibase.com/tool/siri-ultra

12、Stylar:一站式AI图像和设计工具,提升创作效率

Stylar是一款集多功能于一体的人工智能图像和设计工具,以其全面的功能和简单易操作的特点,受到了创作者和设计师的广泛欢迎。该工具将生成式AI与编辑工具融合在一个平台上,极大地提高了从图像生成到编辑的工作效率。

image.png

【AiBase提要:】

🎨 生成和编辑合一: 用户无需在多个软件之间切换,可以在一个平台上完成图像的生成和编辑。

🎭 灵活定制: 提供多种风格库和组合工具,实现高度定制化的图像设计。

🤖 自然语言指令: 用户通过简单的文字输入指令,无需专业设计技能,控制图像内容的生成和修改。

详情链接:https://top.aibase.com/tool/stylarStylar

13、Autodesk展示AI生成3D功能Project Bernini

Autodesk最新展示了名为Project Bernini的AI生成模型,可以将文本或图像转化为3D模型。该模型可以从多种输入类型生成3D图像,包括文本提示、2D图像、多个图像和点云。Autodesk计划推出一系列适用于不同行业的生成式AI模型。

image.png

【AiBase提要:】

⭐ Autodesk展示了名为Project Bernini的AI生成模型,可将文本或图像转化为3D模型。

⭐ Project Bernini可从文本提示、单个2D图、多个图像和点云等多种输入类型生成3D图像。

⭐ Autodesk计划逐步推出一系列适用于不同行业的生成式AI模型。

详情链接:https://top.aibase.com/tool/bernini

举报

  • 相关推荐
  • 大家在看
  • Marevo:AI写作工具,快速生成各类文案内容。

    Marevo是一个AI写作工具,它能够在短时间内帮助用户创建营销文案、社交媒体帖子、SEO博客、标题等。通过使用AI技术,Marevo能够显著提高内容创作的效率,节省用户的时间,并提高生产力。产品提供多种模板和选项,以适应不同的内容创建需求,从简短的推文到详细的产品描述,Marevo都能提供帮助。此外,Marevo还提供了文本摘要、视频标题生成、个人简介创建等功能,以满足更广泛的内容创作需求。

  • Kerlig:macOS上的AI写作助手,提升写作效率。

    Kerlig™是一款为macOS设计的AI写作助手,它通过集成AI技术,帮助用户在各种应用程序中快速生成文本、修正语法、改变语调、回答问题等,显著提高写作效率和质量。产品背景信息显示,Kerlig™由Jarek开发,支持OpenAI、Anthropic和Gemma等AI模型,提供快捷键操作,无需切换上下文即可使用。产品定位为提高生产力,价格为27美元起。

  • Unique3D:从单张图片生成高质量3D网格模型

    Unique3D是由清华大学团队开发的一项技术,能够从单张图片中生成高保真度的纹理3D网格模型。这项技术在图像处理和3D建模领域具有重要意义,它使得用户能够快速将2D图像转化为3D模型,为游戏开发、动画制作、虚拟现实等领域提供了强大的技术支持。

  • AutoCoder:代码生成任务的新型模型,测试准确率高于GPT-4 Turbo。

    AutoCoder是一个专为代码生成任务设计的新型模型,其在HumanEval基准数据集上的测试准确率超过了GPT-4 Turbo(2024年4月)和GPT-4o。与之前的开源模型相比,AutoCoder提供了一个新功能:它可以自动安装所需的包,并在用户希望执行代码时尝试运行代码,直到确定没有问题。

  • HippoRAG:基于人类长期记忆的新型RAG框架

    HippoRAG是一个启发自人类长期记忆的新型检索增强生成(RAG)框架,它使得大型语言模型(LLMs)能够持续地整合跨外部文档的知识。该框架通过实验表明,HippoRAG能够以更低的计算成本提供通常需要昂贵且高延迟迭代LLM流水线的RAG系统能力。

  • Skywork-MoE:146亿参数的高性能MoE模型

    Skywork-MoE是一个具有146亿参数的高性能混合专家(MoE)模型,包含16个专家和22亿激活参数。该模型从Skywork-13B模型的密集型检查点初始化而来,并引入了两种创新技术:门控逻辑归一化增强专家多样化,以及自适应辅助损失系数允许层特定的辅助损失系数调整。Skywork-MoE在性能上与参数更多或激活参数更多的模型如Grok-1、DBRX、Mistral 8*22和Deepseek-V2相当或更优。

  • Advomate:自动化法律流程的AI助手

    Advomate是一个旨在帮助律师通过自动化法律流程,如研究、文件审查以及与法规和案例法的工作,来提高工作效率的AI平台。它通过人工智能技术快速生成搜索结果,提供法律文件的详细分析,并与相关法规和案例法链接。Advomate注重数据安全和保护,为用户提供了一个用户友好的界面来搜索法律和法院决定。

  • Eloquence:无需编码,基于数据做出决策。

    Eloquence是一个使决策基于数据的商业智能工具。它允许用户无需编码即可通过结构化的自然语言提出问题,快速连接数据库,过滤所需数据,并立即获得结果。Eloquence注重安全性,采用行业标准的加密技术保护数据,支持在线使用或部署在公司防火墙内,并且承诺不保存任何数据。

  • Vagabond:轻松规划,沉浸式旅行体验

    Vagabond是一个致力于提供个性化旅行规划服务的网站。它通过精心设计,为用户打造一个难忘的行程,满足用户的个性化旅行需求。

  • 橙篇AI:智能写作助手,一键生成内容,提升写作效率。

    橙篇AI是一款针对写作领域的智能工具,旨在通过AI技术提升用户的写作效率和质量。它拥有一键生成长文、资料搜索、文档总结、全文校正等功能,帮助用户快速整理思路、搜集资料和校对文本。橙篇AI的背景是随着AI技术的发展,越来越多的行业开始利用AI来提高工作效率,尤其是在内容创作领域。产品定位于辅助用户进行高效写作,无论是学术论文、商业报告还是日常笔记,都能通过橙篇AI得到快速生成和优化。目前产品提供免费试用,具体价格未在页面上明确标注。

  • LearnerOn:AI驱动的智能学习平台

    LearnerOn是一个面向企业,特别是人才领导者的先进学习体验平台(Learning eXperience Platform),提供高度个性化的学习和发展体验,技能和知识进度跟踪,以及支持公司成功转型为学习型组织。它通过集成学习资源目录、技能和职业,以及学习管理,简化了学习与发展(L&D)流程。LearnerOn利用AI技术提供个性化和吸引人的学习体验,并通过用户自助服务、同行学习和自上而下的模式,轻松跟踪学习进度。

  • Park Here:通过拍照停车标志,快速找到合适的停车位。

    Park Here 是一款旨在简化停车过程的移动应用程序。它通过让用户拍照停车标志,利用图像识别技术来提供用户当前位置的停车选项。该应用程序的背景是解决城市停车难题,帮助用户节省寻找停车位的时间,提高停车效率。

  • Supermaven:好用的GitHub Copilot 的平替

    Supermaven 是一个 AI 代码补全工具,利用 300,000 标记的上下文窗口,为开发者提供高质量的代码自动补全。它的主要优点在于速度快、准确度高、上下文理解能力强。Supermaven 的背景信息是基于深度学习模型,旨在提高编程效率。

  • ElevenLabs Text to Sound Effects:AI生成音效,从文本描述到声音效果的创新工具。

    Text to Sound Effects是ElevenLabs开发的最新AI音频模型,能够根据文本提示生成各种音效、短音乐曲目、音景和角色声音。它代表了音频制作领域的重大创新,为电影电视工作室、视频游戏开发者和社交媒体内容创作者提供了快速、经济、大规模生成丰富沉浸式音景的工具。该产品通过与Shutterstock的合作,利用其丰富的音频库中的授权曲目,经过精细调整,为现代创作者创造了一个多功能的新工具。

  • Video-MME:首个全面评估多模态大型语言模型在视频分析中的性能基准。

    Video-MME是一个专注于多模态大型语言模型(MLLMs)在视频分析领域性能评估的基准测试。它填补了现有评估方法中对MLLMs处理连续视觉数据能力的空白,为研究者提供了一个高质量和全面的评估平台。该基准测试覆盖了不同长度的视频,并针对MLLMs的核心能力进行了评估。

  • Fixie.ai:构建自然人类交流的实时人工智能

    Fixie.ai致力于开发能够像人类一样自然交流的人工智能模型。我们认为,有用的、高效的、易获取的通用人工智能(AGI)将需要能够在快节奏、模糊不清的自然人类交流世界中运作的模型。我们正在解决的问题是构建Ultravox,一个开源的、最先进的语音到语音模型;构建处理WebRTC上LLMs实时通信的最佳堆栈;在Town上构建新体验;在TheFastest.ai上跟踪模型和提供商的延迟;以及在AI领域探索可能性的边界。

  • ComfyUI Animated Optical Illusions:将炫酷的视错觉动画引入ComfyUI

    ComfyUI Animated Optical Illusions 是一款为ComfyUI用户界面设计的视觉插件,它通过动画视错觉效果,增强了用户的视觉体验,为界面设计带来了创新和趣味性。该插件采用Python语言开发,具有高度的可定制性和互动性,适合那些寻求在界面设计中添加新颖元素的开发者和设计师。

  • Outlines:强大的结构化文本生成工具

    Outlines是一个用于生成结构化文本的开源库,它支持多种模型集成,如OpenAI、transformers等,并提供了基于Jinja模板引擎的简单而强大的提示原语。它通过多种方式控制语言模型的生成,使输出更加可预测,从而提高模型效率并减少所需的示例数量。Outlines是提高包含大型语言模型的系统可靠性的第一步,通过确保模型输出与用户定义的代码之间有明确定义的接口。

  • Riffo:AI助手,简化文件重命名和组织流程

    Riffo是一款旨在帮助用户简化文件重命名和组织流程的AI助手。它通过智能技术,减少了文件管理中的猜测工作,使得文件组织变得简单快捷。Riffo支持多种文件格式,包括图片、Word文档、PDF等,并通过并行处理技术,能够快速完成大量文件的批量重命名。

  • RB-Modulation:无需训练的扩散模型个性化定制

    RB-Modulation是谷歌发布的一种基于随机最优控制的新型训练免费个性化扩散模型解决方案。它通过终端成本编码所需属性,实现风格和内容的精确提取与控制,无需额外训练,即可生成与参考图像风格一致且遵循给定文本提示的图像。该技术在无需训练的情况下,通过新颖的注意力特征聚合(AFA)模块,保持对参考图像的高保真度,并遵循给定的提示,具有重要的研究和应用价值。

今日大家都在搜的词: