首页 > 业界 > 关键词  > GPT-4o最新资讯  > 正文

AI日报:GPT-4o新版本上线;面壁智能开源手机版“GPT-4V”;华为推3D数字人新框架​EmoTalk3D;阿里上线奥运时刻海报工作流

2024-08-07 15:02 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、开发者狂喜!GPT-4o新版本上线,API 更快更便宜

OpenAI 近期推出了全新的结构化输出功能,旨在使模型生成的输出严格遵循开发者提供的 JSON 模式,提升输出的可靠性和匹配度。这一功能的推出为开发者构建可靠应用程序提供了重要基础,简化了开发过程,帮助开发者更轻松地创建出色的应用。

image.png

【AiBase提要:】

🌟 结构化输出功能使模型输出更可靠,遵循开发者提供的 JSON 模式。

🔍 新模型 gpt-4o-2024-08-06在复杂 JSON 模式的评估中获得完美100% 分数。

🔧 Python 和 Node SDK 已更新,支持结构化输出,简化开发者的工作流程。

详情链接:https://openai.com/index/introducing-structured-outputs-in-the-api/

2、面壁智能开源 MiniCPM-V2.6可以在手机上跑的“GPT-4V”

MiniCPM-V2.6是一款端侧多模态人工智能模型,仅有8B参数却取得了20B以下单图、多图、视频理解三项SOTA成绩,与GPT-4V水平全面对标。该模型在端侧实现了单图、多图和视频理解等核心能力的全面超越,具有极高的像素密度和运行效率,支持多种语言和推理框架。

image.png

【AiBase提要:】

🚀 MiniCPM-V2.6取得了20B以下单图、多图、视频理解三项SOTA成绩,与GPT-4V水平全面对标

💡 模型具有极高的像素密度和运行效率,在端侧设备上实现了极高的运行效率

🌐 MiniCPM-V2.6支持多种语言和推理框架,通过OCR能力实现了从单图到多图及视频的流畅拓展

详情链接:

GitHub:https://github.com/OpenBMB/MiniCPM-V

HuggingFace: https://huggingface.co/openbmb/MiniCPM-V-2_6

llama.cpp、ollama、vllm 部署教程地址:

https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc

MiniCPM 系列开源地址:

https://github.com/OpenBMB/MiniCPM

3、华为、复旦联手打造3D数字人新框架EmoTalk3D:喜怒哀乐表情逼真丰富

研究团队从南京大学、复旦大学和华为诺亚方舟实验室联手打造了EmoTalk3D框架,解决了多视角一致性和情感表现力不足的难题。他们提出了合成可控情感数字人的新方法,构建了从语音到几何再到外观的映射框架,并建立了EmoTalk3D数据集。

【AiBase提要:】

💥 提出合成可控情感数字人的新方法。

🎯 构建“从语音到几何再到外观”的映射框架。

👀 建立EmoTalk3D数据集并准备开放。

详情链接:https://nju-3dv.github.io/projects/EmoTalk3D/

4、阿里云PAI Artlab新增奥运高光时刻海报工作流

阿里云PAI Artlab的ComfyUI新增了一个奥运高光时刻海报的工作流,用户只需三步即可生成个性化的奥运主题海报。用户需要先在阿里云官网注册并完成实名认证,然后访问PAI ArtLab平台,领取免费资源,并通过ComfyUI加载奥运流程来解锁更多海报设计。

image.png

【AiBase提要:】

🌟 用户只需三步即可生成个性化的奥运主题海报。

🚀 需要上传图片数据、加载并微调AI模型,调整生成内容的Prompt,保存工作流并生成json文件。

💡 其他用户可以通过生成的json文件快速生成海报,实现共享与交流。

产品入口:https://x.sm.cn/5hd9PfM

详情点此查看:https://www.aibase.com/zh/news/10857

5、腾讯元宝AI助手上线长文精读 支持最长近50万字输入

腾讯元宝AI助手推出了长文精读功能,用户上传专业内容后可进入深度阅读模式,提供核心内容概览、模块化解析和总结性图表,帮助用户快速理解关键信息。利用腾讯混元大模型处理能力,支持最长近50万字输入,生成图文并茂的内容。用户可评估论文质量、查看专业图表和在离线状态下回看精读内容。腾讯混元大模型已全面开源,展现卓越的多模态理解能力。

【AiBase提要:】

📚 长文精读功能提供深度阅读模式,核心内容概览、模块化解析和总结性图表。

🔍 利用腾讯混元大模型处理能力,支持最长近50万字输入,生成图文并茂的内容。

💡 用户可评估论文质量、查看专业图表和在离线状态下回看精读内容。

6、月之暗面 Kimi 开放平台:上下文缓存 Cache 存储费用降价50%

Kimi 开放平台宣布上下文缓存存储费用降价50%,为用户提供更经济实惠的服务。上下文缓存是高效的数据管理技术,能够提高系统效率和节省时间资源。

image.png

【AiBase提要:】

🔑 上下文缓存存储费用降价50%,从10元/1M tokens/min降至5元/1M tokens/min。

⏳ 上下文缓存是一种高效的数据管理技术,能够预先存储可能被频繁请求的大量数据,提高系统效率。

💡 上下文缓存特别适合频繁请求、重复引用大量初始上下文的场景,可降低长文本模型费用并提高效率。

7、Figure公司发布超强实体ChatGPT机器人Figure02

Figure公司最新推出的Figure02机器人标志着AI技术的重大突破,预示着人机交互进入全新时代。该机器人在硬件和软件上进行了全面革新,具有灵活手部操作、强大对话视觉能力和3倍计算推理能力。

【AiBase提要:】

🤖 Figure02机器人是AI技术重大突破,预示人机交互新时代。

🔊 语音对话功能、先进视觉系统、革命性手部设计是其核心特点。

💡 Figure02集成OpenAI大模型,结合语音指令和视觉信息进行深度推理。

8、AI设计加持义乌制造:AI设计穿戴甲火到巴黎奥运

这篇文章介绍了一款由AI设计、义乌生产的穿戴甲在巴黎街头引发热议的故事,展示了义乌制造业注入新活力的场景。通过AI技术设计的穿戴甲产品在巴黎引起轰动,证明了义乌的创新实力和市场敏锐度。

image.png

【AiBase提要:】

🔥 AI设计穿戴甲在巴黎引发热议,成为时尚界新宠,为义乌制造注入活力。

💡 LumiNail是一款傻瓜式AI穿戴甲设计产品,简单yet强大,提高设计效率,注入创意活力。

🚀 义乌商家开始尝试AI辅助生产,超过1万户商户使用AI技术优化经营,开辟新发展方向。

9、上海人工智能实验室推出书生·浦语系列模型新版本InternLM2.5

上海人工智能实验室在2024年7月4日的WAIC科学前沿主论坛上推出了书生·浦语系列模型的新版本InternLM2.5,该版本在复杂场景下的推理能力得到全面增强,支持超长上下文和自主进行互联网搜索整合信息。模型参数版本包括1.8B、7B和20B,适应不同应用场景和开发者需求。

【AiBase提要:】

⚙️ InternLM2.5发布三种参数版本的模型,包括1.8B、7B和20B,满足不同应用场景需求。

🔍 InternLM2.5在多个数据合成技术上进行迭代,显著提升模型的推理能力,特别在数学评测集MATH上的准确率达到64.7%。

🛠️ InternLM2.5实现了与下游推理和微调框架的无缝对接,包括XTuner微调框架、LMDeploy推理框架和其他社区框架。

详情链接:https://internlm.intern-ai.org.cn

10、以色列公司推出速度提升50%的开源语音识别模型Whisper Medusa

aiOla公司推出的Whisper Medusa开源语音识别模型在处理速度上取得了重大突破,比OpenAI的Whisper模型快50%,引起了业界广泛关注。这一创新将为语音识别技术的发展带来深远影响,为人工智能在语音识别领域的应用开辟新的可能性。

【AiBase提要:】

⚙️ Whisper Medusa的核心创新在于引入了多头注意力机制,使模型能够每次预测十个tokens,显著提高了语音预测速度和生成运行时间。

🔍 Whisper Medusa在提高速度的同时并未牺牲性能,主干系统建立在Whisper的基础上,保证了模型的准确性和稳定性。

🎓 aiOla采用弱监督的机器学习方法训练Whisper Medusa,进一步提高了模型的学习效率和准确性。

详情链接:https://github.com/aiola-lab/whisper-medusa

11、新流量密码?AI视频翻车意外走红:一段诡异画面引发2000万次观看

AI生成的内容已经渗透到我们的生活中,但最近一段AI翻车视频却成为网络热点,吸引了近2000万次观看,揭示了人们对AI技术的复杂态度。这段视频展示了AI图像生成技术的失控一面,引发了网友们的强烈反应。公众对AI技术的态度正在发生微妙的变化,需要保持幽默感和开放心态。

【AiBase提要:】

🤖 AI视频翻车成网络热点,吸引2000万次观看。

😱 视频展示AI失控画面,引发强烈反应。

😄 公众态度对AI发生微妙变化,需保持幽默感和开放心态。

12、摩尔线程AI创作平台摩笔马良全新升级

摩笔马良全新升级,提供更高效、个性化的图像生成体验,强化对中文和中国文化的理解,实现精准创意人像生成。用户操作简单,上传照片、输入描述、生成图片,快速实现个性化创意人像。新增20多种预置风格满足多样化创意需求,AI算法和交互体验显著提升,图像生成高速高分辨率。界面优化简化操作流程,提升交互直观性和便捷性,为个人用户和专业人士带来前所未有的创意体验。

image.png

【AiBase提要:】

🎨 提供更高效、个性化的图像生成体验,强化对中文和中国文化的理解,实现精准创意人像生成。

🖼️ 新增20多种预置风格,满足用户多样化创意需求。

🚀 AI算法和交互体验显著提升,图像生成高速高分辨率。

13、Reddit将测试AI驱动的搜索结果页面

Reddit的创始人兼首席执行官Steve Huffman透露,Reddit将推出AI驱动的搜索结果页面,提供AI生成的内容摘要。这一举措旨在帮助用户更轻松地找到感兴趣的内容,并推荐相关社区,进一步深入了解内容和探索更多Reddit社区。

【AiBase提要:】

🌟 Reddit将推出AI驱动的搜索结果页面,提供AI生成的内容摘要。

🤖 Reddit与OpenAI合作,利用其大型语言模型构建新功能。

📈 Reddit每周活跃用户达3.423亿,收入超出市场预期。

14、亚马逊升级AI图像生成器Titan Image Generator v2,支持参考图像来“引导”生成作品

亚马逊推出了升级版Titan Image Generator v2,为用户带来多项新功能,包括图像调节、配色方案控制、背景去除等。该模型还支持用户通过参考图像和文本提示来生成符合用户布局和结构要求的图像。AWS提供赔偿政策保护版权,Andy Jassy对生成AI技术充满信心。

image.png

【AiBase提要:】

🎨 用户可以通过图像调节功能精确控制创作内容,提供参考图像和文本提示后生成符合用户布局和结构要求的图像。

🌈 用户可以控制生成图像的配色方案,只需提供十六进制颜色代码即可。

🔍 背景去除功能得到显著提升,用户可以轻松从包含多个对象的图像中移除背景,确保主要对象清晰展现

详情链接:https://top.aibase.com/tool/amazon-titan-text-premier

举报

  • 相关推荐
  • 大家在看
  • FlyCode:利用AI优化订阅收入,减少客户流失。

    FlyCode是一款基于机器学习和人工智能技术的应用,旨在通过智能支付重试和优化支付流程来最大化订阅收入并减少客户流失。它为不同规模的品牌提供企业级的收入恢复服务,利用成千上万的数据点来确保尽可能高的恢复率。此外,FlyCode通过与客户电子邮件同步的智能逻辑来改善客户体验,确保在最佳时间和日期发送恢复电子邮件,提高打开率。这些电子邮件是事务性的且可定制的。

  • Coho AI:通过个性化体验,最大化每个用户的收益。

    Coho AI 是一款专注于用户旅程优化和客户留存管理的人工智能平台。它通过分析用户数据,自动发现最有价值的客户,个性化他们的体验,并自动增加每个用户的收入。该平台能够无缝集成到企业的数据中,自动对用户进行细分,识别最佳行动方案,并实时与用户互动,同时跟踪成功并持续优化增长策略。Coho AI 以其无需编码设置、实时行动、简单易用、智能自动化和快速见效等特点,帮助企业提升客户参与度和生命周期价值。

  • Superflex:前端开发助手,提升10倍开发效率。

    Superflex是一款前端开发助理插件,旨在帮助开发者通过各种输入方式快速构建UI组件和页面。它支持从Figma设计、草图、截图或文本提示生成代码,同时分析并重用现有代码库中的组件,以适应开发者的编码风格。Superflex通过VSCode插件的形式提供服务,支持多种输入源生成代码,并且能够适应开发者的编码风格,提供透明的定价策略,旨在帮助开发者提高工作效率,减少重复劳动,专注于创新和复杂问题的解决。

  • 博思AIPPT:AI一键生成PPT,开启做PPT新方式。

    博思AIPPT是一款利用人工智能技术,为用户快速生成PPT演示文稿的在线工具。它通过结构化大纲解析、导入文件、智能排版和AI重写等功能,帮助用户节省大量时间,专注于内容创作。产品背景信息显示,博思AIPPT覆盖全行业场景,包括市场营销、教育、设计等,适用于需要制作演示文稿的各类专业人士。产品提供免费试用,用户可以在线编辑PPT内容,零基础也能快速上手。

  • AI Comic Factory.com:利用AI技术,无需绘画技巧即可创造漫画。

    AI Comic Factory是一个在线AI漫画书生成器,它允许用户通过简单的描述来生成个性化的漫画。这个工具使用尖端的AI技术,使得即使是没有绘画技能的用户也能轻松创作出具有专业视觉效果的漫画。它支持多种漫画风格,包括美国、日本等,并提供多种布局选项。用户可以上传自己的图片,个性化故事,并利用AI保持角色在漫画中的一致性。此外,AI Comic Factory还提供了一个用户友好的界面,让用户能够轻松编辑和精细化他们的漫画作品。

  • 美图证件照:一分钟拍出专业证件照

    美图证件照是由美图秀秀出品的一款专业证件照制作APP,它通过提供多种照片规格和一键上传自拍照的功能,结合智能抠图剪裁、超清美颜和AI换装等技术,让用户可以轻松制作出理想的证件照。这款应用满足了用户在不同场合对证件照的需求,无需前往照相馆,即可在家中完成高质量的证件照制作。

  • Image to Video AI:在线将图片转换成视频的AI工具

    Image to Video AI是一个利用人工智能技术将静态图片转换成动态视频的在线工具。它通过用户上传图片和输入提示文本,快速生成具有动画文本和引人注目的过渡效果的视频。这种技术简化了视频制作流程,使得即使没有视频编辑经验的用户也能轻松创建专业级别的视频内容。产品的主要优点包括易用性、快速生成视频、无需下载安装、支持多种图片格式以及直接分享到社交媒体。

  • PicLumen:免费AI图像生成器,一键生成创意图像。

    PicLumen是一个在线AI图像生成器,它利用先进的人工智能技术,允许用户通过简单的文本输入快速生成高质量的图像。用户无需具备专业的设计技能,只需输入描述性文本,PicLumen的AI就能理解并创造出相应的图像。这个工具特别适合需要快速生成创意图像的个人和商业用户,无论是用于社交媒体内容创作、广告设计还是个人项目。PicLumen提供了多种图像风格,包括动漫、写实艺术、线条艺术和艺术风格,满足不同用户的需求。此外,它还支持图像到图像的个性化编辑,以及AI图像扩展功能,使用户能够无缝扩展图像并智能填充扩展区域。PicLumen的AI图像生成器是完全免费的,适用于个人和商业用途,但用户在使用时需要遵守其使用条款和条件。

  • Microsoft Teams:智能团队协作平台,提升工作效率。

    Microsoft Teams 是一款集成了聊天、会议、通话和协作功能的智能团队协作平台。它通过提供多种AI驱动的功能,如Copilot提示、Mesh虚拟协作和Teams电话服务,帮助团队更高效地沟通和协作。Teams 支持与Microsoft 365应用无缝集成,为不同规模的企业和教育领域提供定制化的解决方案。

  • My Storybook:创作并分享你的故事书

    My Storybook是一个在线平台,旨在帮助所有年龄段的作家创作、出版故事书。它提供写作、插图和角色创建等功能,让学习写作变得有趣。平台还为教师和学生提供教育解决方案,包括无缝的课堂集成和无限打印副本。

  • 阿贝智能:利用AI技术创作个性化儿童绘本

    阿贝智能是一家位于科技与教育交汇点的创新型企业,致力于通过尖端的人工智能技术,开启儿童教育的新纪元。我们相信每个孩子都拥有无限的潜能,而我们的使命是通过科技的力量,解锁这些潜能,帮助孩子们在愉悦的环境中成长和学习。

  • DeepLearning.AI:AI领域的专业课程和资源平台

    DeepLearning.AI 是由著名人工智能专家Andrew Ng创立的在线教育平台,专注于提供机器学习和深度学习领域的高质量课程和专业证书。该平台为初学者和专业人士提供了一个学习AI技能和应用它们的实践机会。通过与行业领导者的合作,DeepLearning.AI 确保了课程内容的前沿性和实用性,帮助学习者在AI领域建立坚实的基础,并推动他们的职业发展。

  • Microsoft Word:智能写作助手,文档设计和协作工具。

    Microsoft Word 是一款强大的文字处理软件,它通过智能写作辅助、文档设计和协作工具,帮助用户提升文档处理的效率和质量。Word 提供了丰富的模板、实时协作编辑、语音输入和命令、以及沉浸式阅读器等功能,支持多种语言,并与 Microsoft 365 其他应用无缝集成,适用于个人和企业用户。

  • ReadLecture:轻松视频转图文,加速内容学习与传播

    ReadLecture 是一款专注于讲座类视频转换为图文结合文档的平台,通过AI技术精准截取视频中的PPT和将演讲者的语言转换为文字稿,大幅提升视频内容的观看效率。该产品通过智能AI笔记生成,提供多维度笔记,包括内容大纲思维导图、自我问答、金句摘抄、专业术语解释、内容翻译等,助力用户高效学习和传播知识。

  • 数美智能文本检测:高效识别各类敏感、违禁、色.情等风险文本内容

    数美科技的智能文本检测产品基于先进的语义模型和海量多语种样本库,能够精准识别并过滤各种敏感、违禁、色.情、暴恐、辱骂、广告导流等风险文本内容。该产品支持多种海外语言检测和风险标签识别,适用于多种应用场景,如文档、帖子、评论、签名、昵称、弹幕等,帮助企业维护网络环境的清洁和安全。

  • 龙源AI检测系统:智能AI写作检测系统,保障文本原创性和学术诚信

    龙源AI检测系统是一款利用大数据和人工智能技术,为学术研究、教育评估、文化传媒等领域提供服务的高科技产品。该系统能够高精度地检测出AI生成的文本和抄袭内容,无论文本长度、类型和语境的限制。系统采用分布式计算和云端部署技术,快速响应和处理大量的文本请求,并自动识别和过滤出有效的文本,提高检测效率和准确度。

  • 知网个人AIGC检测服务:快速、准确识别学术文本中疑似AI生成内容。

    知网个人AIGC检测服务系统利用结构化、碎片化和知识元化的高质量文献大数据资源,结合知识增强AIGC检测技术和多种检测算法,从语言模式和语义逻辑两个维度,使用AI技术检测AIGC生成的内容,旨在帮助用户快速、准确地识别学术文本中的AI生成内容。该服务对于维护学术诚信和提高研究质量具有重要意义。

  • 有道翻译AI写作:一键生成论文、邮件等,提升写作效率。

    有道翻译·AI写作是一款旨在提高写作效率和内容质量的在线工具。它支持一键生成论文、邮件、公文通知、营销文案等,同时提供润色、扩写、总结、去重等高级功能。该产品支持100多种语言,通过多端同步技术,用户可以在不同设备上继续之前的工作,保证了数据的安全性和创作的连续性。

  • 触站AI:AI技术驱动的一站式智能绘画解决方案。

    触站AI绘画是广州触站科技有限公司旗下的一款利用尖端AI技术,为用户打造一站式智能绘画解决方案的平台。它整合了艺术与商业,使用户能够轻松地将想象力转化为现实,提高工作效率,同时开拓更多的商业机会。该平台的应用范围广泛,不仅适用于美术创作、动画制作,还可用于游戏开发、虚拟现实等多领域。

  • Influenbase:AI驱动的TikTok达人营销智能管家

    Influenbase是BrandPal旗下硅谷研发团队打造的AI驱动的TikTok达人营销智能管家。它通过AI算法精细化筛选达人,一键自动与优质达人批量建联,实现从达人建联、合作沟通、物流跟踪、达人视频审核及二次合作等功能,帮助品牌降本增效、实现高质量持续增长。

今日大家都在搜的词: