首页 > 业界 > 关键词  > GPT-4o最新资讯  > 正文

AI日报:GPT-4o新版本上线;面壁智能开源手机版“GPT-4V”;华为推3D数字人新框架​EmoTalk3D;阿里上线奥运时刻海报工作流

2024-08-07 15:02 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、开发者狂喜!GPT-4o新版本上线,API 更快更便宜

OpenAI 近期推出了全新的结构化输出功能,旨在使模型生成的输出严格遵循开发者提供的 JSON 模式,提升输出的可靠性和匹配度。这一功能的推出为开发者构建可靠应用程序提供了重要基础,简化了开发过程,帮助开发者更轻松地创建出色的应用。

image.png

【AiBase提要:】

🌟 结构化输出功能使模型输出更可靠,遵循开发者提供的 JSON 模式。

🔍 新模型 gpt-4o-2024-08-06在复杂 JSON 模式的评估中获得完美100% 分数。

🔧 Python 和 Node SDK 已更新,支持结构化输出,简化开发者的工作流程。

详情链接:https://openai.com/index/introducing-structured-outputs-in-the-api/

2、面壁智能开源 MiniCPM-V2.6可以在手机上跑的“GPT-4V”

MiniCPM-V2.6是一款端侧多模态人工智能模型,仅有8B参数却取得了20B以下单图、多图、视频理解三项SOTA成绩,与GPT-4V水平全面对标。该模型在端侧实现了单图、多图和视频理解等核心能力的全面超越,具有极高的像素密度和运行效率,支持多种语言和推理框架。

image.png

【AiBase提要:】

🚀 MiniCPM-V2.6取得了20B以下单图、多图、视频理解三项SOTA成绩,与GPT-4V水平全面对标

💡 模型具有极高的像素密度和运行效率,在端侧设备上实现了极高的运行效率

🌐 MiniCPM-V2.6支持多种语言和推理框架,通过OCR能力实现了从单图到多图及视频的流畅拓展

详情链接:

GitHub:https://github.com/OpenBMB/MiniCPM-V

HuggingFace: https://huggingface.co/openbmb/MiniCPM-V-2_6

llama.cpp、ollama、vllm 部署教程地址:

https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc

MiniCPM 系列开源地址:

https://github.com/OpenBMB/MiniCPM

3、华为、复旦联手打造3D数字人新框架EmoTalk3D:喜怒哀乐表情逼真丰富

研究团队从南京大学、复旦大学和华为诺亚方舟实验室联手打造了EmoTalk3D框架,解决了多视角一致性和情感表现力不足的难题。他们提出了合成可控情感数字人的新方法,构建了从语音到几何再到外观的映射框架,并建立了EmoTalk3D数据集。

【AiBase提要:】

💥 提出合成可控情感数字人的新方法。

🎯 构建“从语音到几何再到外观”的映射框架。

👀 建立EmoTalk3D数据集并准备开放。

详情链接:https://nju-3dv.github.io/projects/EmoTalk3D/

4、阿里云PAI Artlab新增奥运高光时刻海报工作流

阿里云PAI Artlab的ComfyUI新增了一个奥运高光时刻海报的工作流,用户只需三步即可生成个性化的奥运主题海报。用户需要先在阿里云官网注册并完成实名认证,然后访问PAI ArtLab平台,领取免费资源,并通过ComfyUI加载奥运流程来解锁更多海报设计。

image.png

【AiBase提要:】

🌟 用户只需三步即可生成个性化的奥运主题海报。

🚀 需要上传图片数据、加载并微调AI模型,调整生成内容的Prompt,保存工作流并生成json文件。

💡 其他用户可以通过生成的json文件快速生成海报,实现共享与交流。

产品入口:https://x.sm.cn/5hd9PfM

详情点此查看:https://www.aibase.com/zh/news/10857

5、腾讯元宝AI助手上线长文精读 支持最长近50万字输入

腾讯元宝AI助手推出了长文精读功能,用户上传专业内容后可进入深度阅读模式,提供核心内容概览、模块化解析和总结性图表,帮助用户快速理解关键信息。利用腾讯混元大模型处理能力,支持最长近50万字输入,生成图文并茂的内容。用户可评估论文质量、查看专业图表和在离线状态下回看精读内容。腾讯混元大模型已全面开源,展现卓越的多模态理解能力。

【AiBase提要:】

📚 长文精读功能提供深度阅读模式,核心内容概览、模块化解析和总结性图表。

🔍 利用腾讯混元大模型处理能力,支持最长近50万字输入,生成图文并茂的内容。

💡 用户可评估论文质量、查看专业图表和在离线状态下回看精读内容。

6、月之暗面 Kimi 开放平台:上下文缓存 Cache 存储费用降价50%

Kimi 开放平台宣布上下文缓存存储费用降价50%,为用户提供更经济实惠的服务。上下文缓存是高效的数据管理技术,能够提高系统效率和节省时间资源。

image.png

【AiBase提要:】

🔑 上下文缓存存储费用降价50%,从10元/1M tokens/min降至5元/1M tokens/min。

⏳ 上下文缓存是一种高效的数据管理技术,能够预先存储可能被频繁请求的大量数据,提高系统效率。

💡 上下文缓存特别适合频繁请求、重复引用大量初始上下文的场景,可降低长文本模型费用并提高效率。

7、Figure公司发布超强实体ChatGPT机器人Figure02

Figure公司最新推出的Figure02机器人标志着AI技术的重大突破,预示着人机交互进入全新时代。该机器人在硬件和软件上进行了全面革新,具有灵活手部操作、强大对话视觉能力和3倍计算推理能力。

【AiBase提要:】

🤖 Figure02机器人是AI技术重大突破,预示人机交互新时代。

🔊 语音对话功能、先进视觉系统、革命性手部设计是其核心特点。

💡 Figure02集成OpenAI大模型,结合语音指令和视觉信息进行深度推理。

8、AI设计加持义乌制造:AI设计穿戴甲火到巴黎奥运

这篇文章介绍了一款由AI设计、义乌生产的穿戴甲在巴黎街头引发热议的故事,展示了义乌制造业注入新活力的场景。通过AI技术设计的穿戴甲产品在巴黎引起轰动,证明了义乌的创新实力和市场敏锐度。

image.png

【AiBase提要:】

🔥 AI设计穿戴甲在巴黎引发热议,成为时尚界新宠,为义乌制造注入活力。

💡 LumiNail是一款傻瓜式AI穿戴甲设计产品,简单yet强大,提高设计效率,注入创意活力。

🚀 义乌商家开始尝试AI辅助生产,超过1万户商户使用AI技术优化经营,开辟新发展方向。

9、上海人工智能实验室推出书生·浦语系列模型新版本InternLM2.5

上海人工智能实验室在2024年7月4日的WAIC科学前沿主论坛上推出了书生·浦语系列模型的新版本InternLM2.5,该版本在复杂场景下的推理能力得到全面增强,支持超长上下文和自主进行互联网搜索整合信息。模型参数版本包括1.8B、7B和20B,适应不同应用场景和开发者需求。

【AiBase提要:】

⚙️ InternLM2.5发布三种参数版本的模型,包括1.8B、7B和20B,满足不同应用场景需求。

🔍 InternLM2.5在多个数据合成技术上进行迭代,显著提升模型的推理能力,特别在数学评测集MATH上的准确率达到64.7%。

🛠️ InternLM2.5实现了与下游推理和微调框架的无缝对接,包括XTuner微调框架、LMDeploy推理框架和其他社区框架。

详情链接:https://internlm.intern-ai.org.cn

10、以色列公司推出速度提升50%的开源语音识别模型Whisper Medusa

aiOla公司推出的Whisper Medusa开源语音识别模型在处理速度上取得了重大突破,比OpenAI的Whisper模型快50%,引起了业界广泛关注。这一创新将为语音识别技术的发展带来深远影响,为人工智能在语音识别领域的应用开辟新的可能性。

【AiBase提要:】

⚙️ Whisper Medusa的核心创新在于引入了多头注意力机制,使模型能够每次预测十个tokens,显著提高了语音预测速度和生成运行时间。

🔍 Whisper Medusa在提高速度的同时并未牺牲性能,主干系统建立在Whisper的基础上,保证了模型的准确性和稳定性。

🎓 aiOla采用弱监督的机器学习方法训练Whisper Medusa,进一步提高了模型的学习效率和准确性。

详情链接:https://github.com/aiola-lab/whisper-medusa

11、新流量密码?AI视频翻车意外走红:一段诡异画面引发2000万次观看

AI生成的内容已经渗透到我们的生活中,但最近一段AI翻车视频却成为网络热点,吸引了近2000万次观看,揭示了人们对AI技术的复杂态度。这段视频展示了AI图像生成技术的失控一面,引发了网友们的强烈反应。公众对AI技术的态度正在发生微妙的变化,需要保持幽默感和开放心态。

【AiBase提要:】

🤖 AI视频翻车成网络热点,吸引2000万次观看。

😱 视频展示AI失控画面,引发强烈反应。

😄 公众态度对AI发生微妙变化,需保持幽默感和开放心态。

12、摩尔线程AI创作平台摩笔马良全新升级

摩笔马良全新升级,提供更高效、个性化的图像生成体验,强化对中文和中国文化的理解,实现精准创意人像生成。用户操作简单,上传照片、输入描述、生成图片,快速实现个性化创意人像。新增20多种预置风格满足多样化创意需求,AI算法和交互体验显著提升,图像生成高速高分辨率。界面优化简化操作流程,提升交互直观性和便捷性,为个人用户和专业人士带来前所未有的创意体验。

image.png

【AiBase提要:】

🎨 提供更高效、个性化的图像生成体验,强化对中文和中国文化的理解,实现精准创意人像生成。

🖼️ 新增20多种预置风格,满足用户多样化创意需求。

🚀 AI算法和交互体验显著提升,图像生成高速高分辨率。

13、Reddit将测试AI驱动的搜索结果页面

Reddit的创始人兼首席执行官Steve Huffman透露,Reddit将推出AI驱动的搜索结果页面,提供AI生成的内容摘要。这一举措旨在帮助用户更轻松地找到感兴趣的内容,并推荐相关社区,进一步深入了解内容和探索更多Reddit社区。

【AiBase提要:】

🌟 Reddit将推出AI驱动的搜索结果页面,提供AI生成的内容摘要。

🤖 Reddit与OpenAI合作,利用其大型语言模型构建新功能。

📈 Reddit每周活跃用户达3.423亿,收入超出市场预期。

14、亚马逊升级AI图像生成器Titan Image Generator v2,支持参考图像来“引导”生成作品

亚马逊推出了升级版Titan Image Generator v2,为用户带来多项新功能,包括图像调节、配色方案控制、背景去除等。该模型还支持用户通过参考图像和文本提示来生成符合用户布局和结构要求的图像。AWS提供赔偿政策保护版权,Andy Jassy对生成AI技术充满信心。

image.png

【AiBase提要:】

🎨 用户可以通过图像调节功能精确控制创作内容,提供参考图像和文本提示后生成符合用户布局和结构要求的图像。

🌈 用户可以控制生成图像的配色方案,只需提供十六进制颜色代码即可。

🔍 背景去除功能得到显著提升,用户可以轻松从包含多个对象的图像中移除背景,确保主要对象清晰展现

详情链接:https://top.aibase.com/tool/amazon-titan-text-premier

举报

  • 相关推荐
  • AI日报:阿里开源3D数字人项目MNN TaoAvatar;MiniMax Agent上线;罗永浩数字人直播再探“AI+IP”带货模式

    本文汇总了AI领域最新动态:1)阿里开源MNN+TaoAvatar技术,实现手机端3D数字人实时交互;2)MiniMax升级AI工具Agent,新增智能图像搜索和多语言支持;3)罗永浩数字人将登陆百度电商直播;4)OpenAI员工套现近30亿美元,软银成最大接盘方;5)ChatGPT推出深度研究和语音模式升级;6)Meta发布V-JEPA2模型,提升机器人环境适应能力;7)AMD与OpenAI合作推出新一代AI芯片;8)Google Gemini集成Imagen4图像生成模型;9)谷歌AI实现10公里级精准天气预报;10)Gartner预测到2028年80%的AI应用开发时间将缩短50%。

  • AI日报:阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • AI日报:DeepSeek开源新版R1-0528;字节发布图像Agent小云雀AI;可灵2.1重磅上线

    本期AI日报聚焦多项AI领域突破:1)DeepSeek发布R1-0528模型,支持128K上下文且性能媲美GPT-4;2)字节推出"小云雀AI"图像创作工具;3)可画2.1版本价格降65%性能提升;4)Opera发布全球首款AI浏览器Neon;5)Meta推出多模态空间理解模型;6)北大团队研发ZeroSearch框架降低大模型训练成本88%;7)字节推出AI视频剪辑应用"剪小映";8)MotionPro实现40ms/帧精准视频控制;9)xAI与Telegram达成3亿美元合作部署Grok聊天机器人;10)OpenAI重组架构为IPO铺路;11)像素蛋糕"方糖大模型"获国内首个影像行业备案;12)Paper2Poster实现论文自动转海报;13)Resemble AI开源TTS模型性能比肩ElevenLabs;14)蚂蚁集团开源对标GPT-4o的多模态模型Ming-lite-omni。

  • AI日报:豆包大模型1.6发布;OpenAI推o3-pro模型、o3价格暴降80%;Figma官方MCP重磅上线

    【AI日报】今日AI领域重要动态:1)火山引擎发布豆包大模型1.6和视频生成模型Seedance1.0pro,性能显著提升;2)OpenAI推出o3-pro模型,专注可靠性但响应较慢;3)Figma推出Dev Mode MCP服务,实现设计到代码一键转换;4)Krea AI发布图像生成模型Krea1,解决传统AI绘图问题;5)火山引擎豆包日调用量突破16.4万亿次;6)法国Mistral发布推理模型Magistral;7)苹果系统整合ChatGPT图像生成功能;8)OpenAI大幅下调o3价格80%并推出o3-pro;9)Hugging Face开源榜单显示中国团队Qwen与DeepSeek进入全球前15;10)阿里开源MaskSearch框架,提升AI解决复杂问题能力。

  • AI日报:腾讯混元3D 2.1大模型开源;字节跳动AI Lab负责人李航卸任;OpenAI Codex 全新升级

    本文介绍了AI领域最新动态:1)腾讯开源混元3D2.1大模型,提升3D生成质量;2)OpenAI Codex升级,优化代码生成功能;3)字节跳动AI Lab负责人李航卸任;4)微软发布700个AI应用案例;5)微软推出Code Researcher工具,解决58%系统崩溃问题;6)Observer AI实现屏幕操作自动化;7)Genspark发布AI浏览器;8)麻省理工用AI技术3.5小时修复15世纪名画;9)蚂蚁集团推出开源多模态GPT-4o模型Ming-Omni;10)MagicTryOn视频换衣框架;11)字节跳动发布实时互动AI视频生成模型Seaweed APT2;12)ChatGPT搜索功能升级;13)字节跳动与老凤祥合作开发AI智能眼镜。

  • AI日报:ChatGPT支持MCP和会议记录功能;Cursor 1.0 版本重磅发布;Midjourney视频功能将在本月上线

    本期AI日报聚焦多项AI领域突破:1)OpenAI为ChatGPT新增企业数据连接和会议记录功能;2)Cursor 1.0发布集成BugBot等开发工具;3)Midjourney即将推出视频生成功能;4)秘塔AI搜索新增PPT导出功能;5)Manus推出文本生成视频工具挑战Sora;6)法国Mistral发布企业级编程助手;7)英伟达推出文档处理专用AI模型;8)腾讯公益引入大模型提升互动体验;9)Firecrawl推出网页抓取API工具;10)Bland AI实现超真实语音克隆;11)报告显示AI训练成本逼近百亿美元;12)开源设计工具Jaaz支持批量图像生成;13)《逆水寒》手游接入AI实现图片动效玩法。

  • AI日报:Midjourney重磅推出视频生成模型V1;OpenAI将在今年夏季发布GPT-5;谷歌推Search Live语音搜索功能

    本期AI日报聚焦多项AI领域重要进展:1) Midjourney推出首款视频生成模型V1,支持21秒视频生成;2) OpenAI CEO确认GPT-5将于今夏发布;3) Google上线语音对话搜索功能Search Live;4) OpenAI开源客户服务代理框架;5) MiniMax发布智能代理Agent;6) 恶意工具WormGPT出现新变种;7) OpenAI推出企业版ChatGPT折扣;8) DeepSite V2支持3D网页动画生成;9) AI工具可秒变PPT;10) 比亚迪与字节跳动合作开发动力电池技术;11) 马斯克否认xAI巨额亏损传闻。

  • AI日报:通义千问开源Qwen3向量模型;字节跳动图像编辑模型SeedEdit 3.0;ElevenLabs推v3语音模型

    本文汇总了近期AI领域的重要动态:1)通义千问发布Qwen3-Embedding系列模型,在多语言文本处理表现优异;2)字节跳动推出图像编辑模型SeedEdit3.0,提升细节保持能力;3)ElevenLabs发布情感语音合成系统Eleven v3 Alpha;4)Anthropic推出面向国家安全的Claude Gov模型;5)可灵AI月收入连续两月超1亿元;6)Meta公布智能眼镜Aria Gen2技术细节;7)爱诗科技上线AI视频工具"拍我AI";8)富国银行预测2030年ChatGPT广告收入将达千亿美元。

  • AI日报:昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

    本文介绍了AI领域最新动态:1)昆仑万维推出全球首款AI+Agent架构的Office智能体应用;2)研究显示ChatGPT能提升K12学生成绩近87%;3)谷歌视频生成工具Veo3扩展至更多地区;4)谷歌发布三款Gemma模型变体,覆盖医疗、手语翻译和海豚语言研究;5)VideoTutor实现一句话生成定制教学视频;6)字节跳动开源多模态模型BAGEL;7)Rork支持无代码开发iOS/Android应用;8)AingDesk降低AI助手开发门槛;9)Claude4登陆亚马逊Bedrock平台;10)Youware通过MCP协议提升网页生成能力。这些创新展示了AI技术在各领域的快速发展和应用潜力。

  • AI日报:通义千问3大模型全球爆火;即梦图片3.0智能参考全量上线;智谱AI企业级超级助手Agent CoCo上线

    【AI日报】今日AI领域重要动态:1.通义千问3大模型全球下载量超1250万,衍生模型13万+;2.即梦图片3.0上线,AI设计进入"零门槛"时代;3.智谱AI发布企业级超级助手Agent CoCo;4.百度推出金融行业大模型"千帆慧金";5.小红书开源首个大模型dots.llm1,含1420亿参数;6.Hugging Face开源LeRobot项目,降低机器人研发门槛;7.ChatGPT语音功能升级,支持更自然对话翻译;8.Google Gemini应用下载量超ChatGPT但活跃度不足;9.轻量级文档解析模型MonkeyOCR表现优异;10.Google Veo3推出高速视频生成模式;11.Google调整AI Studio政策,限制Gemini2.5Pro免费访问。