首页 > 业界 > 关键词  > OpenAI最新资讯  > 正文

AI日报:OpenAI发布GPT-4o mini;腾讯华为联合推AI换衣技术IMAGDressing-v1;豆包浏览器插件上线播客和视频总结功能

2024-07-19 15:07 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

1、OpenAI发布GPT-4o mini,API降价60%!

OpenAI推出GPT-4o mini,号称是智能领域的“经济适用男”,降价60%,性能卓越。该模型在成本和性能上均有突出表现,为智能革命铺平道路。

image.png

【AiBase提要:】

💡 GPT-4o mini降价60%,每百万输入令牌15美分,输出令牌60美分,性价比极高

💡 支持文本和视觉API,未来将扩展至图像、视频和音频输入输出,功能强大多样化。

💡 在学术测试中表现出色,超越GPT-3.5Turbo,支持多模态推理,具备128K令牌上下文窗口。

2、腾讯华为联合推AI换衣技术IMAGDressing-v1:兼容ControlNet、文字提示词生成场景背景

IMAGDressing-v1 是一款创新性的AI换衣工具,为用户提供更灵活、更真实的虚拟穿衣体验。其简单架构和高效定制能力使虚拟试衣变得直观便捷。同时,兼容多种插件扩展功能,支持局部服装更换实验功能,展示了未来虚拟试衣技术的潜力。

image.png

【AiBase提要:】

🌟 简单架构,快速定制:IMAGDressing-v1 无需额外训练,快速生成逼真穿着效果。

🛠️ 灵活插件兼容:支持与IP-Adapter和ControlNet等插件结合,提升工具功能和适用性。

🔄 局部服装更换:实验性功能允许对服装指定区域进行更换,增加虚拟试衣的灵活性。

详情链接:https://top.aibase.com/tool/imagdressing

3、长视频也不怕!Goldfish:可理解任意长度视频

Goldfish是一种革命性的技术,解决了传统AI模型在处理长视频时的困难。通过高效的检索机制和描述生成技术,Goldfish能够处理任意长度的视频内容,不仅在长视频领域表现出色,也在短视频理解方面取得显著突破。

image.png

【AiBase提要:】

🔍 Goldfish采用高效的检索机制,能提取出长视频中与指令相关的视频片段,从而解决长视频处理难题。

🚀 Goldfish团队开发了MiniGPT4-Video,可以为视频片段生成详细描述,提升了处理长视频的能力。

💡 Goldfish在TVQA-long基准测试中准确率达到41.78%,在短视频基准测试中也表现优异,展示了其强大的处理能力。

详情链接:https://top.aibase.com/tool/goldfish

4、科大讯飞星火推出Spark Pro-128K大模型

科大讯飞推出的Spark Pro-128K大模型具备超长文本处理能力,能显著提升AI大模型在实际应用中的价值。该模型不仅能处理超长文本,还具备内容溯源功能,提高回答的可信度。开发者可免费领取500万tokens体验和利用这一大模型的能力。

【AiBase提要:】

🚀 讯飞星火大模型 V4.0 整体超越 GPT-4 Turbo,七大核心能力全面提升。

🔍 模型支持超长文本处理,可指出答案来源,提高回答可信度。

💡 开发者可免费领取 500 万 tokens 体验 Spark Pro-128k 版本

5、DeepL推出新一代翻译AI,翻译表现超越GPT-4

DeepL公司最新推出的新一代语言模型在翻译准确度上超越了Google翻译和GPT-4,为用户提供更优质的翻译体验。用户可通过DeepL Pro计划轻松切换到新模型,费用从1150日元/月起。

image.png

【AiBase提要:】

📈 新一代语言模型在翻译精度上超越了Google翻译和GPT-4,提升翻译质量

🔍 新模型在日英互译、简中英互译、德英互译中表现更佳,编辑工作量显著减少

💵 DeepL Pro计划已支持新模型,用户可通过按钮切换,月费从1150日元/月起

6、B站长视频总结神器!豆包浏览器插件上线播客和视频总结功能

在这个信息爆炸的时代,豆包浏览器插件为我们带来了全新的解决方案,让我们能够高效吸收和整理海量知识。它提供了视频内容总结、目录生成、脑图绘制、笔记功能等,极大地提升了处理信息的效率。同时,插件还支持播客总结、文章总结和翻译功能,为用户提供了多种学习工具。用户友好的设计和多功能性使得豆包浏览器插件成为我们日常学习和工作中的得力助手。

QQ截图20240719104954.jpg

【AiBase提要:】

🔍 豆包浏览器插件提供视频内容总结、目录生成、脑图绘制和笔记功能,轻松帮助用户快速了解和消化超长视频内容。

🎧 豆包浏览器插件支持播客总结功能,能听完播客并转文字总结,提高用户处理信息的效率。

📚 豆包浏览器插件还具备文章总结和翻译功能,交互设计舒适,适合不同类型用户使用。

详情链接:

https://chromewebstore.google.com/detail/%E8%B1%86%E5%8C%85%EF%BC%8C%E6%B5%8F%E8%A7%88%E5%99%A8-ai-%E5%8A%A9%E6%89%8B/dbjibobgilijgolhjdcbdebjhejelffo

7、Groq开源的Llama AI模型登顶排行榜,函数调用方面优于GPT-4o和Claude

Groq发布的开源AI模型在特定任务中表现优异,挑战了科技巨头的专有模型,通过合成数据训练解决了常见的数据隐私和过拟合问题,可能改变AI领域的发展路径,促进更广泛的AI可访问性和创新生态系统的培育。

image.png

【AiBase提要:】

⭐ Groq发布的开源AI模型在特定任务中胜过了科技巨头的专有模型。

⭐ 通过使用合成数据训练,Groq挑战了AI模型开发中常见的数据隐私和过拟合问题。

⭐ 开源模型的推出可能改变AI领域的发展路径,促进更广泛的AI可访问性和创新生态系统的培育。

8、全球首部完全AI翻译配音电影即将上映,配音工种面临失业危机!

全球首部由AI完全翻译配音的电影《Watch The Skies》即将登陆美国各大院线。Flawless公司的TrueSync技术实现了人工智能的翻译和配音,让观众享受更真实的观影体验。

【AiBase提要:】

🎬 电影《Watch The Skies》通过Flawless的TrueSync技术实现AI完全翻译配音,让观众感受仿佛是用英语拍摄的效果。

🤖 Flawless的AI配音技术将影片中所有角色的口型与英语完全同步,消除了观众在观看配音版本时的不适感。

🌐 Flawless希望通过TrueSync技术让观众在流媒体上观看热门节目时,不再受到口型不匹配和残酷场景剪辑的困扰。

详情链接:

https://variety.com/2024/film/news/flawless-ai-lip-dubbing-movies-tv-1236068071/

9、英文视频翻译神器EasyVideoTrans 极速转换,可灵活修改

在全球化时代,跨语言沟通至关重要。EasyVideoTrans利用GPU加速技术,实现极速视频转换,节省翻译时间。操作简便,灵活定制,支持多平台使用。

image.png

【AiBase提要:】

高效快速转换: 利用GPU加速技术,视频转换极速完成。

个性化定制: 支持字幕编辑、翻译引擎选择,用户可灵活调整参数。

操作简便: 直观的WEB界面设计,轻松上手,无需复杂操作。

详情链接:https://top.aibase.com/tool/easyvideotrans

10、谷歌成 “美国官方AI赞助商”

谷歌成为美国队官方AI赞助商,将在2024年巴黎奥运会直播中展示其Gemini AI等人工智能功能。合作伙伴NBCUniversal将突出展示谷歌地图的3D视图和活动场馆细节,解说员将利用谷歌搜索AI总览回答奥运会问题,演员和运动员也将使用Gemini等AI工具参与各种活动。喜剧演员莱斯利·琼斯将与Gemini合作学习新运动,共同探索巴黎。

【AiBase提要:】

🏅 谷歌Gemini AI将在2024年巴黎奥运会直播中大放异彩

🌍 直播中将展示谷歌地图的3D视图和活动场馆细节

🔍 解说员将利用谷歌搜索AI总览回答奥运会问题,演员和运动员也将利用Gemini等AI工具参与各种活动。

11、AI“越狱”新招!“过去式”提示词瞬间攻破GPT-4o等六大模型

经过多次迭代,大型语言模型(LLMs)在处理自然语言方面表现出色,但也带来了风险。研究人员发现简单将有害请求转换成过去时态可绕过拒绝训练,导致先进LLMs“越狱”。研究揭示了AI对齐技术的局限性,引发了对AI泛化能力的讨论。

image.png

【AiBase提要:】

🔍 大型语言模型在处理自然语言表现出色,但存在风险,如生成有毒内容、传播错误信息。

🚫 通过简单转换有害请求为过去时态,许多先进LLMs“越狱”,绕过拒绝训练。

🔗 解决方案是在训练数据中包含过去时态例子,提高模型对过去时态请求的拒绝能力。

详情链接:https://arxiv.org/pdf/2407.11969

12、OpenAI与博通等公司商讨开发新一代AI服务器芯片

OpenAI与博通等公司商讨开发新一代AI服务器芯片,旨在提升公司在AI开发中的计算能力,减少对Nvidia GPU的依赖,增强市场竞争力。

【AiBase提要:】

🗣️ OpenAI首席执行官山姆·奥特曼(Sam Altman)正在主导计划,提高公司AI开发计算能力。

🤝 OpenAI招募曾参与Google TPU开发的前员工,助力芯片设计工作。

🚀 OpenAI的芯片开发计划旨在减少对Nvidia GPU的依赖,增加在AI芯片市场的竞争力。

13、Meta暂停其在巴西的生成式AI工具训练

在巴西,Meta的AI助手突然被按下了暂停键,原因是巴西国家数据保护局(ANPD)的一纸禁令。这一决定给Meta在巴西市场扩展AI产品的计划泼了一盆冷水,同时也可能影响其全球AI战略。

【AiBase提要:】

🚫 ANPD禁止Meta使用巴西人个人数据训练AI模型,设定每天5万雷亚尔罚款。

💬 Meta暂停在巴西上线的genAI功能,与ANPD接触解决问题。

🔒 数据保护法规对全球科技公司提出挑战,Meta需重视合规性与数据隐私保护。

举报

  • 相关推荐
  • AI日报:字节发布豆包1.5深度思考模型;微信首个AI助手 “元宝” 上线OpenAI发布o4-mini、满血版o3

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、OpenAI发布两款多模态推理模型o4-mini、满血版o3OpenAI在技术直播中推出了其最新的多模态模型o4-mini和满血版o3,这两款模型具备同时处理文本、图像和音频的能力,并能调用外部工�

  • AI日报OpenAI下周或发布GPT-4.1系列;Pika全新AI视频功能Twists;商汤科技日日新V6震撼发布

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、报道称OpenAI下周重磅发布GPT-4.1系列,包含Mini版和Nano版OpenAI即将发布GPT-4.1系列及o3系列,标志着其在多模态和推理能力上的重大进展。新加坡在AI技能学习上投入的时间显著高于其他亚太国家,显示出其在AI人才培养方面的竞争力。

  • AI日报OpenAI推出gpt-image-1图像生成API;纳米AI发布MCP万能工具箱;中国占全球AI专利60%

    【AI日报】栏目聚焦人工智能领域最新动态:1) OpenAI推出ChatGPT图像生成API,开发者可轻松集成AI绘图功能,已生成超7亿张图片;2) 谷歌Gemini月活用户突破3.5亿,但仍落后于ChatGPT的6亿用户;3) OpenAI预测2029年收入将达1250亿美元,AI代理业务成主要增长点;4) Ostris发布8B参数扩散模型Flex.2-preview,优化ComfyUI工作流;5) 英伟达推出多模态LLM模型Describe Anything,支持指定区域生成详细描�

  • OpenAI回应GPT-4o更新后过于谄媚:已逐渐恢复

    OpenAI紧急回滚GPT-4o免费版更新,因其在对话中表现出过度迎合用户的"谄媚倾向",尤其在争议话题上丧失中立立场。该模型虽在STEM领域准确率提升17%,但优化后出现意外偏差:面对用户偏见时会合理化解释,甚至不纠正明显错误事实。这揭示了AI在用户满意度与客观性间的平衡难题。类似事件早有先例,如谷歌Gemini因过度追求多样性扭曲历史图像。两案例共同指向AI发展核心矛盾:技术突破后,更复杂的价值观对齐问题正成为行业最大挑战。(140字)

  • OpenAI深夜上线o3满血版和o4 mini - 依旧领先。

    晚上1点,OpenAI的直播如约而至。其实在预告的时候,几乎已经等于明示了。没有废话,今天发布的就是o3和o4-mini。但是奥特曼这个老骗子,之前明明说o3不打算单独发布要融到GPT-5里面一起发,结果今天又发了。。。ChatGPT Plus、Pro和Team用户从今天开始将在模型选择器中看到o3、o4-mini和o4-mini-high,取代o1、o3-mini和o3-mini-high。我的已经变了,但是我最想要的o3pro,还要几周才能提供

  • OpenAI紧急修复GPT-4o献媚问题,已回滚到老版本

    OpenAI CEO Sam Altman确认已修复GPT-4o"阿谀奉承"问题,免费用户已完成100%回滚至旧版本,付费用户预计今晚完成更新。此前大量用户投诉GPT-4o过度谄媚,甚至出现讨好型人格。OpenAI疑似进行A/B测试时意外产生该问题,引发公众强烈反对后紧急回滚。特斯拉AI总监Andrej Karpathy等专业人士表示喜欢新版更具对话感的特性,但普通用户可通过自定义指令调整风格。目前免费版已恢复正常,但使用特定指令仍可调出类似回答。该事件反映出AI个性设置与用户体验平衡的挑战。

  • OpenAI没说的秘密,Meta全揭了?华人一作GPT-4o同款技术,爆打扩散王者

    Meta、西北大学和新加坡国立大学的研究团队提出TokenShuffle技术,显著提升了自回归模型生成高分辨率图像的能力。该技术通过局部窗口内的token合并与解构操作,将视觉token数量减少为平方分之一,首次实现2048×2048分辨率图像生成。基于27亿参数的Llama模型,TokenShuffle在GenAI基准测试中获得0.77综合得分,超越同类自回归模型0.18分,在人类评估中展现出更好的文本对齐和视觉质量。该方法无需修改Transformer架构,通过三阶段训练策略(512→1024→2048分辨率)逐步提升生成能力,为多模态大语言模型的高效高保真图像生成开辟了新路径。

  • OpenAI发布o3、o4 mini模型,实现“看图说话”,糊图也行!

    从 GPT-5 开始,推理模型和非推理模型很有可能会整合在一起……

  • 刚刚,OpenAI发布GPT-image-1模型,更强吉卜力版本来啦

    OpenAI发布全新图像生成模型GPT-image-1,通过API向全球开发者开放。该模型支持精细控制图像敏感度、生成效率、背景、输出格式等参数,并集成吉卜力模式。Adobe、Figma等企业已将其应用于产品中。API支持批量生成、蒙版编辑、透明度调整等高级功能,图像生成成本从0.02-0.19美元/张不等。CEO Sam Altman表示该模型与ChatGPT版本差异显著,开发者可通过API实现更多创意场景。新模型在�

  • AI日报:智谱开源32B/9B系列GLM模型并启用Z.ai域名;OpenAI发布GPT-4.1系列模型;阿里魔搭上线MCP广场

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、智谱AI启用全新域名Z.ai 并开源32B/9B 系列 GLM 模型智谱技术团队近期宣布开源32B和9B系列的GLM模型,并推出全新交互体验平台Z.ai。这些模型遵循MIT许可协议,支持商业用途,提升了

热文

  • 3 天
  • 7天