首页 > 业界 > 关键词  > GPT4最新资讯  > 正文

AI日报:GPT-4-Turbo正式版自带读图能力;Gemini1.5Pro开放API;SD3将于4月中旬发布;抖音宫崎骏AI爆火

2024-04-10 15:04 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

QQ截图20240410151413.png

📰🤖📢AI新鲜事

OpenAI发布GPT-4-Turbo 正式版 自带读图能力

image.png

【AiBase提要:】

⭐GPT-4-Turbo正式版全面开放,可通过“gpt-4-turbo”来使用此模型,最新版本为“gpt-4-turbo-2024-04-09”

⭐GPT-4-Turbo是带有视觉能力的模型,可处理128k上下文。

⭐ 价格不变,输入$10.00/100万tokens,输出$30.00/100万tokens,读图:最低 $0.00085/ 图

接口信息:https://platform.openai.com/docs/models/continuous-model-upgrades

价格信息:https://openai.com/pricing

相关限制:https://platform.openai.com/docs/guides/rate-limits/usage-tiers?context=tier-five

重磅!GPT-4API全面开放使用

【AiBase提要:】

⚙️ GPT-4具备更强的创造性,支持生成、编辑并共同迭代创意和技术写作任务。

🔍 GPT-4有更长的上下文处理能力,适用于创建长格式内容、扩展对话以及文档搜索和分析等场景。

🏢 企业如摩根士丹利已开始应用GPT-4,将其嵌入内部机器人,帮助财务人员查找资料并节省时间。

API详细使用说明地址:https://platform.openai.com/docs/guides/gpt

谷歌宣布Gemini1.5Pro开放API 新增多项功能

image.png

【AiBase提要:】

🎵 Gemini1.5Pro引入了原生音频理解能力,不需先转换为文本。

📄 Gemini1.5Pro扩展了输入模态范围,支持视频内容处理。

💻 Gemini API改进,加入系统指令引导模型响应和JSON模式。

详情点此查看:

https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html

音频理解能力:

https://github.com/google-gemini/cookbook/blob/main/quickstarts/Audio.ipynb

SD3将于4月中旬发布!预计会有6种规模的模型

QQ截图20240410102202.png

【AiBase提要:】

⭐ SD3计划在四月中旬正式发布,已发布两篇关于SD3和SD3Turbo的论文

⭐ SD3可能拥有多达6种不同规模的模型,满足不同需求。

⭐ SD3具有80亿参数,适用于RTX4090,生成1024x1024图像需34秒。

SD3论文:https://arxiv.org/abs/2403.12015

SD3Turbo论文:https://arxiv.org/abs/2403.03206

更多SD3制作图像点此查看:https://sd3.art/

性能超H100!英特尔发布新一代人工智能芯片Gaudi3压力给到英伟达!

1.jpg

【AiBase提要:】

⭐ Gaudi3性能超英伟达H100,是最强AI芯片之一

⭐ Gaudi3能效是英伟达芯片的两倍多,速度也快

⭐ Gaudi3采用先进5nm工艺,配备128GB HBM2e内存

详细:

https://www.intel.com/content/www/us/en/newsroom/news/vision-2024-gaudi-3-ai-accelerator.html#gs.7q25hh

Poe为AI机器人创建者引入了按消息定价的收入模式

【AiBase提要:】

⭐ Poe 推出了一种信息收费的收入模式

⭐ 新收入模式将有助于激励开发更多种类的机器人

⭐ 创作者可以为他们的机器人设置每条消息的价格,赚取收入。

刚刚,Mistral AI最新磁力链放出!8x22B MoE模型,281GB解禁

【AiBase提要:】

🌟 Mistral AI再次发布磁力链,解禁281GB的8x22B MoE模型。

🌟 Mistral AI靠一条磁力链掀起AI社区热潮。

🌟 新的MoE模型支持多语言、性能强大,旗舰版直接对标GPT-4。

详情:https://www.chinaz.com/2024/0410/1609213.shtml

抖音AI特效一键生成宫崎骏画风爆火

image.png

【AiBase提要:】

⭐ 电影宣传团队与抖音合作推出宫崎骏动画风格的AI特效,吸引200万用户参与。

⭐ 使用特效引发争议,支持者认为向宫崎骏致敬,反对者则认为违背大师意愿。

⭐ 争议中指出宫崎骏对AI动画技术的抵制,但实际视频并非AI技术。

详情:https://www.chinaz.com/2024/0409/1609015.shtml

Suno音乐攻占B站鬼畜区 “钢门松弛”成最热门题材

image.png

【AiBase提要:】

🎶 歌曲“你的钢门比较松弛”在B站引发热潮,吸引数百万网友关注。

🎤 AI音乐走红,Suno软件领衔鬼畜音乐创作,获得突破性成功。

📈 AI音乐评论区氛围和谐,网友以幽默和调侃方式互动,展现创意风采。

详情:https://www.chinaz.com/2024/0409/1608982.shtml

苹果公司发布新型机器学习语言模型MLLLLM Ferret-UI 用于理解应用 UI 界面

image.png

【AiBase提要:】

⭐️ Ferret-UI是专为移动UI屏幕设计的MLLLM,具备引用、定位和推理能力。

⭐️ 采用“任何分辨率”技术,提高模型对小型对象的理解精度。

⭐️ Ferret-UI通过对话能力在详细描述、交互对话和功能推断等任务中表现突出。

论文地址:https://arxiv.org/pdf/2404.05719.pdf

马云内网发声:肯定阿里变革一年成效 称 AI 时代刚刚到来

【AiBase提要:】

⭐ 马云肯定阿里新管理层勇气,称公司重回健康成长轨道

⭐ 马云认为阿里最核心变化是重回客户价值轨道

⭐ 马云预测互联网行业未来三至五年将发生翻天覆地变化,AI时代正当其时

🤖📱💼AI应用

百度网盘推出AI创意生成工具“超能画布”

微信截图_20240410111214.png

【AiBase提要:】

⭐ 独特的图像大模型和智能人脸融合算法

⭐ 提供丰富的背景、服装切换选项

⭐ 可对人物表情、发色进行局部重绘

体验地址:https://top.aibase.com/tool/chaonenghuabu

现阶段有效白嫖(免登录) GPT-3.5的项目

image.png

1⃣Aurora https://github.com/aurora-develop/aurora

(各种花式白嫖,支持 Render/Vercel 等一键部署)

2⃣ChatGPT https://github.com/PawanOsman/ChatGPT

(支持 Docker & Android,很稳定)

3⃣FreeGPT35https://github.com/missuo/FreeGPT35

(参数多,支持 Nginx 反向代理)

谷歌将推全新AI视频工具Google Vids 集多种功能一体

1.png

【AiBase提要:】

📱 Google Vids集多种功能于一体,帮助用户轻松创作故事板。

🖼️ AI技术协助编辑内容,选择适合的场景、图片和音乐。

🎙️ 用户可为视频加上配音,提升视频个性化和专业度。

AI也可以生成延时视频了 MagicTime输入文本即可生成植物生长视频

image.png

【AiBase提要:】

⭐️MagicTime模型专注于生成变形时间延迟视频

⭐️生成的视频符合现实世界物理规律,可以生成比较自然的植物生长过程视频。

⭐️对提示的理解更准确,生成的质量也比较高

项目演示:https://top.aibase.com/tool/magictime

代码:https://github.com/PKU-YuanGroup/MagicTime

DreamWalk:实现对图像生成风格和内容的精细控制

image.png

【AiBase提要:】

⭐ 用户可以更加自由地决定图像中哪部分应该更加强烈地体现某种风格

⭐ DreamWalk支持在不同风格间进行平滑过渡,保证生成图像更加和谐统一

⭐ 可将现实世界图像转换为特定风格的艺术作品,满足用户对多样化图像风格的需求

项目演示:https://top.aibase.com/tool/dreamwalk

论文:https://arxiv.org/pdf/2404.03145.pdf

金山办公WPS365升级 推出 WPS AI 企业版和 WPS 协作

微信截图_20240409173433.png

【AiBase提要:】

⭐️ WPS365整合文档、AI和协作能力,实现一站式AI办公。

⭐️ WPS AI企业版降低使用大模型门槛,提供智能创作与数据分析功能。

⭐️ WPS365模式让用户通过一个产品高效完成所有工作,实现办公新质生产力。

——————

每日midjourney prompt:电商模特——比基尼

A Beautiful Chinese Girl with long dark hair,Wearing a green silk camisole shirt and a flowing skirt, sitting on rocks by the ocean, eyes closed, serene expression, realistic, photorealistic, detailed,8k --ar3:4--q2--s750

2_1712731778423_ai2023_A_Beautiful_Chinese_Girl_with_long_dark_hairWearing_a_gr_640afd7f-fbad-4f5f-821f-e248f1c0cf48.png

一个美丽的中国女孩,留着一头乌黑的长发,穿着绿色丝绸背心和飘逸的裙子,坐在海边的岩石上,闭着眼睛,表情安详,逼真,细节,8k

举报

  • 相关推荐
  • 王腾:REDMI Turbo 4 Pro非常成功 很多友商都在关注

    REDMI总经理王腾发文表示,REDMI上半年发布的Turbo 4 Pro非常成功,受到了广大用户的喜爱,也收到了很多友商的关注。 据悉,REDMI Turbo 4 Pro于4月份发布,首发起售价是1999元,该机上市不到一个月累计销量突破100万台,成为行业内最火的Turbo手机。 随着REDMI Turbo系列的热销,各大品牌纷纷推出Turbo系列手机,主打高性能,对此王腾表示,领先的一种体现就是被模仿,说明REDMI这几�

  • AI日报:美图发布影像AI Agent RoboNeo;1.8bit量化Kimi K2模型上线;亚马逊推AI代码编辑器 Kiro

    【AI日报】今日AI领域重要动态:1)美图推出RoboNeo,通过自然语言指令实现图片精修、品牌设计等全能影像处理;2)Unsloth AI将Kimi K2模型量化至1.8bit,体积缩减78%保持性能;3)谷歌Gemini嵌入模型登顶MTEB榜单,超越OpenAI;4)亚马逊发布免费AI代码编辑器Kiro,集成Claude模型;5)Claude新增应用工具目录功能提升工作效率;6)MiniMax完成近3亿美元融资,估值超40亿美元;7)UTCP新协议让AI代理直

  • AI日报:字节将发布AI编程工具TRAE2.0版本;Mistral重磅推出音频模型Voxtral;月之暗面回应Kimi K2 API速度慢

    AI日报栏目聚焦AI领域最新动态:1)字节跳动将发布TRAE 2.0编程工具,新增语音交互功能;2)Mistral推出开源音频模型Voxtral,支持多语言;3)月之暗面回应Kimi K2API速度慢问题,正在优化系统;4)昆仑万维发布AgentOrchestra框架,实现多智能体协作;5)OpenAI前CTO创立的Thinking Machines Lab获20亿美元融资;6)Kimi-2上线,性能超越GPT-4.1;7)TRAE推出Kimi-K2模型服务,国际版支持Grok-4;8)字节跳动Seed团队开源POLARIS训练方法,提升小模型数学推理能力;9)ima网页版上线,提供更便捷的知识库访问体验。

  • OPPO K13 Turbo系列外观公布:自带RGB风扇 EVA初号机配色

    OPPO今天正式公布了OPPO K13 Turbo系列新机外观,展示了新机的风扇等外观细节,以及全新配色。 该机后摄模组造型比较简洁,只有主摄和下放的风扇凸起,风扇外圈自带RGB灯效。

  • AI日报:xAI 震撼发布Grok4;微软开源全新Phi-4-mini版本;上海累计82款大模型通过备案

    AI日报栏目聚焦人工智能领域最新动态:1)xAI发布旗舰模型Grok4,在数学推理和代码生成表现突出,同时推出开发者专用Grok4Code;2)微软开源Phi-4-mini模型,推理效率提升10倍,适合边缘设备;3)上海82款大模型完成备案,垂直领域应用取得突破;4)Hugging Face推出开源桌面机器人Reachy Mini,支持Python编程;5)Perplexity发布AI浏览器Comet挑战Chrome;6)OpenAI将首次发布开放权重模型,打破闭源惯例;7)谷歌医疗AI模型MedGemma系列上新,单个GPU即可运行;8)OpenAI以约65亿美元收购AI硬件公司io Products,正式进军硬件市场。

  • 全球优质AI语音大模型盘点:Whisper、Gemini Speech

    本文分析了当前主流AI语音大模型的核心优势与应用场景。全球顶尖模型包括:OpenAI Whisper(多语言识别与翻译)、Google Gemini(情感化语音生成)、Meta AudioCraft(音乐创作与风格转换)。国内讯飞星火(方言识别)、阿里通义(电商客服)、百度文心(车载场景)表现突出。技术突破点在于云端协同架构、零样本克隆和情感语音合成。选择模型需考虑语言支持、场景适配、部署

  • OPPO K13 Turbo系列真机亮相:自带风扇+RGB

    OPPO K13 Turbo系列真机已经现身在bilibili world《胜利女神:NIKKE》展区。 从图片来看,OPPO K13 Turbo系列系列后摄区域有点类似一加13T,采用了矩形金属方案,主摄下方就是散热风扇,同时外圈还自带RGB等效。 这个设计方案可以明显看出,该机是主打电竞体验。 风扇模组采用电镀镍工艺,放弃普通喷涂,带来更好的防水、防锈效果,并且号称风力提升120%,从而实现更强、更持久�

  • AI日报:12306 MCP Server上线;百度推AI搜索助手Tizzy.ai;ChatGPT录音模式面向Plus用户开放

    【AI日报】今日AI领域重要动态:1)百度推出无广告智能搜索助手Tizzy.ai,整合影视资源与深度思考功能;2)12306开源火车票查询引擎上线,采用FastAPI架构实现秒级响应;3)ChatGPT向Plus用户全面开放录音功能,支持实时记录与内容总结;4)开源SaaS模板FireGEO助力快速构建现代化Web应用;5)国产工具ReadMeX可一键生成高质量GitHub文档;6)百度AI助手新增视频通话功能,支持方言识别;7)Jackywine发布可成长AI伴侣"贝拉",具备情感学习能力;8)OpenAI将推出Agent模式,实现浏览器自动化与云端文件分析;9)MidJourney计划开放企业级API;10)MiniMax推出全栈开发功能,自然语言描述即可生成电商网站;11)Windsurf重新上线Claude Sonnet4模型,提升代码补全能力。

  • AI日报:智谱上线PPT生成功能AI Slides;可灵 AI 发布可图2.1模型

    本文介绍了AI日报栏目及近期AI领域多项突破性进展:1)智谱推出免费AI Slides工具,基于GLM模型快速生成高质量PPT;2)可灵AI发布可图2.1模型,支持180多种风格图像生成;3)NVIDIA推出DiffusionRenderer技术,实现视频到可编辑3D场景转换;4)墨刀AI新增30秒生成高保真原型功能;5)Higgsfield推出Soul ID工具,10张照片即可生成虚拟形象;6)谷歌DeepMind开源GenAI Processors工具库;7)谷歌Veo新增图像转视频功能;8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。

  • OPPO K13 Turbo系列支持IPX9/IPX8/IPX6满级防水 将于7月21日发布

    OPPO宣布将于7月21日发布全新K13 Turbo系列手机,主打突破性散热技术。该系列成为行业首款支持IPX9/IPX8/IPX6满级防水标准的散热手机,采用先进疏密散热鳍片技术,相比传统风扇散热效率提升300%,体积缩减70%,风力增强120%。系列包含标准版和Pro版,分别搭载天玑8450处理器和第四代骁龙8s,配备6.8英寸1.5K直屏,后置5000万+200万双摄。实测显示开启散热风扇后,《王者荣耀》平均帧率达120.36fps,《和平精英》119.76fps,性能表现稳定。