AI日报：首个AI程序员Devin造假被抓；Sora平替?StreamingT2V试玩地址公布；Udio AI还可以创作喜剧、演讲；XAI发布Grok-1.5Vision多模态模型

2024-04-15 16:11 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://top.aibase.com/

🤖📱💼AI应用

Sora平替?2分钟超长AI视频模型StreamingT2V免费开源试玩地址公布

【AiBase提要:】
⭐ StreamingT2V可以生成长达1200帧、时长2分钟的视频，超越了Sora模型
⭐ 采用先进的自回归技术，保持视频时间一致性和高质量
⭐ 它是一个免费开源的项目，可以无缝兼容SVD和animatediff等模型
⭐ 代码已发布，试玩地址也已上线。生成时间较久，一个视频预计要生成13分钟以上。
开源代码:https://top.aibase.com/tool/streamingt2v
论文地址:https://arxiv.org/pdf/2403.14773.pdf
试玩地址1:https://huggingface.co/spaces/PAIR/StreamingT2V
试玩地址2:https://replicate.com/camenduru/streaming-t2v

Udio AI提供多功能音频生成还可以创作喜剧、演讲、电台广播等

【AiBase提要:】
⭐ Udio不仅可以创作音乐，还可以创作喜剧、演讲、NPC对话、体育分析、广告、电台广播、ASMR、自然音效等。
⭐ 简单的文字描述创作: 用户可通过简单文字描述指导Udio生成特定主题和情感的音乐作品。
⭐ 广泛的音乐类型和风格支持: Udio支持多种音乐类型和风格，满足不同用户的音乐品味。
感兴趣的可以点击播放列表查看:https://www.udio.com/playlists/deGuVDLYd9MrXtxnxfX7z1
体验地址:https://top.aibase.com/tool/udio

美图Wink“AI动漫”功能升级可将短剧作品转化为动漫风格

微信截图_20240415085954.png

【AiBase提要:】
⭐ 近期美图Wink升级“AI动漫”功能，转化短剧作品为动漫风格。
⭐ 引入CFA模块，优化动作一致性，生成更流畅自然的动漫视频。
⭐ 分片技术处理长视频，减少等待时长，让创作更自如流畅。

StableDesign:适用于室内装修设计的SD方案文字提示就可修改室内设计图

【AiBase提要:】
⭐️ 开发者创建了用于生成式室内设计的项目
⭐️ 通过下载爱彼迎房源数据和图像元数据，提取特征，实现训练
⭐️ 使用ControlNet和劳拉模型训练，实现室内设计生成的控制和文本到图像转换
在线体验:https://huggingface.co/spaces/MykolaL/StableDesign

比换脸更强大!SwapAnything:替换图片中的任意元素

【AiBase提要:】
🔍 SwapAnything框架具有精确控制对象和部分、保留上下文像素、适应个性化概念等优势。
🔍 通过定向变量交换和外观调整技术，SwapAnything展现了精确和忠实的交换能力。
🔍 SwapAnything能在图像中精确控制任意对象，实现高质量的个性化交换。
项目入口:https://top.aibase.com/tool/swapanything

AI延时视频生成工具MagicTime在线体验地址放出

【AiBase提要】
⭐ 时间延迟视频是摄影技术，展示长时间变化。
⭐ MagicTime能根据文本描述生成时间延迟视频。
⭐ 应用广泛，可记录自然现象和人为变化。
项目地址:https://top.aibase.com/tool/magictime
体验地址:https://huggingface.co/spaces/BestWishYsh/MagicTime
模型下载地址:https://huggingface.co/Kijai/MagicTime-merged-fp16

自动化写作工具STORM:可生成像维基百科一样的深度长篇内容

【AiBase提要:】
⭐️STORM自动搜集资料，模拟专家对话，生成结构化文章大纲。
⭐️STORM高效研究、整合多角度信息，促进深入理解和精准问题生成。
⭐️STORM生成文章大纲后，完整撰写、润色文章以提高整体质量。
项目地址:https://top.aibase.com/tool/storm

Meta 推出 ViewDiff 模型:文本生成多视角3D 图像

【AiBase提要:】
🌟 ViewDiff 解决了文本生成一致性、多视角3D 图像的三大难点
🌟 自回归生成模块使 ViewDiff 在任意视角上生成更多的3D 一致性图像
🌟 ViewDiff 填补了文本生成多视角3D 图像领域的技术空白
论文地址:https://arxiv.org/abs/2403.01807
项目地址:https://top.aibase.com/tool/viewdiff

📰🤖📢AI新鲜事

首个AI程序员造假被抓，Devin再次“震撼”硅谷!扒皮视频文字详解附上

【AiBase提要:】
⭐️ 油管程序员揭露首个AI程序员Devin视频造假
⭐️ Devin演示不如实际神奇，修复bug自创bug
⭐️ 遭到疑问和打假，网友对AI产品炒作嗤之以鼻
详细内容:https://www.chinaz.com/2024/0415/1610127.shtml

马斯克XAI发布Grok-1.5Vision多模态模型，可处理文本和图片信息

【AiBase提要:】
⭐️ Grok-1.5Vision模型展现卓越性能，超越GPT4V。
⭐️ 在RealWorldQA基准测试中表现优异，理解真实世界物理空间。
⭐️ Grok-1.5Vision模型具有强大的现实世界空间处理和理解能力。
官网地址:https://top.aibase.com/tool/grok-1-5-vision-preview

360智脑7B参数大模型正式开源最长支持约50万字输入

【AiBase提要:】
🧠360智脑7B参数大模型正式开源。
🧩 支持不同文本长度版本，最长可处理360K长文本。
🔥 在能力测试中表现出色，综合能力排名前三。
项目地址:https://github.com/Qihoo360/360zhinao

Adobe图像生成AI “Firefly” 训练集中约有5%为AI图像

【AiBase提要:】
⭐ Adobe Stock开始接受AI内容，约14%为AI生成图像。
⭐ 学者指出Firefly学习自Midjourney生成的图像，与其声称不同。
⭐ 用户表示对Adobe用其作品训练Firefly感到不满。

代码、模型全开源!贾佳亚团队多模态模型 Mini-Gemini登上热榜

【AiBase提要:】
⭐️ Mini-Gemini模型在多模态任务上取得显著成绩，开源代码和模型数据。
⭐️ Mini-Gemini结合图像理解和生成，展现出色图像推理能力。
⭐️ 采用Gemini视觉双分支信息挖掘方法，有效处理高分辨率图像并生成内容丰富的视觉和文本内容。
项目地址:https://top.aibase.com/tool/mini-gemini
试玩地址: https://103.170.5.190:7860/

面壁智能开源MiniCPM2.0系列模型 OCR等能力显著增强

【AiBase提要:】
⭐ MiniCPM-V2.0是端侧最强的多模态模型，具有强大的OCR能力。
⭐ MiniCPM-1.2B是适配端侧场景的基座模型，推理速度快成本低。
⭐ MiniCPM-2B-128K是目前最小的长文本模型，处理128K文本内容。
MiniCPM-V2.0:
https://github.com/OpenBMB/MiniCPM-V
MiniCPM系列开源地址:
https://github.com/OpenBMB/MiniCPM
MiniCPM技术Blog地址:
https://openbmb.vercel.app/?category=Chinese+Blog

竞争升温!ChatGPT增长疲软3月全球访问量17.7亿次，Claude逐渐崛起

【AiBase提要:】
📉 ChatGPT全球访问量增长放缓，尽管推出新功能。
🚀 Anthropic的Claude在欧洲市场蓬勃发展，加剧与ChatGPT的竞争。
💥 Claude3发布后持续快速增长，显示新产品潜力。

InstantID团队推新风格迁移方法InstantStyle 一键置身“梵高星空”

【AiBase提要:】
⭐️特征相减:利用CLIP模型的特性，通过特征相减去除内容信息，实现风格和内容解耦。
⭐️仅风格层注入:在特定风格层完成特征注入，实现风格和内容解耦。
⭐️通用性强:InstantStyle的方法具有通用性，提供丰富代码实现，支持多种应用场景。
项目地址:https://top.aibase.com/tool/instantstyle
在线试玩:https://huggingface.co/spaces/InstantX/InstantStyle

——————

每日midjourney prompt:小说古风美女

图源备注：图片由AI生成，图片授权服务商Midjourney

A beautiful woman from ancient China， dressed in a gorgeous red Hanfu， with long hair draped over her shoulders， sat in her boudoir with a smile. Ancient style， hanfu， boudoir， gorgeous， palace， screen， carpet， soft light， elegant temperament， ancient culture， in line with oriental aesthetics， rich details， best quality， exquisite makeup， clear eyeliner pen， slender eyebrows， textured skin， white skin， charming headdress， --ar3:4 --niji6 --style raw

一个中国古代美女，穿着华丽的红色汉服，长发披肩，微笑着坐在闺房内。古风，汉服，闺房，华丽，宫殿，屏风，地毯，柔和光线，高雅气质，古代文化，符合东方美学，细节丰富，品质最佳，精致的妆容，清晰的眼线笔，纤细的眉毛，纹理皮肤，白皙的皮肤，迷人的头饰

（举报）

相关推荐

关键词：

Devin

AI日报：国内首个多模态AI程序员上岗；字节启动Top Seed计划招募AI人才；DeepSeek R1T Chimera上线OpenRouter

【AI日报】今日AI领域重要动态：1.百度发布文心快码3.5及多模态AI程序员"文心快码Comate Zulu"，提升开发效率；2.字节跳动启动"Top Seed"计划，招募30名AI博士人才；3.DeepSeek开源R1T Chimera模型上线OpenRouter平台；4.阿里AI工程师余亮获"全国劳动模范"称号；5.开源图像编辑工具Step1X-Edit登陆Hugging Face，性能媲美GPT-4o；6.谷歌被曝每月向三星支付巨额资金预装Gemini应用；7.全球首个扩散语言模型ChatDLM即将开源；8.字节跳动推出提升大模型训练效率的QuaDMix框架；9.Adobe升级Firefly AI平台，支持图像视频音频创作；10.Kimi与财新传媒达成内容合作；11.巨人网络《太空杀》接入腾讯AI技术，生成超700万AI玩家。

人工智能 AI编程工具多模态交互
荐多模态和Agent成为大厂AI的新赛点

本期《窄播Weekly》聚焦AI大厂竞争策略向应用场景倾斜的趋势，重点分析了多模态能力和代理执行两大发展方向。文章指出，大模型落地的核心在于让人机交互更自然，具体表现为：1）通过多模态技术降低用户使用门槛，如阿里夸克新推出的"拍照问夸克"功能；2）通过代理执行提升复杂任务处理能力，如字节、百度等推出的通用Agent产品。国内外厂商路径差异明显：国�

AI应用场景多模态能力代理执行
荐AI日报：Kimi全新音频基础模型Kimi-Audio；阶跃星辰开源图像编辑模型Step1X-Edit；夸克AI超级框上线 “拍照问夸克”

本期AI日报聚焦多项AI技术突破与应用：1)Moonshot AI推出开源音频模型Kimi-Audio，基于13亿小时训练数据，支持语音识别等任务；2)阶跃星辰开源图像编辑模型Step1X-Edit，展现强大生成能力；3)夸克AI上线"拍照问夸克"功能，实现视觉问答；4)苹果iOS18.5将在中国推送，带来智能功能；5)谷歌发布601个生成式AI应用案例，覆盖多行业；6)微软推出深度整合Windows的UFO²自动化系统；7)OpenAI升级ChatGPT至GPT-4o版本，提升STEM领域能力；8)Ema公司推出高性价比语言模型EmaFusion；9)Liquid AI发布面向边缘设备的Hyena Edge模型；10)LemonAI推出实时音视频数字人产品Slice Live。此外，国内方面，智谱与生数科技达成战略合作推动大模型发展，宝马中国宣布新车将接入DeepSeek技术。

AI日报音频技术开源模型
可灵AI发布全新2.0模型：上线多模态视频编辑功能

快科技4月16日消息，据报道，可灵AI在北京举行灵感成真”2.0模型发布会，正式发布可灵2.0视频生成模型及可图2.0图像生成模型。据介绍，可灵2.0模型在动态质量、语义响应、画面美学等维度保持领先；可图2.0模型在指令遵循、电影质感及艺术风格表现等方面显著提升。3月27日，全球AI基准测试机构Artificial Analysis发布了最新的全球视频生成大模型榜单，快手可灵1.6pro（高品质模

可灵AI 视频生成模型图像生成模型
荐AI日报：字节发布豆包1.5深度思考模型；微信首个AI助手 “元宝” 上线；OpenAI发布o4-mini、满血版o3

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、OpenAI发布两款多模态推理模型o4-mini、满血版o3OpenAI在技术直播中推出了其最新的多模态模型o4-mini和满血版o3，这两款模型具备同时处理文本、图像和音频的能力，并能调用外部工�

人工智能多模态模型 OpenAI
荐AI日报：ChatGPT重磅上线图像库功能；白嫖！Veo2登陆谷歌AI Studio；蚂蚁百宝箱推“MCP专区”

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、报道称字节跳动整合 AI 研发团队，AI Lab 即将并入 Seed字节跳动正在进行AI研发团队的整合，将独立的字节AI Lab并入Seed团队。这一举措体现了字节在AI领域战略布局的调整，旨在进�

字节跳动 AI研发 AI
荐AI日报：kimi宣布降价；OpenRouter发布免费模型Quasar Alpha；Midjourney V7重磅上线

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、IDC:到2028年中国人工智能投资将突破1000亿美元根据国际数据公司的预测，中国在人工智能领域的投资将显著增长，预计到2028年总投资将突破1000亿美元，年均复合增长率达到35.2%。

人工智能投资预测生成式AI
AI日报：阿里腾讯全面支持MCP协议；阶跃星辰多模态推理模型Step-R1-V-Mini；美图WHEE图像生成模型Miracle F1

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里巴巴已宣布全面支持MCP协议腾讯紧随其后近日，中国人工智能领域迎来技术标准的变革，ModelContextProtocol成为国内AI生态的事实标准。12.英伟达发布Llama3.1NemotronUltra253B，性能�

人工智能 MCP协议阿里巴巴
荐UniToken：多模态AI的“全能选手”，一次编码搞定图文理解与图像生成

复旦大学与美团研究者提出UniToken框架，首次在统一模型中实现图文理解与生成任务的"双优表现"。该方案融合连续和离散视觉编码，有效解决了传统多模态建模中的"任务干扰"和"表示割裂"问题。通过三阶段训练策略（视觉语义对齐、多任务联合训练、指令强化微调），UniToken在多个基准测试中性能超越专用模型。其创新性体现在：1）统一的双边视觉编码

UniToken 多模态建模视觉编码
最新AI资讯日报平台推荐 AI日报周报合集去哪看？

AIbase基地是一个专注于人工智能领域的综合性平台，致力于为用户提供丰富的AI资讯、工具和资源，帮助用户更好地了解和探索人工智能的前沿动态和发展趋势。无论是关注行业动态、学习AI技术是寻找AI产品和项目，AIbase基地都能满足用户的需求，是通往AGI之路上的一个重要助力。数据可视化:通过各种榜单的形式，将复杂的AI产品和项目数据进行可视化展示，使用户能够更加直观地了解市场趋势和行业动态，便于做出决策。

人工智能 AI新闻 AI工具

热文

3 天
7天

AI日报：首个AI程序员Devin造假被抓；Sora平替?StreamingT2V试玩地址公布；Udio AI还可以创作喜剧、演讲；XAI发布Grok-1.5Vision多模态模型

AI日报：国内首个多模态AI程序员上岗；字节启动Top Seed计划招募AI人才；DeepSeek R1T Chimera上线OpenRouter

荐多模态和Agent成为大厂AI的新赛点

荐AI日报：Kimi全新音频基础模型Kimi-Audio；阶跃星辰开源图像编辑模型Step1X-Edit；夸克AI超级框上线 “拍照问夸克”

可灵AI发布全新2.0模型：上线多模态视频编辑功能

荐AI日报：字节发布豆包1.5深度思考模型；微信首个AI助手 “元宝” 上线；OpenAI发布o4-mini、满血版o3

荐AI日报：ChatGPT重磅上线图像库功能；白嫖！Veo2登陆谷歌AI Studio；蚂蚁百宝箱推“MCP专区”

荐AI日报：kimi宣布降价；OpenRouter发布免费模型Quasar Alpha；Midjourney V7重磅上线

AI日报：阿里腾讯全面支持MCP协议；阶跃星辰多模态推理模型Step-R1-V-Mini；美图WHEE图像生成模型Miracle F1

荐UniToken：多模态AI的“全能选手”，一次编码搞定图文理解与图像生成

最新AI资讯日报平台推荐 AI日报周报合集去哪看？

热文

印度将中国电子投资压股至 10%，且要求“技术转让”

“AI教父”杰弗里·辛顿再次发出警告：AI可能正在“失控”！

美国网购市场动荡，希音、Temu 率先在美开启“涨价潮”！

累了倦了就找 ChatGPT……AI正在沦为“情绪垃圾桶”！

印度将中国电子投资压股至 10%，且要求“技术转让”

“AI教父”杰弗里·辛顿再次发出警告：AI可能正在“失控”！

反垄断案中，谷歌披露 Gemini 月活达3.5亿，日流量为3500万

“你可能患了血癌……” 医生诊断错误，而 ChatGPT 是对的！

Meta AI眼镜“实时翻译”功能全面开放，不联网也能用！

郭明錤：iPhone17有望全系配12GB内存！但，有个前提……

4chan 之“死”：互联网最狂野的角落逐渐消逝！

Adobe 发布 Firefly 系列产品，涵盖图片、视频、矢量等

美国网购市场动荡，希音、Temu 率先在美开启“涨价潮”！

累了倦了就找 ChatGPT……AI正在沦为“情绪垃圾桶”！

站长商机

AI日报：首个AI程序员Devin造假被抓；​Sora平替?StreamingT2V试玩地址公布；Udio AI还可以创作喜剧、演讲；XAI发布Grok-1.5Vision多模态模型

热文

站长商机

AI日报：首个AI程序员Devin造假被抓；Sora平替?StreamingT2V试玩地址公布；Udio AI还可以创作喜剧、演讲；XAI发布Grok-1.5Vision多模态模型