首页 > 业界 > 关键词  > CogView3最新资讯  > 正文

AI日报:智谱开源图像生成模型CogView3;AI声音克隆差点骗走律师父亲3万美金;GGHead​颠覆3D建模

2024-09-30 14:24 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、文生图卷起来了!智谱开源图像生成模型CogView3生成速度比SDXL快10倍!

智谱AI最新开源的CogView3和CogView-3Plus-3B为文生图领域注入新活力,CogView3采用独特的级联扩散方法,生成质量超越SDXL,且推理速度快10倍。CogView-3Plus-3B基于DiT框架,优化了Zero-SNR扩散噪声调度和联合文本-图像注意力机制,支持广泛的图像分辨率范围。智谱AI提供建议和工具帮助用户优化提示词,降低使用门槛。

image.png

【AiBase提要:】

🚀 CogView3采用级联扩散方法,生成质量超越SDXL,推理速度快10倍。

💡 CogView-3Plus-3B基于DiT框架,引入Zero-SNR扩散噪声调度和联合文本-图像注意力机制。

🔧 智谱AI提供建议和示例脚本,帮助用户优化提示词,降低使用门槛。

详情链接:https://github.com/THUDM/CogView3

2、AI声音克隆诈骗升级!一通电话差点骗走律师父亲3万美金

最近爆发的AI声音克隆诈骗案件引发了广泛关注,凸显了这项技术可能带来的巨大风险。事件揭示了人类在面对高度逼真的AI声音克隆时的脆弱性,呼吁加强对AI行业的监管以保护消费者免受侵害。文章还提到了声音克隆技术的潜在风险和积极用途,以及应对高科技诈骗的建议。

【AiBase提要:】

🚨 高科技诈骗:AI声音克隆技术引发警示,骗子利用AI模仿声音进行诈骗,成功率惊人。

💡 安全挑战:人类在识别AI生成声音时存在高错误率,紧迫需要开发深度伪造检测工具。

⚠️ 风险警示:新型攻击手法音频劫持结合多种AI技术,可能导致资金被转移到虚假账户。

3、颠覆3D建模!GGHead:实现超高速高质量、角色一致3D头部生成

GGHead是一种新颖的3D建模技术,由慕尼黑工业大学的Tobias Kirschstein等人研发。它能在超快速度下生成高质量、视角一致的3D人头模型,降低了3D建模门槛,为未来的人类建模研究开辟新可能性。

image.png

【AiBase提要:】

🌟 使用普通GPU实时生成高分辨率的3D人头模型

💡 利用3D高斯点云表示和2D CNN生成高斯属性,提高建模效率

🔧 引入“全变差损失”技术提升几何精度,保证图像质量和一致性

详情链接:https://tobias-kirschstein.github.io/gghead/

4、全新视觉识别技术Revisit Anything

这篇文章介绍了一种创新的视觉位置识别技术Revisit Anything,通过输入图片即可识别出图片中的地点。该技术结合了SAM和DINO技术,提升了图像段的检索效果,实现更精确的地点重识别。研究团队使用了多个数据集进行测试,建议用户从17places数据集开始,快速上手。通过特征提取、聚类中心生成和SegVLAD管道运行,用户可以获取高效的识别结果。这项研究推动了视觉位置识别领域的发展。

【AiBase提要:】

🌟 结合SAM和DINO技术,推出新颖的视觉位置识别方法。

📊 用户可快速上手并运行实验,通过详细的步骤和脚本获取高效结果。

🔍 提供了一种新的视觉位置识别方案,利用现代深度学习模型进行图像分析,推动了该领域的发展。

详情链接:https://github.com/AnyLoc/Revisit-Anything

5、海信发布AI电视E7N,内置AI芯片

海信发布的E7N超画质Mini LED电视搭载了海信自主研发的Mini LED控光芯片,亮度高达4000nits,背光调控精细,画面清晰明暗分明。内置信芯AI芯片通过深度学习优化画质,观看体验极佳。性能强劲,支持4路HDMI2.1接口,适合游戏玩家使用。

image.png

【AiBase提要:】

🌟 E7N搭载海信自主研发的Mini LED控光芯片,每个芯片可控制8个灯珠,达4224个分区,亮度高达4000nits。

🤖 内置海信首款国产高端画质芯片信芯AI芯片,通过深度学习优化色彩、对比度和清晰度,观看各种节目画质达会员级别。

🎮 E7N首次搭载MT9655SOC芯片,性能提升164%和219%,支持4路HDMI2.1接口,游戏体验全面提升。

6、自称开源版Cursor 刚融资350万的PearAI被指抄袭

PearAI作为自称开源版Cursor的AI编程工具,最近获得YCombinator50万美元融资,引发了关于创新、借鉴与商业化的争论。创始人Pan声称产品性能超越C0pilot,但被指抄袭其他开源项目。争议暴露了开源世界中创新与借鉴的界限问题,以及科技创业中夸大项目独特性可能带来的负面影响。

【AiBase提要:】

🔍 PearAI获YCombinator融资,引发创新、借鉴与商业化争论

💡 Pan声称产品性能超越C0pilot,但被指抄袭其他开源项目

🌐 开源社区面临如何保持创新、展示项目价值的挑战

详情链接:https://x.com/CodeFryingPan/status/1840464744626675719

7、加州AI监管法案遭否决:纽瑟姆称初衷良好但方法不当

加州州长纽瑟姆否决了备受瞩目的SB1047法案,引发了科技界和政界的广泛讨论。纽瑟姆认为该法案虽初衷良好,但未考虑AI系统具体应用环境及风险程度,不是最佳保护公众方法。这一决定凸显了AI监管的复杂性,挑战在促进创新与确保安全之间寻求平衡。

【AiBase提要:】

🔍 SB1047法案旨在规范大型人工智能模型的开发,要求公司实施安全协议,但遭到硅谷多方反对。

🚫 纽瑟姆否决法案,认为未考虑AI系统具体应用环境及风险程度,不是最佳保护公众方法。

⚖️ 纽瑟姆强调已签署17项AI相关法案,并邀请专家协助制定可行的AI监管措施,凸显了AI监管的复杂性。

8、科幻杂志遭遇AI作品泛滥冲击

在近年来人工智能技术迅猛发展的背景下,在线科幻与幻想杂志《Clarkesworld》遭遇到前所未有的挑战。编辑们感到无奈与沮丧,创作环境恶化,但志愿者帮助建立垃圾邮件过滤器仅是临时措施,长期解决方案仍需探索。

【AiBase提要:】

🌊编辑们感到沮丧,杂志创始人关闭投稿通道是无奈之举

🛑AI泛滥令创作环境恶化,志愿者帮助建立垃圾邮件过滤器

🔧长期解决方案仍需探索,科幻杂志面临AI作品泛滥的生存威胁

9、告别繁琐!ScreenPipe让你的屏幕“自动”工作24小时无休!

厌倦了无休止的会议记录和不同软件间的切换?开源AI屏幕录制工具ScreenPipe能解决你的烦恼。它不仅可以24小时不间断记录屏幕活动和音频,还能自动完成工作任务,节省时间精力。

【AiBase提要:】

⏰24小时不间断录制:完整记录屏幕活动和音频数据。

🤖 智能辅助服务:自动更新笔记、生成报告、填充数据等。

🔍 即时内容概览:快速提取关键信息,节省时间,抓住重点。

详情链接:https://github.com/mediar-ai/screenpipe

10、智谱AI国庆大促:1折调用+1亿免费tokens

智谱AI和清言科技分别推出国庆特别活动和全新大会员体系,为用户提供更多实惠和选择。智谱AI开放平台bigmodel.cn推出1折调用AI模型和1亿tokens免费额度,降低企业和开发者使用高级AI服务成本。清言科技推出大会员体系,19元/月享受多项权益,让更广泛用户群体负担得起高级AI功能。

image.png

【AiBase提要:】

🎉 智谱AI国庆大促,1折调用AI模型,降低企业和开发者成本。

💰 活动赠送1亿tokens免费额度,让更多人体验先进AI技术。

🚀 清言科技推出19元起大会员体系,让更广泛用户群体享受高级AI功能。

举报

  • 相关推荐
  • AI日报:腾讯混元3D 2.1大模型开源;字节跳动AI Lab负责人李航卸任;OpenAI Codex 全新升级

    本文介绍了AI领域最新动态:1)腾讯开源混元3D2.1大模型,提升3D生成质量;2)OpenAI Codex升级,优化代码生成功能;3)字节跳动AI Lab负责人李航卸任;4)微软发布700个AI应用案例;5)微软推出Code Researcher工具,解决58%系统崩溃问题;6)Observer AI实现屏幕操作自动化;7)Genspark发布AI浏览器;8)麻省理工用AI技术3.5小时修复15世纪名画;9)蚂蚁集团推出开源多模态GPT-4o模型Ming-Omni;10)MagicTryOn视频换衣框架;11)字节跳动发布实时互动AI视频生成模型Seaweed APT2;12)ChatGPT搜索功能升级;13)字节跳动与老凤祥合作开发AI智能眼镜。

  • AI日报:通义千问3大模型全球爆火;即梦图片3.0智能参考全量上线;智谱AI企业级超级助手Agent CoCo上线

    【AI日报】今日AI领域重要动态:1.通义千问3大模型全球下载量超1250万,衍生模型13万+;2.即梦图片3.0上线,AI设计进入"零门槛"时代;3.智谱AI发布企业级超级助手Agent CoCo;4.百度推出金融行业大模型"千帆慧金";5.小红书开源首个大模型dots.llm1,含1420亿参数;6.Hugging Face开源LeRobot项目,降低机器人研发门槛;7.ChatGPT语音功能升级,支持更自然对话翻译;8.Google Gemini应用下载量超ChatGPT但活跃度不足;9.轻量级文档解析模型MonkeyOCR表现优异;10.Google Veo3推出高速视频生成模式;11.Google调整AI Studio政策,限制Gemini2.5Pro免费访问。

  • AI日报:通义千问开源Qwen3向量模型;字节跳动图像编辑模型SeedEdit 3.0;ElevenLabs推v3语音模型

    本文汇总了近期AI领域的重要动态:1)通义千问发布Qwen3-Embedding系列模型,在多语言文本处理表现优异;2)字节跳动推出图像编辑模型SeedEdit3.0,提升细节保持能力;3)ElevenLabs发布情感语音合成系统Eleven v3 Alpha;4)Anthropic推出面向国家安全的Claude Gov模型;5)可灵AI月收入连续两月超1亿元;6)Meta公布智能眼镜Aria Gen2技术细节;7)爱诗科技上线AI视频工具"拍我AI";8)富国银行预测2030年ChatGPT广告收入将达千亿美元。

  • AI日报:QQ浏览器升级为AI浏览器;OpenAI全新编程智能体Codex;B站团队推动漫视频生成模型AniSora

    本文介绍了AI领域多项最新进展:1)B站团队推出开源动漫视频生成模型AniSora,支持多种风格创作;2)OpenAI发布编程智能体Codex,提升开发效率;3)Google测试AI问答功能AI Mode;4)ChatGPT将整合MCP协议,支持第三方AI服务对接;5)阿里推出ZeroSearch框架,减少对搜索引擎的依赖;6)Stability AI与Arm合作推出手机端音频生成AI;7)Qwen发布WorldPM系列大模型;8)GPT-5将整合多款产品功能;9)ListenHub上线AI播客生成工具;10)QQ浏览器升级为AI浏览器;11)数学建模AI助手MathModelAgent面世;12)GenSpark推出全球首个智能下载代理;13)谷歌NotebookLM将推出视频摘要功能。这些创新展现了AI技术在各领域的快速发展和广泛应用。

  • AI日报:阿里开源3D数字人项目MNN TaoAvatar;MiniMax Agent上线;罗永浩数字人直播再探“AI+IP”带货模式

    本文汇总了AI领域最新动态:1)阿里开源MNN+TaoAvatar技术,实现手机端3D数字人实时交互;2)MiniMax升级AI工具Agent,新增智能图像搜索和多语言支持;3)罗永浩数字人将登陆百度电商直播;4)OpenAI员工套现近30亿美元,软银成最大接盘方;5)ChatGPT推出深度研究和语音模式升级;6)Meta发布V-JEPA2模型,提升机器人环境适应能力;7)AMD与OpenAI合作推出新一代AI芯片;8)Google Gemini集成Imagen4图像生成模型;9)谷歌AI实现10公里级精准天气预报;10)Gartner预测到2028年80%的AI应用开发时间将缩短50%。

  • AI日报:DeepSeek开源新版R1-0528;字节发布图像Agent小云雀AI;可灵2.1重磅上线

    本期AI日报聚焦多项AI领域突破:1)DeepSeek发布R1-0528模型,支持128K上下文且性能媲美GPT-4;2)字节推出"小云雀AI"图像创作工具;3)可画2.1版本价格降65%性能提升;4)Opera发布全球首款AI浏览器Neon;5)Meta推出多模态空间理解模型;6)北大团队研发ZeroSearch框架降低大模型训练成本88%;7)字节推出AI视频剪辑应用"剪小映";8)MotionPro实现40ms/帧精准视频控制;9)xAI与Telegram达成3亿美元合作部署Grok聊天机器人;10)OpenAI重组架构为IPO铺路;11)像素蛋糕"方糖大模型"获国内首个影像行业备案;12)Paper2Poster实现论文自动转海报;13)Resemble AI开源TTS模型性能比肩ElevenLabs;14)蚂蚁集团开源对标GPT-4o的多模态模型Ming-lite-omni。

  • AI日报:豆包大模型1.6发布;OpenAI推o3-pro模型、o3价格暴降80%;Figma官方MCP重磅上线

    【AI日报】今日AI领域重要动态:1)火山引擎发布豆包大模型1.6和视频生成模型Seedance1.0pro,性能显著提升;2)OpenAI推出o3-pro模型,专注可靠性但响应较慢;3)Figma推出Dev Mode MCP服务,实现设计到代码一键转换;4)Krea AI发布图像生成模型Krea1,解决传统AI绘图问题;5)火山引擎豆包日调用量突破16.4万亿次;6)法国Mistral发布推理模型Magistral;7)苹果系统整合ChatGPT图像生成功能;8)OpenAI大幅下调o3价格80%并推出o3-pro;9)Hugging Face开源榜单显示中国团队Qwen与DeepSeek进入全球前15;10)阿里开源MaskSearch框架,提升AI解决复杂问题能力。

  • AI日报:MiniMax推视频生成模型Hailuo 02;Cursor Pro取消500次请求限制;谷歌发布AI模型 Gemini 2.5 Flash-Lite

    本文汇总了AI领域最新动态:1)Cursor Pro取消500次请求限制;2)稀宇科技推出视频生成模型Hailuo02;3)谷歌发布轻量级AI模型Gemini2.5Flash-Lite;4)科大讯飞星火X1升级版7月上线;5)腾讯元宝推出AI编程模式;6)OpenAI将下架GPT-4.5 API;7)苹果Speech API转录速度超Whisper 55%;8)百度推出数字人互动直播间;9)Meta曾试图高薪挖角OpenAI人才;10)Krea1公测开放,解决"AI感"问题;11)特斯拉Grok车载AI助手即将上线;12)谷歌Gemini新增视频分析功能。

  • AI日报:美团AI编程工具NoCode将上线;火山引擎发布MCP Servers;腾讯混元上线游戏视觉生成平台

    本文汇总了近期AI领域的重要动态:1)美团将推出对话式编程工具"NoCode";2)火山引擎发布大模型生态平台MCP Servers;3)B站开源动画视频生成模型Index-AniSora;4)字节跳动升级AI耳机Ola Friend的英语学习功能;5)GitHub推出AI编程助手自动修复代码漏洞;6)腾讯混元上线游戏视觉生成平台;7)微软将VS Code转型为开源AI编辑器;8)Windows 11原生支持MCP协议;9)Anthropic发布AI代理开发指南;10)谷歌推出编程AI代理Jules;11)NotebookLM推出iOS版;12)Genspark创3600万美元ARR纪录;13)Bright Data发布开源MCP服务器;14)马斯克宣布Grok模型将登陆Azure平台。这些进展展示了AI技术在编程、内容生成、操作系统等领域的快速发展和应用创新。

  • AI日报:昆仑万维天工超级智能体发布;OpenAI核心API支持MCP;百度飞桨PaddleOCR 3.0开源

    【AI日报】汇总了近期AI领域重要动态:1)百度飞桨发布PaddleOCR3.0,提升文字识别精度13%;2)昆仑万维发布天工超级智能体,AI办公成本仅为OpenAI的40%;3)OpenAI API新增MCP支持简化开发流程;4)xAI推出实时网页搜索API;5)谷歌Sparkify可将问题秒变动画;6)Mistral发布高效代码模型Devstral;7)Video Ocean推出4K视频生成工具;8)谷歌推出AI内容识别工具SynthID;9)谷歌NotebookLM使用量半年增长56%;10)硅基流动升级128K长文本模型;11)DeepMind发布音乐生成模型Lyria2;12)多模态大模型MMaDA实现跨模态推理;13)微软发布网页智能体Magentic-UI;14)Framer推出AI建站套件。