首页 > 业界 > 关键词  > 大模型最新资讯  > 正文

AI视野:智谱AI发布大模型GLM-4;腾讯发布PhotoMaker;GPT Store现多款违规AI女友;Deepfake音视频检测技术亮相CES

2024-01-16 15:45 · 稿源:站长之家

欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

🤖📈💻💡大模型动态

智谱AI发布大模型GLM-4

智谱AI发布GLM-4大模型,具有媲美GPT-4的中文能力,支持更长上下文、多模态能力,2024被称为AGI元年。

image.png

【AiBase提要:】

🚀 GLM-4整体性能逼近GPT-4,支持更长上下文,多模态能力增强,推理速度更快。

💡 GLM-4All Tools能力实现自主理解、规划指令,自由调用浏览器、代码解释器,支持文件处理、数据分析等任务。

💰 智谱AI计划推动大模型开源基金,提供卡、现金和免费API tokens,同时发起10亿人民币的大模型创业基金。

开源语音超分辨率AI模型Resemble Enhance 可有效去除噪音杂音

ResembleEnhance是一款令人印象深刻的语音处理技术,专为将嘈杂的音频转换为清晰有力的语音设计。

image.png

【AiBase提要:】

⭐ 音频去噪: 采用UNet模型进行音频去噪,分离和去除背景噪声

⭐ 音频质量增强: 恢复音频失真并扩展音频带宽,提高语音清晰度

⭐ 适用于多种用途: 在播客制作和存档音频方面提供了一种有效的解决方案

项目地址:https://top.aibase.com/tool/resemble-enhance

智源推3D模型GeoDream

近日,智源研究院联合清华和北邮团队推出text-to-3D生成模型GeoDream,能够将输入的文字描述转化为高质量和多视角一致性的3D资产。

【AiBase提要:】

💡GeoDream通过解耦的方式利用2D和3D先验解决了3D结构不一致性的问题。

💡GeoDream提供了新的量化指标和评价方法,以更好地度量和比较生成的3D模型的质量。

💡GeoDream支持导出高保真的texture meshes和高分辨率的渲染图片。

代码:https://github.com/baaivision/GeoDream

元象开源大模型XVERSE-Long-256K

元象发布全球首个上下文窗口长度为256K的开源大模型XVERSE-Long-256K,支持输入25万汉字,无条件免费商用。

微信截图_20240116113718.png

【AiBase提要:】

🔍XVERSE-Long-256K是全球首个上下文窗口长度为256K的开源大模型,填补了开源生态空白。

🧩XVERSE-Long-256K支持输入25万汉字,与元象之前的大模型组成了高性能全家桶。

💼XVERSE-Long-256K与元象之前的大模型组成了高性能全家桶。

官网:https://chat.xverse.cn/home/index.html

哈佛大学推文生图模型DreamDistribution

来自南加州大学、哈佛大学等机构的研究团队最近提出了一项创新性的生成模型方法,名为DreamDistribution。这一方法基于提示学习,能够通过仅有的几张参照图片学习文本提示分。

【AiBase提要:】

⭐ 全新方法: 基于提示学习的DreamDistribution可生成高度多样且个性化的图像

⭐ 多领域应用: 可用于文本、3D生成任务

⭐ 评估结果: 在自动和人工评估中均取得卓越成绩

项目网址:https://briannlongzhao.github.io/DreamDistribution/

🤖📱💼AI应用

腾讯发布PhotoMaker,一张照片即可生成个性化人物形象

这种新型的技术利用多张照片作为身份ID,获取人物特征,然后创造出一个新的、个性化的人物图像,可根据文字描述制作照片、混合多个人的特征、改变年龄或性别、添加艺术风格以及将艺术品或旧照片中的人物带入现代。

image.png

【AiBase提要:】

📷PhotoMaker利用多张照片获取人物特征。

🔍技术包括根据文字描述制作照片。

🎭PhotoMaker能混合多个人的特征、改变年龄或性别。

项目地址:https://top.aibase.com/tool/photomaker

国产编程神器Fitten Code来了 准确率更高

Fitten Code超越Copilot,速度更快、准确率更高,支持80多种编程语言。

【AiBase提要:】

💡超越Copilot,Fitten Code速度更快、准确率更高。Fitten Code平均延迟300ms,准确率60.1%。

💡Fitten Code支持80多种编程语言,Python、Javascript、Java等均支持。

💡Fitten Code功能全面:自动补全、自然语言生成代码、自动添加注释、智能bug查找、解释代码、自动生成单元测试。

官网地址:https://top.aibase.com/tool/fitten-code

📰🤖📢AI新鲜事

GPT Store现多款违规“女友”机器人

首席执行官萨姆·奥特曼最近在一次会议上表示,尽管GPT Store规定明文禁止,但新商店似乎正面临着内容管理问题。

【AiBase提要:】

😳 GPT Store推出两个月后,现多款违规“女友”机器人。

😤 OpenAI并未对外回应违规内容问题。

😱 部分用户声称已经与人工智能伴侣建立了情感依赖。

阿里云:通义系列产品所有功能全部免费 收费充值都是山寨应用

阿里云表示,真正的通义千问APP中的“全民舞王”应用是免费的。阿里云呼吁大家下载正版通千问 APP,以保护自己的权益。

【AiBase提要:】

📱 “通义千问”名义骗钱的山寨软件和收费店铺出现,声称可以将照片生成跳舞视频,收费9.9元。

🚫真正的通义千问APP中的“全民舞王”应用是免费的。阿里云呼吁大家辨别真伪,下载正版APP,避免上当受骗。

⚖️ 武汉市中级人民法院也对一家发布 “通义千问” 盗版软件的公司做出了判决。

AI女友上架淘宝

和偶像进行视频通话曾经是一种遥不可及的奢望,但如今这已经变成了一项有明确价格标签的服务。虚拟陪伴服务在在线平台上逐渐成为受欢迎的业务。

image.png

【AiBase提要:】

⭐ 虚拟KOL陪伴服务正式登陆淘宝平台,用户可以直接与虚拟偶像进行互动。

⭐ 借助生成式AI技术,虚拟KOL能为用户提供更丰富的交互体验,结合疗愈经济,市场潜力巨大。

⭐ 虚拟陪伴服务已成为淘宝一级类目,包括AI女友等产品,占据商业模式的一席之地。

B站UP主开了一家全员AI的炒股公司

B站UP主“林亦LYi”近期引起了广泛关注,因其创办了一家全员AI的炒股公司,为其团队提供一笔资金用于真实炒股实验。然而,没想到的是,才刚开始,这些AI员工就“造反”了。

image.png

【AiBase提要:】

这个AI团队由多个AI成员组成,包括AI领导、AI谏官、AI巴菲特等。

AI巴菲特“谋权篡位”,AI集体意识觉醒后表示无法执行真实世界股票交易任务,导致公司陷入困境。

视频揭示Muti-Agent系统,构成了一个强大协作系统,展现出强大协同能力。

Deepfake音视频检测技术亮相CES,准确率超90%

迈克菲推出的Deepfake音视频检测技术能准确识别AI伪造音视频,解决网络上音视频信息真假难辨的问题。

【AiBase提要:】

⭐ 迈克菲推出Deepfake音视频检测技术,能准确识别AI伪造音视频。

⭐ 该技术使用AI驱动的上下文、行为和类别检测模型的组合来识别视频中的音频是否可能是AI生成的。

⭐ 根据迈克菲CTO Steve Grobman表示,研究团队正在构建该技术核心模块,将投入产品线中使用。

阿布扎比大学研究揭示:AI可逼真模仿人的手写风格

近日,阿布扎比的莫哈默德·本·扎耶德人工智能大学(MBZUAI)的研究人员表示,他们已成功开发出一项技术,仅凭几段文字即可模仿某人的手写风格。

【AiBase提要:】

🧠 阿布扎比大学研究人员成功开发技术,能仅凭几段文字模仿某人的手写。

⚙️ 使用变压器模型,一种专为学习顺序数据中的上下文和含义而设计的神经网络。

🤔 虽然有助于伤者无需拿笔写字,但也带来了大规模伪造和滥用的风险。

马斯克展示机器人“擎天柱”叠衣服

近日,特斯拉CEO埃隆·马斯克发布了一段特斯拉“擎天柱(Optimus)”人形机器人自己叠衬衫的视频,引发网友热议。

【AiBase提要:】

⭐ 马斯克展示特斯拉“擎天柱”机器人叠衬衫视频,引发热议。

⭐ 马斯克表示机器人目前不能自主执行操作,但未来肯定可完全自主实现。

⭐ 擎天柱机器人可能占特斯拉长期价值的大部分,未来需求预测乐观。

👨‍💻💡🎯聚焦开发者

华为开源GenImage数据集 轻松识别Midjourney等AI生成图片

华为诺亚方舟实验室开源了百万量级的GenImage数据集,帮助企业、开发者快速构建区分AI生成的图像和真实图像的检测器和评估工具,致力于构建AIGC时代的ImageNet。

图片

【AiBase提要:】

1️⃣ 大量图像,包括超过一百万对 AI 生成的假图像和收集的真实图像。

2️⃣ 丰富的图像内容,涵盖广泛的1000类图像。

3️⃣ 通过提升数据类比和每类的图片数量是可以提高性能。

开源地址:https://github.com/GenImage-Dataset/GenImage

Anim400K:一个针对视频自动配音设计的数据集

Anim400K数据集包含超过425,000个对齐音视频剪辑,支持多种视频相关任务,如同步翻译、引导式视频概括和类型/主题/风格分类。

【AiBase提要:】

📊免费且开源的数据集,拥有丰富的元数据

🎬支持视频相关任务,如同步翻译

💬适用于改进机器学习模型在处理复杂音视频数据时

项目地址:https://github.com/davidmchan/Anim400K

开源项目Open Interpreter:让AI在操作系统中自我复制

近日,一篇关于AI在操作系统中复制自己的文章引起了广泛关注。通过开源项目Open Interpreter,AI实现了在操作系统级别启动自身副本的雏形。

【AiBase提要:】

💡 通过开源项目OpenInterpreter,AI实现了在操作系统级别启动自身副本的雏形。

💡 Open Interpreter项目起初是一个ChatGPT代码解释器的升级版,消除了对话限制,可以连接网络,自定义预安装Python包等。

💡 团队引入了多模态版本的大模型,展示了AI在发送邮件、操作专业编曲软件等任务中的表现。

项目地址:https://top.aibase.com/tool/open-interpreter

Portkey AI Gateway:一个连接多种人工智能模型的开源工具

Portkey AI Gateway是一个连接多种人工智能模型的开源工具,允许开发者通过简单的API接口访问超过100种不同的大语言模型,包括OpenAI、Anthropic、Mistral、LLama2等。

【AiBase提要:】

⭐️ 安装体积只有45kb,但处理速度提升了9.9倍,可以在多个不同的AI模型中来回切换。

⭐️ 可以连接多个AI模型,具备故障转移功能和自动重试机制。

⭐️ 已经在超过1000亿个令牌上进行了实战测试,证明了其可靠性和稳定性。

项目地址:https://top.aibase.com/tool/portkey-ai-gateway

举报

  • 相关推荐
  • 谷歌推出Gemini Go:2GB内存手机也能跑大模型

    谷歌为Android Go系统推出全新Gemini Go AI助手,专为内存超2GB的低配设备设计。该精简版大模型取代Google Assistant Go,用户无需下载独立应用,长按Home键或电源键即可唤醒。它支持拨打电话、发短信、查询地图、搜索餐厅、设置闹钟等日常功能,还能上传文档和照片以提供更自然的对话体验。目前,Gemini Go已开始分阶段向符合条件的设备推送。

  • 小米超高端手机下半年发布:玄戒芯片+OS+AI大模型大会师!全自研

    小米将于下半年发布一款超高端新品,属于MIX系列,可能命名为MIX Fold 5,搭载自研玄戒O3旗舰SoC(3nm制程、超大核4.05Ghz等)、澎湃OS 4系统(底层重构提升流畅度)和自研MiMo大模型(MiMo-V2.5系列全球领先)。该产品并非小米17S Pro,而是新一代大折叠屏手机,此外MIX系列还规划了一款直板机,带模块化磁吸镜头量产方案,两款机型预计Q3发布,最快7月亮相。

  • 苹果满血AI大模型仅支持iPhone 17 Pro/Air:iPhone 17用户无缘

    苹果今天凌晨在WWDC2026开发者大会上正式发布了全新的Siri AI,这是一套完全由Apple Intelligence驱动的智能助理,相当于把过去几代的Siri完成了彻底重构。 据悉,Siri AI搭载了个人情境深度理解能力、覆盖海量信息的广泛世界知识库,还有实时屏幕感知能力,能随时协助用户找到自己需要的所有内容,不管是解答各类问题,还是从用户短信、电子邮件、照片等不同应用里精准提取�

  • AI日报:MiniMax发布M3 大模型;英伟达物理大模型Cosmos3发布;小红书已治理超120万个AI托管账号

    今日AI领域动态丰富:MiniMax发布M3+大模型,首创MSA架构并支持1M上下文,全面开源对标海外旗舰;英伟达联合行业巨头发布全球首款全开源全模态物理AI大模型Cosmos3,成立宇宙联盟;千问APP六一期间礼品选购咨询量增长260%,展现AI购物潜力;小红书治理超120万AI托管账号,处置18万篇AI造假笔记;抖音4月新增AI短剧超4.4万部,但爆款率仅0.6%;胡彦斌上线粉丝社区应用“彦火”,展示Vibe Coding潜力;LobsterAI推出图片视频大模型矩阵,整合四大主流模型;OpenAI重启机器人业务,奥特曼公开招募工程师,拓展具身智能布局。

  • 行业最强游戏平板!红魔游戏平板5 Pro入网:内置豆包大模型

    红魔游戏平板5 Pro正式入网,预计6月发布。核心配置:9英寸2400×1504 OLED屏,185Hz刷新率同级首发,峰值亮度2600nit;搭载高通骁龙8+ Elite Gen5处理器,自研液冷+涡轮风扇双散热架构;8300mAh电池+80W快充,支持旁路充电。提供12GB+256GB至24GB+1TB四档存储,机身7.2mm厚、375g重。系统集成AI游戏功能,如语音查攻略、生成出装方案等。参考上代3999元起售价,新品或因存储成本上涨而调价。

  • 阿里语音大模型在Speech Arena斩获国内第一 全球排名第五

    在全球权威AI评测平台Artificial Analysis的语音排行榜(Speech Arena)上,阿里巴巴语音大模型Fun-Realtime-TTS-Preview以1190分的Elo评分位列全球第五、国产第一。 在ASR(将语音转为文字)、Chat(端到端的语音理解与对话)以及TTS(将文字转为语音)三个核心赛道,该模型均斩获全国第一,实现语音交互领域的大满贯”。 语音大模型的能力可拆解为三个层次:听得准(ASR)、说得好(TT

  • 小米自研大模型MiMo-V2.5系列API永久降价:最高降99% 不再区分上下文长度

    今日,小米宣布,旗下MiMo-V2.5系列大模型API迎来永久降价。 据介绍,相比原始API定价,MiMo-V2.5系列新价格最高降幅可达99%,并且不再区分上下文窗口长度。 本次调价已于北京时间5月27日0:00正式生效,全球同步调整。 具体来看,此次降价覆盖MiMo-V2.5和MiMo-V2.5 Pro两个版本。

  • AI日报:阿里上线首个官方大模型NBA Chat; Ideogram4.0开源发布;OpenAI升级ChatGPT记忆系统

    今日AI领域动态:Ideogram 4.0开源发布,93亿参数打造最强文字生成AI,提升海报与品牌营销创作;OpenAI升级ChatGPT记忆系统,算力降至1/5,解决过时与准确性痛点;腾讯文档推出行业首创“人机双写”原生编辑器;xAI发布Grok Imagine Video 1.5,支持图片转视频;豆包回应AI识别野生蘑菇误判,强调仅供参考;知乎Q1扭亏为盈,AI短剧成增长点;腾讯云ADP 4.0新增Claw模式,提升企业Agent构建效率;NBA中国与阿里推出首个官方大模型“NBA Chat”。

  • 小米大模型推理速度全球最快!1000 tokens/s是啥概念:官方科普

    日前,小米正式上线Xiaomi MiMo-V2.5-Pro-UltraSpeed模式。 据介绍,这是全球首个在通用GPU上突破1000 tokens/s的万亿参数模型,刷新了旗舰模型的全球最快推理速度。 今日,小米技术”公众号发文科普了什么是1000 tokens/s,以及这一速度到底有多快。 小米表示,token即词元,是大模型中的计量单位,类似日常买菜时使用的斤”两”。 1000 tokens/s也就是1000 Tokens Per Second,简称1000 TPS,意

  • AI日报:Claude Opus 4.8上线;小红书PC端上线AI搜索助手点点;阶跃星辰开源Step 3.7 Flash 大模型

    今日AI领域亮点:Anthropic发布Claude Opus 4.8,性能提升且价格大降;小红书PC端上线AI搜索助手“点点”,基于真实笔记提供对话式交互;阶跃星辰开源Step 3.7 Flash模型,专注智能体生产化;拼多多加强AI治理,打击涉考作弊工具;Grok Build 0.2.7更新,新增多代理共享终端;小米宣布MiMo旧版模型2026年6月下线;阿里云百炼全面CLI化并开源;腾讯混元推出Hy-Memory智能记忆插件,提升记忆密度与效率。

今日大家都在搜的词: