AI视野：阿里云开源Qwen-72B大模型；Meta推三项新AI项目；Sam Altman回应Q* 相关问题；天工SkyAgents发布

2023-12-01 15:17 · 稿源：站长之家

🤖📈💻💡大模型动态

阿里云开源Qwen-72B大模型

阿里云开源了通义千问Qwen-72B（720亿参数）、Qwen-1.8B(18亿参数)以及音频大模型Qwen-Audio，提供对话模型和量化版，支持开发者推理训练。

体验地址:https://modelscope.cn/studios/qwen/Qwen-72B-Chat-Demo/summary

【AiBase提要:】
🎉 Qwen-72B模型:720亿参数，拥有强大系统指令能力，支持通过提示词定制AI助手。
🗣️ Qwen-1.8B模型:18亿参数，可进行对话任务，提供对话模型和量化版，开发者可在魔搭社区体验下载。
🔊 Qwen-Audio模型: 针对音频，可将语音转换成文本，为大规模音频语言模型领域带来重大突破。

DeepMind发布自监督扩散模型SODA

Google DeepMind发布的自监督扩散模型SODA通过无监督方式精准控制扩散模型，实现风格与内容分离及3D视图生成。

【AiBase提要:】
🔄 模型介绍: DeepMind发布SODA，一种自监督扩散模型，利用图像编码器和去噪解码器实现无监督学习，捕获视觉语义。
🎨 强大生成能力: SODA展示在多个数据集上的强大表示和生成能力，包括线性探测分类、图像重建、新视角合成等实验。
🌐 潜在应用: 该模型不仅在图像生成方面表现出色，还能学习强大的语义表示，为动态组合场景等领域提供新思路。

📰🤖📢AI新鲜事

Meta AI实验室推三项新AI项目

Meta AI实验室庆祝成立十周年，推出Ego-Exo4D视频学习数据集、Seamless Communication语言交流AI模型、以及Audiobox音频生成模型，展示了在增强现实、跨语言交流和音频生成领域的创新成果。

【AiBase提要:】
🌐 Ego-Exo4D: Meta发布支持视频学习和多模态感知的数据集，覆盖复杂人类活动，如运动、音乐、烹饪，可用于增强现实、机器学习和社交网络。
💬 Seamless Communication: 推出四个AI研究模型，旨在实现更自然、真实的跨语言交流，包括语音表达和语境保留的SeamlessExpressive等功能。
🎶 Audiobox: Meta的新音频生成模型，通过语音输入和自然语言文本提示生成声音和音效，为研究人员提供先进的音频生成研究支持。

海纳AI完成数千万元A轮融资

近日，海纳AI成功获得数千万元A轮融资，由联想创投独家投资。这笔资金将用于人才招募、AI模型研发和营销体系搭建，以提升产品和服务品质，扩大竞争优势。海纳AI在2023年推出基于最新GPT技术的Hina AI2.0大模型，专注于打造AI面试测评平台，服务包括沃尔玛、顺丰、吉利等500强企业，面试人数超过700万。

【AiBase提要:】
🚀 融资成功: 海纳AI获得数千万元A轮融资，由联想创投独家投资。
💡 资金用途: 资金将用于人才招募、AI模型研发、营销体系搭建，提升产品品质和服务竞争优势。
🌐 AI面试服务: 基于最新GPT技术推出的Hina AI2.0大模型，服务包括500强企业，面试人数超过700万。

Sam Altman首次回应Q* 相关问题

经历董事会政变后，Sam Altman回归OpenAI首席执行官，就解雇原因拒绝透露，表示董事会将进行独立审查。

【AiBase提要:】
🔄 复职背后的心路历程: Sam Altman回应董事会请求，表示对公司的热爱和对团队的信任驱使他回归。
❓ 解雇原因成谜: Altman对于自己被解雇的原因保持沉默，董事会将进行独立审查，他欢迎这一决定。
🚀 未来展望: 公司治理结构调整将需要时间，Altman强调对安全工作的承诺，而最近关于Q*模型的突破则未受事件影响。

亚马逊否认计划使用AI完成《Road House》续集

亚马逊否认使用人工智能完成《Road House》续集，与制片人乔尔·席尔弗的指控相悖，强调电影已于2022年10月杀青，不存在在罢工期间使用AI的可能性。

【AiBase提要:】
📰 亚马逊否认计划使用AI制作《Road House》续集，反驳制片人席尔弗的指控。
🎬 制片人因反对在罢工期间使用AI而被开除，亚马逊称指控毫无真实性。
🚫 电影已于2022年10月杀青，亚马逊强调不存在在罢工期间使用AI的可能性。

COLE AI系统利用多模型联合生成高质量设计

一年过去了，微软亚洲研究院和北京大学的研究人员合作开发的COLE AI系统在图形设计领域取得了显著进展。该系统通过多个AI模型的协同作业，为用户提供可编辑的图形设计，不仅生成图像，还能嵌入相关文本，具备可编辑文本和视觉元素的功能。

论文网址:https://arxiv.org/pdf/2311.16974.pdf

【AiBase提要:】
🌐 COLE采用了Meta的Llama2-13B、DeepFloyd IF、LLaVA1.5-13B和GPT-4V等多个AI模型的组合，通过对互联网上的高质量原始图形设计图像进行训练，实现了出色的设计生成效果。
🖌️ COLE不仅能生成清晰有序的图形设计，还能在图像内生成可编辑的文本和对象区块，为用户提供直接编辑的便捷方式，避免了导出到其他设计软件的繁琐步骤。
🚀 COLE系统在生成各种设计项目时表现出色，研究人员认为它有可能让没有图形设计培训或专业知识的人能够生成与专业设计师媲美的高质量设计。

🤖📱💼AI应用

阿里国际站上线OKKI AI

OKKI AI是面向全行业企业的外贸SaaS工具，以客户管理和辅助决策为核心能力，能帮助外贸商家从琐碎事务中解放出来，提高效率和决策质量。

微信截图_20231201090434.png

【AiBase提要:】
😎 OKKI AI是外贸SaaS工具，主打客户管理和决策辅助，解放商家时间，提高工作效率。
🚀 一键生成开发信、智能客户管理和业务分析是OKKI AI的亮点，受到外贸业务员好评。
📈 对于管理者，OKKI AI提供全盘业务了解，包括订单跟进、客户分布、团队成员报告等，助力决策。

快速绘制，实时推理，tldraw+LCM太好玩啦!

近期，清华发布的潜在一致性模型LCM与fal.ai的API推出的实时绘图工具drawfast结合，通过创新性方法实现了仅需少数几步推理即可高效生成高分辨率图像。drawfast是一款开源协作式数字白板，结合GPT4-Version，用户能在画布上绘制草稿实时生成UI，并复制相关html/css代码，为用户提供了便捷的绘图工具。

体验地址:https://top.aibase.com/tool/drawfast

【AiBase提要:】
🚀 LCM与drawfast结合，提供用户快速绘制、实时推理的绘图体验。
🖌️ drawfast是一款开源协作式数字白板，搭配GPT4-Version，实时生成UI并提供代码。
💡 用户可在drawfast上产生高效、美观的作品，释放创意潜力，展示工具的创意性和可玩性。

在线图像编辑器miniPaint:开源Photoshop网页最强替代品

miniPaint是一款基于HTML5技术的在线图像编辑器，无需下载安装，直接在浏览器中运行，支持丰富的编辑功能，是Photoshop的强大替代品。

项目地址:https://github.com/viliusle/miniPaint

【AiBase提要:】
🎨 miniPaint利用HTML5技术，无需下载安装，成为浏览器中的最强在线图像编辑器。
🌐 支持多种图像编辑功能，包括图层、滤镜，操作直接在浏览器中完成，保障用户隐私安全。
🛠️ 项目开源，采用MIT许可证，提供丰富特效和工具，鼓励用户贡献和反馈。

Wombo推AI头像应用程序Wombo Me

Wombo公司推出的新应用Wombo Me，通过一张自拍照片即可迅速生成多个逼真的头像，强调趣味性，支持化身名人、电影角色等，未来计划加入更多互动元素。

【AiBase提要:】
🚀 创新应用发布: Wombo Me由Wombo公司推出，通过一张自拍照片即可快速生成多个逼真头像，相较其他应用更高效。
😄 注重趣味体验: 应用强调趣味性，用户可尝试不同角色，如名人、电影角色，分享到社交媒体展示专业和个性形象。
🌐 未来发展计划: 公司计划引入更多互动元素，如语音和视频，以推动AI在社交媒体内容创造领域更深入的发展。

👨‍💻💡🎯聚焦开发者

昆仑万维发布天工SkyAgents

昆仑万维推出「天工 SkyAgents」AI Agent 开发平台，基于「天工大模型」，支持零代码构建个性化 AI 智能体。适用于个人和企业，实现一键服务部署。

AiBase提要:
🚀 用户可零代码打造私人智能体，基于大模型实现自主学习和模块化任务。
🏢 企业可用于构建个性化应用，包括 IT、智能客服、企业培训、HR、法律顾问等，并支持一键服务部署。
🔄 模块化语言模型和图形界面支持完全无代码操作，用户可以通过自然语言和简单操作进行任务设定和部署。

使用PyTorch加速生成式AI模型

介绍PyTorch团队如何通过本机PyTorch优化加速生成式AI模型，包括Torch.compile编译器、GPU量化、推测性解码和张量并行等技术。

【AiBase提要:】
💻 编译优化: 使用Torch.compile和静态KV缓存减少CPU开销，通过模型编译器提高性能。
🚀 内存带宽优化: 通过INT8仅权重量化缓解内存带宽瓶颈，提高模型推理速度。
🤖 推测性解码: 利用推测解码打破生成过程的串行依赖性，加速权重加载，提高生成速度。

基于大学水平考试的多模态AI测试基准MMMUs发布

最新发布的MMMUs基准挑战GPT-4V等模型，包含六个学科的30个科目，共有1.15万个多模态问题，考察机器在广泛多样任务上的专家级多模态理解和推理能力。

论文地址:https://arxiv.org/abs/2311.16502

项目网站:https://mmmu-benchmark.github.io/

【AiBase提要:】
🌐 MMMUs基准挑战GPT-4V，包含六个学科30个科目，1.15万多模态问题。
📚 问题设计注重深度，考察感知、知识和推理等基本技能。
🚀 MMMUs作为全面多模态AI测试基准，为评估专家级AGI提供新视角。

（举报）

相关推荐

关键词：

通义千问

荐AI日报：MiniMax-M1开源；阿里Qwen3升级版适配苹果MLX架构；月之暗面发布新模型Kimi-Dev-72B

《AI日报》汇总了近期AI领域多项重要进展：1)月之暗面推出开源编程模型Kimi-Dev-72B，在软件工程任务测试中创下新纪录；2)MiniMax开源M1模型，支持超长上下文推理且训练成本低；3)腾讯发布AI音乐模型LeVo，支持音色克隆和分轨生成；4)阿里云Qwen3升级版适配苹果MLX架构；5)豆包推出"AI播客"功能，可将PDF转为对话播客；6)夸克App上线个性化AI家教"夸克老师"；7)松下发布多模态大模型OmniFlow，实现文本/图像/音频自由切换；8)TikTok推出三款AI视频创作工具；9)极氪与火山引擎合作，将豆包大模型接入智能座舱系统；10)Meta的Llama3.1模型在文本记忆方面表现突出；11)Grok上线定时追踪X热门话题功能；12)Gemini2.5Pro即将更新Deep Think功能；13)谷歌地图引入AI技术升级导航和个性化推荐功能。

人工智能开源模型软件工程
荐AI日报：MiniMax发布视频智能体Hailuo Agent；昆仑万维开源 Skywork-SWE-32B；B站接入Qwen 3等模型

本期AI日报聚焦多项AI领域创新：1)MiniMax推出视频Agent工具，支持文本生成高清视频及人脸驱动；2)昆仑万维开源Skywork-SWE-32B模型，提升软件工程任务表现；3)B站接入通义千问模型，推出数据分析智能体InsightAgent；4)ChatGPT深度整合Gmail与日历功能；5)腾讯云发布全链路AI开发平台"AI Builder"；6)HeyGen推出UGC广告数字人功能；7)研究显示过度依赖AI或削弱批判性思维。此外还涵盖AI音乐生成、内容检测工具停运等动态，展现AI技术快速发展的多元应用与潜在影响。

AI日报视频生成人工智能
荐AI日报：阿里通义推Qwen-TTS模型；Cursor已支持网页和手机端；字节发布图像合成技术XVerse

【AI日报】今日AI领域7大突破：1）阿里通义Qwen-TTS实现方言语音合成重大突破；2）Cursor发布Web版AI编程工具；3）字节XVerse技术实现多对象精准图像生成；4）NoteGen跨平台AI笔记工具革新知识管理；5）ManimML动画库可视化Transformer架构；6）TEN+Agent开源语音交互技术降低延迟；7）Chai-2抗体设计模型将药物研发周期缩短至两周。淘宝同时上线RecGPT推荐模型提升购物体验。

人工智能语音合成 Qwen-TTS
荐AI日报：阿里开源3D数字人项目MNN TaoAvatar；MiniMax Agent上线；罗永浩数字人直播再探“AI+IP”带货模式

本文汇总了AI领域最新动态：1）阿里开源MNN+TaoAvatar技术，实现手机端3D数字人实时交互；2）MiniMax升级AI工具Agent，新增智能图像搜索和多语言支持；3）罗永浩数字人将登陆百度电商直播；4）OpenAI员工套现近30亿美元，软银成最大接盘方；5）ChatGPT推出深度研究和语音模式升级；6）Meta发布V-JEPA2模型，提升机器人环境适应能力；7）AMD与OpenAI合作推出新一代AI芯片；8）Google Gemini集成Imagen4图像生成模型；9）谷歌AI实现10公里级精准天气预报；10）Gartner预测到2028年80%的AI应用开发时间将缩短50%。

人工智能虚拟现实 3D数字人
Meta AI新增生成式AI视频编辑功能：秒换服装、场景

Meta 宣布，将在Meta AI应用、Meta.AI网站和Edits应用上推出一项生成式AI视频编辑功能。用户可通过50多种预设AI提示词，一键实现视频中服装、场景、光影等元素的智能变换。 Meta称，全新的AI视频编辑功能直观易用，用户无需任何视频编辑专业知识即可制作高质量的视频。首先，用户可将视频上传到Meta AI应用、Meta.AI网站或

Meta AI 生成式AI
荐AI日报：通义千问开源Qwen3向量模型；字节跳动图像编辑模型SeedEdit 3.0；ElevenLabs推v3语音模型

本文汇总了近期AI领域的重要动态：1)通义千问发布Qwen3-Embedding系列模型，在多语言文本处理表现优异；2)字节跳动推出图像编辑模型SeedEdit3.0，提升细节保持能力；3)ElevenLabs发布情感语音合成系统Eleven v3 Alpha；4)Anthropic推出面向国家安全的Claude Gov模型；5)可灵AI月收入连续两月超1亿元；6)Meta公布智能眼镜Aria Gen2技术细节；7)爱诗科技上线AI视频工具"拍我AI"；8)富国银行预测2030年ChatGPT广告收入将达千亿美元。

人工智能深度学习文本处理
Meta拟重金加码AI赛道，传将斥资超百亿美元投资Scale AI

Meta 正与人工智能数据服务公司 Scale AI 商讨一项巨额投资，金额可能高达或超过 100 亿美元……

Meta AI行业 Scaleai
Meta想要用AI搞定广告制作流程的“每一步自动化”

即便AI生成视频广告“风险重重”，但 Meta 似乎仍旧想将这项技术推进到极致……

Meta AI工具扎克伯格
阿里云”618创新加速季“开启：先进、领先的大模型限免超7000万 token，加速多场景 AI 应用落地

阿里云启动"618创新加速季"活动，聚焦AI创新与云端智能，推出多项优惠：1）提供7000万+免费大模型token体验及最高1728元优惠券；2）通义大模型限免超7000万token，推出10-100元多档资源包，GPU服务0.9折起；3）PAI平台推出通用节省计划，最低3折；4）针对中小企业推出AI火花会主题活动，提供场景化定制服务；5）基础云产品全线优惠，包括轻量服务器38元/年、RDS MySQL 88元/年等。活动还包含5亿算力补贴计划、10万元出海满减券等专项支持，助力企业智能化升级。
Meta整合AI团队实力跃升，OpenAI/微美全息多维技术发展锚定前沿未来

Meta在AI领域面临激烈竞争，正重组团队加速产品开发。其AI部门将分为产品团队和AGI基础部门，同时保持FAIR研究部门的独立性。OpenAI以65亿美元收购Jony Ive创立的设备公司，计划开发"物理AI"设备。Anthropic发布新一代AI模型Claude Opus4和Sonnet4，在基准测试中击败OpenAI和谷歌。微美全息(WIMI.US)布局AI大模型、人形机器人、AR/VR等多个前沿领域，推动AI从技术突破向价值创造跃迁。全球AI竞争白热化，模型加速融入千行百业，开源整合成为新焦点。

Meta AI OpenAI竞争

热文

3 天
7天

AI视野：阿里云开源Qwen-72B大模型；Meta推三项新AI项目；Sam Altman回应Q* 相关问题；天工SkyAgents发布

荐AI日报：MiniMax-M1开源；阿里Qwen3升级版适配苹果MLX架构；月之暗面发布新模型Kimi-Dev-72B

荐AI日报：MiniMax发布视频智能体Hailuo Agent；昆仑万维开源 Skywork-SWE-32B；B站接入Qwen 3等模型

荐AI日报：阿里通义推Qwen-TTS模型；Cursor已支持网页和手机端；字节发布图像合成技术XVerse

荐AI日报：阿里开源3D数字人项目MNN TaoAvatar；MiniMax Agent上线；罗永浩数字人直播再探“AI+IP”带货模式

Meta AI新增生成式AI视频编辑功能：秒换服装、场景

荐AI日报：通义千问开源Qwen3向量模型；字节跳动图像编辑模型SeedEdit 3.0；ElevenLabs推v3语音模型

Meta拟重金加码AI赛道，传将斥资超百亿美元投资Scale AI

Meta想要用AI搞定广告制作流程的“每一步自动化”

阿里云”618创新加速季“开启：先进、领先的大模型限免超7000万 token，加速多场景 AI 应用落地

Meta整合AI团队实力跃升，OpenAI/微美全息多维技术发展锚定前沿未来

热文

小米汽车回应YU7是否难破窗：无需担心随车赠送破窗锤

特斯拉中国宣布Model 3/Y长续航版续航提升

小鹏G7官宣7月3日发布全球首款L3级算力车型

董明珠说自己尽量少说话让年轻管理团队走向台前

安克修改召回方案充电宝泡盐水处理后可获赔

小米YU7将开启限时改配非准现车锁单用户可参与

站长商机