首页 > 业界 > 关键词  > 通义千问最新资讯  > 正文

AI视野:阿里云开源Qwen-72B大模型;Meta推三项新AI项目;Sam Altman回应Q* 相关问题;天工SkyAgents发布

2023-12-01 15:17 · 稿源:站长之家

🤖📈💻💡大模型动态

阿里云开源Qwen-72B大模型

阿里云开源了通义千问Qwen-72B(720亿参数)、Qwen-1.8B(18亿参数)以及音频大模型Qwen-Audio,提供对话模型和量化版,支持开发者推理训练。

image.png

体验地址:https://modelscope.cn/studios/qwen/Qwen-72B-Chat-Demo/summary

【AiBase提要:】

🎉 Qwen-72B模型:720亿参数,拥有强大系统指令能力,支持通过提示词定制AI助手。

🗣️ Qwen-1.8B模型:18亿参数,可进行对话任务,提供对话模型和量化版,开发者可在魔搭社区体验下载。

🔊 Qwen-Audio模型: 针对音频,可将语音转换成文本,为大规模音频语言模型领域带来重大突破。

DeepMind发布自监督扩散模型SODA

Google DeepMind发布的自监督扩散模型SODA通过无监督方式精准控制扩散模型,实现风格与内容分离及3D视图生成。

【AiBase提要:】

🔄 模型介绍: DeepMind发布SODA,一种自监督扩散模型,利用图像编码器和去噪解码器实现无监督学习,捕获视觉语义。

🎨 强大生成能力: SODA展示在多个数据集上的强大表示和生成能力,包括线性探测分类、图像重建、新视角合成等实验。

🌐 潜在应用: 该模型不仅在图像生成方面表现出色,还能学习强大的语义表示,为动态组合场景等领域提供新思路。

📰🤖📢AI新鲜事

Meta AI实验室推三项新AI项目

Meta AI实验室庆祝成立十周年,推出Ego-Exo4D视频学习数据集、Seamless Communication语言交流AI模型、以及Audiobox音频生成模型,展示了在增强现实、跨语言交流和音频生成领域的创新成果。

image.png

【AiBase提要:】

🌐 Ego-Exo4D: Meta发布支持视频学习和多模态感知的数据集,覆盖复杂人类活动,如运动、音乐、烹饪,可用于增强现实、机器学习和社交网络。

💬 Seamless Communication: 推出四个AI研究模型,旨在实现更自然、真实的跨语言交流,包括语音表达和语境保留的SeamlessExpressive等功能。

🎶 Audiobox: Meta的新音频生成模型,通过语音输入和自然语言文本提示生成声音和音效,为研究人员提供先进的音频生成研究支持。

海纳AI完成数千万元A轮融资

近日,海纳AI成功获得数千万元A轮融资,由联想创投独家投资。这笔资金将用于人才招募、AI模型研发和营销体系搭建,以提升产品和服务品质,扩大竞争优势。海纳AI在2023年推出基于最新GPT技术的Hina AI2.0大模型,专注于打造AI面试测评平台,服务包括沃尔玛、顺丰、吉利等500强企业,面试人数超过700万。

【AiBase提要:】

🚀 融资成功: 海纳AI获得数千万元A轮融资,由联想创投独家投资。

💡 资金用途: 资金将用于人才招募、AI模型研发、营销体系搭建,提升产品品质和服务竞争优势。

🌐 AI面试服务: 基于最新GPT技术推出的Hina AI2.0大模型,服务包括500强企业,面试人数超过700万。

Sam Altman首次回应Q* 相关问题

经历董事会政变后,Sam Altman回归OpenAI首席执行官,就解雇原因拒绝透露,表示董事会将进行独立审查。

【AiBase提要:】

🔄 复职背后的心路历程: Sam Altman回应董事会请求,表示对公司的热爱和对团队的信任驱使他回归。

❓ 解雇原因成谜: Altman对于自己被解雇的原因保持沉默,董事会将进行独立审查,他欢迎这一决定。

🚀 未来展望: 公司治理结构调整将需要时间,Altman强调对安全工作的承诺,而最近关于Q*模型的突破则未受事件影响。

亚马逊否认计划使用AI完成《Road House》续集

亚马逊否认使用人工智能完成《Road House》续集,与制片人乔尔·席尔弗的指控相悖,强调电影已于2022年10月杀青,不存在在罢工期间使用AI的可能性。

【AiBase提要:】

📰 亚马逊否认计划使用AI制作《Road House》续集,反驳制片人席尔弗的指控。

🎬 制片人因反对在罢工期间使用AI而被开除,亚马逊称指控毫无真实性。

🚫 电影已于2022年10月杀青,亚马逊强调不存在在罢工期间使用AI的可能性。

COLE AI系统利用多模型联合生成高质量设计

一年过去了,微软亚洲研究院和北京大学的研究人员合作开发的COLE AI系统在图形设计领域取得了显著进展。该系统通过多个AI模型的协同作业,为用户提供可编辑的图形设计,不仅生成图像,还能嵌入相关文本,具备可编辑文本和视觉元素的功能。

image.png

论文网址:https://arxiv.org/pdf/2311.16974.pdf

【AiBase提要:】

🌐 COLE采用了Meta的Llama2-13B、DeepFloyd IF、LLaVA1.5-13B和GPT-4V等多个AI模型的组合,通过对互联网上的高质量原始图形设计图像进行训练,实现了出色的设计生成效果。

🖌️ COLE不仅能生成清晰有序的图形设计,还能在图像内生成可编辑的文本和对象区块,为用户提供直接编辑的便捷方式,避免了导出到其他设计软件的繁琐步骤。

🚀 COLE系统在生成各种设计项目时表现出色,研究人员认为它有可能让没有图形设计培训或专业知识的人能够生成与专业设计师媲美的高质量设计。

🤖📱💼AI应用

阿里国际站上线OKKI AI

OKKI AI是面向全行业企业的外贸SaaS工具,以客户管理和辅助决策为核心能力,能帮助外贸商家从琐碎事务中解放出来,提高效率和决策质量。

微信截图_20231201090434.png

【AiBase提要:】

😎 OKKI AI是外贸SaaS工具,主打客户管理和决策辅助,解放商家时间,提高工作效率。

🚀 一键生成开发信、智能客户管理和业务分析是OKKI AI的亮点,受到外贸业务员好评。

📈 对于管理者,OKKI AI提供全盘业务了解,包括订单跟进、客户分布、团队成员报告等,助力决策。

快速绘制,实时推理,tldraw+LCM太好玩啦!

近期,清华发布的潜在一致性模型LCM与fal.ai的API推出的实时绘图工具drawfast结合,通过创新性方法实现了仅需少数几步推理即可高效生成高分辨率图像。drawfast是一款开源协作式数字白板,结合GPT4-Version,用户能在画布上绘制草稿实时生成UI,并复制相关html/css代码,为用户提供了便捷的绘图工具。

image.png

体验地址:https://top.aibase.com/tool/drawfast

【AiBase提要:】

🚀 LCM与drawfast结合,提供用户快速绘制、实时推理的绘图体验。

🖌️ drawfast是一款开源协作式数字白板,搭配GPT4-Version,实时生成UI并提供代码。

💡 用户可在drawfast上产生高效、美观的作品,释放创意潜力,展示工具的创意性和可玩性。

在线图像编辑器miniPaint:开源Photoshop网页最强替代品

miniPaint是一款基于HTML5技术的在线图像编辑器,无需下载安装,直接在浏览器中运行,支持丰富的编辑功能,是Photoshop的强大替代品。

image.png

项目地址:https://github.com/viliusle/miniPaint

【AiBase提要:】

🎨 miniPaint利用HTML5技术,无需下载安装,成为浏览器中的最强在线图像编辑器。

🌐 支持多种图像编辑功能,包括图层、滤镜,操作直接在浏览器中完成,保障用户隐私安全。

🛠️ 项目开源,采用MIT许可证,提供丰富特效和工具,鼓励用户贡献和反馈。

Wombo推AI头像应用程序Wombo Me

Wombo公司推出的新应用Wombo Me,通过一张自拍照片即可迅速生成多个逼真的头像,强调趣味性,支持化身名人、电影角色等,未来计划加入更多互动元素。

【AiBase提要:】

🚀 创新应用发布: Wombo Me由Wombo公司推出,通过一张自拍照片即可快速生成多个逼真头像,相较其他应用更高效。

😄 注重趣味体验: 应用强调趣味性,用户可尝试不同角色,如名人、电影角色,分享到社交媒体展示专业和个性形象。

🌐 未来发展计划: 公司计划引入更多互动元素,如语音和视频,以推动AI在社交媒体内容创造领域更深入的发展。

👨‍💻💡🎯聚焦开发者

昆仑万维发布天工SkyAgents

昆仑万维推出「天工 SkyAgents」AI Agent 开发平台,基于「天工大模型」,支持零代码构建个性化 AI 智能体。适用于个人和企业,实现一键服务部署。

AiBase提要:

🚀 用户可零代码打造私人智能体,基于大模型实现自主学习和模块化任务。

🏢 企业可用于构建个性化应用,包括 IT、智能客服、企业培训、HR、法律顾问等,并支持一键服务部署。

🔄 模块化语言模型和图形界面支持完全无代码操作,用户可以通过自然语言和简单操作进行任务设定和部署。

使用PyTorch加速生成式AI模型

介绍PyTorch团队如何通过本机PyTorch优化加速生成式AI模型,包括Torch.compile编译器、GPU量化、推测性解码和张量并行等技术。

【AiBase提要:】

💻 编译优化: 使用Torch.compile和静态KV缓存减少CPU开销,通过模型编译器提高性能。

🚀 内存带宽优化: 通过INT8仅权重量化缓解内存带宽瓶颈,提高模型推理速度。

🤖 推测性解码: 利用推测解码打破生成过程的串行依赖性,加速权重加载,提高生成速度。

基于大学水平考试的多模态AI测试基准MMMUs发布

最新发布的MMMUs基准挑战GPT-4V等模型,包含六个学科的30个科目,共有1.15万个多模态问题,考察机器在广泛多样任务上的专家级多模态理解和推理能力。

image.png

论文地址:https://arxiv.org/abs/2311.16502

项目网站:https://mmmu-benchmark.github.io/

【AiBase提要:】

🌐 MMMUs基准挑战GPT-4V,包含六个学科30个科目,1.15万多模态问题。

📚 问题设计注重深度,考察感知、知识和推理等基本技能。

🚀 MMMUs作为全面多模态AI测试基准,为评估专家级AGI提供新视角。

举报

  • 相关推荐
  • 刚刚,Sam Altman深夜发文,AI Agent将重塑世界经济

    今天凌晨5点,OpenAI联合创始人兼首席执行官SamAltman在其个人博客,发布了一篇深度文章《ThreeObservations》。主要对AI世界提出了3点观察,AI模型的智能水平大致等于用于训练和运行它的资源的对数;使用特定水平AI的成本大约每12个月下降10倍更低的价格会带来更多的使用;线性增长的智能所创造的社会经济价值是超指数增长。世界上有许多人才没有足够的资源来充分展现自己,如果我们能够改变这一点,世界将创造出巨大的价值,从为我们所有人带来巨大的好处。

  • 阿里云通义开源Qwen2.5-VL:最强视觉AI 超越GPT-4o

    今天,阿里云通义千问开源全新的视觉模型Qwen2.5-VL,推出3B、7B和72B三个尺寸版本。旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军,超越GPT-4o与Claude3.5。在信息抽取能力上进行大幅度增强,以满足日益增长的资质审核、金融商务等数字化、智能化需求。

  • Sam Altman炸场东京,亲曝GPT-5研发路线图,多模态能力颠覆传统

    OpenAI联合创始人兼首席执行官SamAltman出席了日本东京大学活动,介绍了OpenAI的技术研发、产品规划以及GPT模型未来发展等重要信息。在问答环节,有学生提到了大家比较关心的GPT-5问题,Altman表示,GPT-5将是一个超级混合模型,计划会把GPT和o系列模型整合在一起,并且支持视频、音频、图像的多模态交互。Altman表示,OpenAI积极倡导与全球各界共同探讨伦理问题,希望通过广泛的交流和合作,形成一套科学合理、切实可行的伦理规范。

  • Meta AI首席科学家杨立昆谈DeepSeek:不是中国AI超越美国 而是开源模型超越专有模型

    一夜间,DeepSeek在全世界科技界刷屏。图灵奖得主、主导MetaAI研究的首席科学家杨立昆认为,DeepSeek成功的最大收获并非中国竞争对其他国家带来更大威胁是AI开源的价值使任何人都能受益。DeepSeek-R1的发布极大震动了美国科技界,不仅因其性能上比肩OpenAIo1,且完全开源以极低的成本实现了这一突破。

  • 为训练AI不择手段!Meta被曝下载数十TB盗版电子书

    一名图书作者对Meta提起诉讼,指控该公司未经授权下载了大量盗版电子书,用于训练其AI模型。最新泄露的邮件显示,Meta承认下载了一个有争议的大型数据集LibGen,其中包括数千万本盗版书籍。但Meta仍决定继续,并试图通过将数据集下载到非Meta服务器来避免被追溯的风险。

  • CapCutTikTok停止服务:Meta火速推新用抢市场!

    随着TikTok在美国的业务面临不确定性,字节跳动旗下的剪映国际版CapCut等多款应用日前也向美国用户推送了停止服务的通知。在此背景下Meta迅速出击,Instagram主管AdamMosseri宣布推出一款名为Edits的视频编辑应用,旨在填补CapCut下线后的市场空白。Edits将于2025年3月13日正式上线,目前已经在iOS应用商店开放预购,虽然Mosseri没有透露更多,但目的很明显是为了让人们记住这款应用程序。

  • 微软开源创新框架:可将DeepSeek,变成AI Agent

    微软在官网发布了视觉Agent解析框架OmniParser最新版本V2.0,可将DeepSeek-R1、GPT-4o、Qwen-2.5VL等模型,变成可在计算机使用的AIAgent。与V1版本相比,V2在检测较小的可交互UI元素时准确率更高、推理速度更快,延迟降低了60%。当任务是“点击设置按钮”时,OmniParser不仅提供了设置按钮的边界框和ID提供了其功能描述,颗显著提高了模型的准确性和鲁棒性。

  • Arm正在开发自家芯片:Meta被锁定为首批客户

    据报道,软银旗下Arm正加速推进从传统授权模式向自主芯片设计和制造的重大转型,预计最早在夏季亮相。新芯片将作为大型数据中心服务器的中央处理器平台,基于可定制化设计,能够满足包括Meta在内的多家客户的特定需求生产则可能外包给台积电等专业制造商。软银集团创始人孙正义在星际之门”计划中宣布,将携手OpenAI等合作伙伴,斥资高达5000亿美元构建AI基础设施Arm作为该宏伟蓝图中的关键技术伙伴,其转型无疑将为这一计划注入更为强劲的技术动力与创新活力。

  • Mistral、AI2 发布开源 LLMs:更小,更便宜

    站长之家1月31日消息:MistralAI和Allen人工智能研究所今天发布了新的大型语言模型,它们声称这些模型在各自类别中属于最先进的。Mistral的模型被称为MistralSmall3Allen人工智能研究所发布的则是Tülu3405B。「通过这一发布,我们展示了我们在405B参数规模上应用后训练方法的可扩展性和有效性。

  • 雷军首次回应小米15 Ultra定价:从盈亏角度来说一定需要涨价

    雷军在元宵节直播中表示,小米15Ultra是小米定位最高端的手机系列之一。雷军还首次提到了小米15Ultra的定价问题,称上一代的小米14Ultra定价6499元,这一年来研发成本,器件成本越来越高,从盈亏角度上来说一定需要涨价。作为影像机皇,小米15Ultra主摄搭载1/0.98英寸的YT900,这是目前行业最强传感器,同时还配有5000万像素直立人像长焦镜头、5000万像素超广角镜头,潜望长焦升级为2亿像素传感器。

热文

  • 3 天
  • 7天