首页 > 业界 > 关键词  > 微软最新资讯  > 正文

AI视野:微软推自主研发AI芯片Maia100;WPS AI开启公测;OPPO发布安第斯大模型AndesGPT;DeepMind发布新模型Mirasol3B

2023-11-16 15:09 · 稿源:站长之家

📰🤖📢AI新鲜事

微软正式宣布其首款人工智能芯片 Maia100

微软宣布推出首款自主研发的AI芯片Maia100,旨在训练大型语言模型,并推出基于Arm架构的通用计算芯片Cobalt100,以优化云计算工作负载。

【AiBase提要:】

😊 Maia100AI芯片: 微软推出首款自主研发的AI芯片,支持云AI工作负载,包括大型语言模型的训练和推理,采用5纳米TSMC工艺制造。

😎 Cobalt100通用计算芯片: 微软发布基于Arm架构的Cobalt100CPU,专为云计算工作负载设计,拥有128核心,注重性能和功率管理。

🌐 微软战略调整: Maia和Cobalt是微软在芯片领域的重要一步,旨在减少对供应链的依赖,为Azure数据中心提供更高效、更密集的服务器处理器。

金山办公WPS AI开启公测,小米14深度合作

金山办公旗下WPS AI正式开启公测,具备生成式人工智能能力,可通过自然语言输入实现文档生成、改写、总结、润色等功能,小米14系列手机可使用。

【AiBase提要:】

🚀 AI应用开放公测: 金山办公WPS AI开始公测,提供生成式人工智能应用,支持多轮对话,可实现文档生成、改写、总结等功能。

📱 小米14深度合作: 小米14系列手机宣布与金山办公深度合作,用户可利用WPS AI提高工作效率和办公体验。

💡 功能丰富多样: WPS AI覆盖起草、改写、总结、润色、翻译、续写等功能,适用于办公中的多种场景。

GitHub2023生成式AI项目数量猛增 同比增长248%

GitHub发布的2023年度报告显示,今年新增65,000个生成式AI项目,同比增长248%,推动GitHub总项目数年度增长27%。

【AiBase提要:】

📈2023年GitHub新增65,000个生成式AI项目,同比增长248%。

🌐 开源生成式AI项目进入2023年度贡献者数量前十,其中包括LangChain和Stable Diffusion等热门项目。

🌐 GitHub预测印度将在2027年成为全球最大的开发者社区,生成式AI的迅速发展将对业务产生深远影响。

任天堂运用AI技术增强Peridot虚拟宠物的真实感

任天堂宣布在Peridot虚拟宠物游戏中引入生成式AI技术,通过分析真实世界物体,使虚拟宠物更真实地模拟行为,个性化反应将更充分地利用以前未使用的动画资源。

【AiBase提要:】

🌐 AI技术介绍: Niantic将在Peridot中引入生成式AI技术,通过手机摄像头捕捉真实物体,分析确定宠物的反应。

📱 算法运作: 游戏更新后,Niantic的算法将转化摄像头捕捉的物体为语言模型可解析的词汇,运用Meta's Llama2程序的定制版本。

🐾 个性化反应: 游戏中的每个宠物(Dots)有类似于Pokémon的个性概况,通过生成式AI技术,语言模型确定特定个性类型的Dot如何与周围物体互动,更充分利用未使用的动画资源。

英伟达正式宣布 AI Foundry 服务

英伟达正式推出 AI Foundry 服务,与微软 Azure 合作推出 H100实例,明年计划推出性能更强的 H200实例,旨在为企业提供全方位生成式 AI 解决方案。

【AiBase提要:】

🚀 AI Foundry服务计划: 英伟达发布全方位解决方案,包括AI基础模型、NeMo框架、DGX云AI超级计算,旨在为企业打造和优化生成式AI模型。

💡 H100实例与微软合作: 英伟达的H100Tensor Core GPU将加速微软Azure上的中等规模AI工作负载,提供先进的内存和处理能力。

🔮 H200实例计划: 明年推出的H200Tensor Core GPU将支持更大型模型的推理,使用最新一代HBM3e内存,提供显著提升的内存容量和带宽。

李彦宏劝各位少做点大模型多搞搞应用

中国已拥有238个大模型,百度创始人李彦宏敦促开发者关注基于大模型的AI原生应用,强调大模型数量过多可能浪费社会资源。

【AiBase提要】

📉 大模型潮涌: 中国已发布238个大模型,但引发关注的是基于其开发的AI原生应用过少的问题。

🛠️ 应用为王道: 李彦宏强调大模型应结合通用能力与专业知识,成为AI应用的基础底座,避免对资源的过度浪费。

🚀 AI原生爆发: 李彦宏认为真正的AI时代标志是产生大量AI原生应用,而不仅仅是大模型的涌现。

🤖📈💻💡大模型动态

OPPO发布安第斯大模型AndesGPT

OPPO在ColorOS14发布会上推出了自主训练的安第斯大模型AndesGPT,采用“端云协同”基础架构,将开源智能体框架,为用户提供更专业的问答和丰富的AIGC应用场景。

微信截图_20231116114924.png

【AiBase提要:】

😊 AndesGPT介绍: OPPO发布了自主训练的大模型AndesGPT,基于“端云协同”架构,融合千亿条知识,提供准确、自然的对话体验。

😎 技术发展方向: OPPO表示将从知识、记忆、工具和创作四个方向推进大模型技术,为用户带来更专业的问答和丰富的AIGC应用场景。

🚀 开源计划: OPPO宣布未来将开源AndesGPT智能体框架,并推出AI智能体开发平台,使非编程人员能定义和分享AI原生的智能应用。

DeepMind发布新模型Mirasol3B

Google DeepMind推出Mirasol3B模型,采用先进的多模态学习,以提升对长视频输入的理解,可能在YouTube等领域引起革命性变化。

【AiBase提要:】

🌐 Google DeepMind发布Mirasol3B,旨在改善对长视频输入的理解。

🎥 Mirasol3B采用多模态学习,同时处理音频、视频和文本数据。

🤔 该技术可能在YouTube等领域带来革命性的变化,但实际应用可行性存在疑问。

🤖📱💼AI应用

Adobe开发新的AI音频工具分离混合录音

Adobe的新音频工具Project Sound Lift利用AI技术,能够自动检测混合录音中的不同声音层,包括掌声、笑声、背景噪音等,并将其与人声分离生成独立的音频文件。

QQ截图20231116095146.jpg

【AiBase提要:】

🔍 AI分离技术: Adobe的Project Sound Lift利用AI能够精确检测录音中的不同元素,为用户提供更精细的音频编辑能力。

🎙️ 个性化音频编辑: 用户只需导入音频文件并选择要过滤的声音类型,Project Sound Lift可以单独调整背景噪音的音量,增强前景人声的清晰度。

🌐 潜在影响: 尽管仍在概念验证阶段,但若推出,该工具可能对音频剪辑和混音技术产生革命性影响,展示了Adobe在音视频领域继续利用AI创新的决心。

Google Photos推出AI功能

Google Photos最新推出的AI功能包括“Photo Stacks”,通过识别照片中的最佳图片和分类截屏等,以更智能、高效的方式组织和分类照片。

image.png

【AiBase提要:】

📷 Photo Stacks功能: Google Photos利用AI识别同一时刻拍摄的相似照片,通过堆叠顶部选择减少照片库混乱。

🖼️ 截屏和文档分类: AI驱动的功能识别并分类截屏和文档,用户可设置提醒,有效管理特定类型的照片。

🚀 智能图像管理: Google Photos的新功能标志着AI技术在图像管理领域的进一步应用,提供更智能、高效的照片组织和分类方式。

👨‍💻💡🎯聚焦开发者

Martian发布智能模型路由器,实现LLM动态切换以降低成本

初创公司Martian推出智能模型路由器,通过LLM动态切换降低人工智能成本,成功融资900万美元。

image.png

官网地址:https://withmartian.com/

【AiBase提要:】

🚀 创新产品: Martian的智能模型路由器可在高风险商业场景中服务,通过动态切换降低公司使用大型语言模型(LLM)的成本。

💡 解决难题: 公司旨在解决人工智能研究难以盈利问题,建立受益于可解释性的产品,融资计划包括产品开发和模型内部运营研究。

🌐 行业推动: Martian的创新标志着人工智能领域的发展,为公司提供在不同任务需求下实现LLM动态切换的先进工具,促使行业向更可持续、经济高效的方向发展。

码农编码利器ChatCoder:通过与LLM聊天来细化需求

大模型代码生成的能力取决于需求表达的好坏。ChatCoder是北大实验室提出的方法,通过与LLM聊天来细化需求,提高大模型生成满足用户需求的代码的能力。

image.png

论文地址:https://arxiv.org/pdf/2311.00272.pdf

【AiBase提要:】

🤖 ChatCoder通过与LLM聊天的方式,帮助程序员细化需求,提高大模型代码生成的准确性。

🔄 ChatCoder分为两个阶段,包括Paraphrase和Exend,以及Going-deep和Loop-back,通过多轮交互生成满足用户需求的程序。

📈 ChatCoder评估结果显示,在Saniticed-MBPP上,带来了14%的性能提升,人工干预在需求细化中扮演着重要角色。

举报

  • 相关推荐
  • 大家在看
  • ChatTTS:一个用于文本到语音转换的开源项目。

    ChatTTS是一个开源的文本到语音转换(TTS)模型,它允许用户将文本转换为语音。该模型主要面向学术研究和教育目的,不适用于商业或法律用途。它使用深度学习技术,能够生成自然流畅的语音输出,适合研究和开发语音合成技术的人员使用。

  • Doly for iPhone:快速轻松生成出色的3D产品视频。

    Doly是一款为iPhone 11及以上版本设计的应用程序,它允许用户通过简单的操作生成高质量的3D产品视频。这款应用通过提供一系列3D模板,使得用户能够快速创建出吸引人的产品展示视频,从而提升产品在社交媒体、广告或产品页面上的呈现效果。Doly的主要优点包括易用性、成本效益和高效的视频生成速度。

  • Streaks 66:66天习惯养成助手,AI智能指导。

    Streaks 66是一款习惯追踪应用程序,旨在帮助用户通过66天的挑战来建立持久的日常习惯。它提供了不同难度模式以适应不同用户的需求,并通过集成的AI习惯教练为用户提供个性化建议、激励和关于习惯和目标的洞察。此外,该应用程序还支持设置提醒、与朋友和家人分享习惯进展以及跨设备同步数据。

  • ChatGPT Notepad:在线文本编辑器,提供文本编辑、保存、复制、剪切等功能。

    ChatGPT Notepad是一款在线文本编辑器,旨在帮助用户高效地编辑和处理文本内容。它支持基本的文本编辑功能,如保存、复制、剪切等,同时提供全屏模式和大小写转换等高级功能。该产品重视用户隐私保护,不使用第三方跟踪工具,确保用户数据安全。

  • InternLM-Math-Plus:双语开源数学推理大型语言模型。

    InternLM-Math-Plus 是一个最新的双语(英文和中文)开源大型语言模型(LLM),专注于数学推理,具有解决、证明、验证和增强数学问题的能力。它在非正式数学推理(如思维链和代码解释)和正式数学推理(如LEAN 4翻译和证明)方面都有显著的性能提升。

  • Selfarama:用AI将孩子的肖像与画家相结合 生成书籍

    Selfarama 是一款教育图书产品,通过将孩子与历史上最伟大的画家联系起来,帮助他们学习艺术史知识。产品包含定制的孩子肖像画和通俗易懂的教育文本。

  • Open-Sora-Plan-v1.1.0:文本到视频生成的开源模型,性能卓越。

    Open-Sora-Plan是一个由北京大学元组团队开发的文本到视频生成模型。它在2024年4月首次推出v1.0.0版本,以其简单高效的设计和显著的性能在文本到视频生成领域获得了广泛认可。v1.1.0版本在视频生成质量和持续时间上进行了显著改进,包括更优的压缩视觉表示、更高的生成质量和更长的视频生成能力。该模型采用了优化的CausalVideoVAE架构,具有更强的性能和更高的推理效率。此外,它还保持了v1.0.0版本的极简设计和数据效率,并且与Sora基础模型的性能相似,表明其版本演进与Sora展示的扩展法则一致。

  • &udm=14:无AI干扰的谷歌搜索页面

    &udm=14的AI-Free Search是一个提供无AI干扰的谷歌搜索服务的网站,允许用户在没有人工智能干预的情况下进行搜索。它使用'udm=14'参数来实现这一点,旨在保护用户的隐私,同时提供快速、准确的搜索结果。该网站由Tedium团队构建,支持开源代码,用户可以通过Glitch或Github获取。

  • LookOnceToHear:实时语音提取智能耳机交互系统

    LookOnceToHear 是一种创新的智能耳机交互系统,允许用户通过简单的视觉识别来选择想要听到的目标说话者。这项技术在 CHI 2024 上获得了最佳论文荣誉提名。它通过合成音频混合、头相关传输函数(HRTFs)和双耳房间脉冲响应(BRIRs)来实现实时语音提取,为用户提供了一种新颖的交互方式。

  • Models Table:大型语言模型的详细列表和信息

    Models Table 提供了一个包含300多个大型语言模型的列表,这些模型被所有主要的AI实验室使用,包括Amazon Olympus, OpenAI GPT-5, OpenAI GPT-6等。该列表展示了大型语言模型的发展趋势和多样性,对于AI研究者和开发者来说是一个宝贵的资源。

  • ReVideo.pro:一键式AI视频制作工具,适用于社交媒体和商业广告。

    ReVideo是一款功能强大的在线视频制作工具,它集成了100多个高级模板、AI背景移除工具、无版权音乐和图片库等。用户可以通过ReVideo轻松创建适用于Facebook、Instagram、YouTube、TikTok、Snapchat、播客等多种平台的视频内容。ReVideo的主要优点包括:无需录制视频或面对镜头、AI自动转录音频为字幕、自动生成音频波形、一键式品牌资产个性化、媒体库集成、超过300万的库存照片和视频资源可供搜索等。此外,ReVideo还提供了商业许可,允许用户为其客户创建视频并保留100%的利润。

  • SignLLM:首个多语种手语生成模型,优化手语翻译与教学。

    SignLLM是首个多语种手语生成模型,它基于公共手语数据构建,包括美国手语(ASL)和其他七种手语。该模型能够从文本或提示生成手语手势,并通过强化学习加速训练过程,提高数据采样质量。SignLLM在八种手语的生产任务上都达到了最先进的性能。

  • InstructAvatar:文本引导的情感和动作控制,生成生动的2D头像

    InstructAvatar是一个创新的文本引导方法,用于生成具有丰富情感表达的2D头像。该模型通过自然语言接口控制头像的情感和面部动作,提供了细粒度控制、改进的交互性和对生成视频的泛化能力。它设计了一个自动化注释流程来构建指令-视频配对的训练数据集,并配备了一个新颖的双分支扩散基础生成器,可以同时根据音频和文本指令预测头像。实验结果表明,InstructAvatar在细粒度情感控制、唇同步质量和自然度方面均优于现有方法。

  • AnyNode:ComfyUI的节点,能够根据用户指令生成任何类型的输出。

    AnyNode是一个为ComfyUI设计的插件,它利用LLMs(大型语言模型)的能力,根据用户的输入生成所需的输出。它支持使用OpenAI API或本地LLMs API,允许用户通过简单的配置和指令,实现复杂的编程任务,无需编写代码。该插件的主要优点包括易用性、灵活性和强大的功能,能够显著提高开发效率,尤其适合需要快速原型开发和自动化任务的开发者。

  • FlashRAG:高效的检索增强生成研究工具包

    FlashRAG是一个Python工具包,用于检索增强生成(RAG)研究的复现和开发。它包括32个预处理的基准RAG数据集和12种最先进的RAG算法。FlashRAG提供了一个广泛且可定制的框架,包括检索器、重排器、生成器和压缩器等RAG场景所需的基本组件,允许灵活组装复杂流程。此外,FlashRAG还提供了高效的预处理阶段和优化的执行,支持vLLM、FastChat等工具加速LLM推理和向量索引管理。

  • MusicGPT:在本地使用 LLMs 根据自然语言提示生成音乐。

    MusicGPT 是一款允许在任何平台上以高性能方式在本地运行最新音乐生成 AI 模型的应用程序。它支持文本条件音乐生成、旋律条件音乐生成以及不确定长度 / 无限音乐流。产品优势在于无需安装重型依赖如 Python 或机器学习框架,能够本地运行 AI 模型,提供自然语言提示生成音乐的功能。

  • AI Menti Builder:AI驱动的快速演示文稿制作工具

    AI Menti Builder是一个在线工具,它利用人工智能技术帮助用户快速创建演示文稿。这个工具能够根据用户输入的主题,即时生成一个可交互的演示文稿草稿,用户可以根据自己的需求进行调整和完善。它适用于团队会议、研讨会、讲座、调查、趣味测验等多种场合,大大减少准备时间,提高效率。

  • Copilot for Telegram:Telegram上的AI伴侣,智能聊天新体验。

    Copilot for Telegram是由微软推出的一款AI聊天助手,它通过GPT技术为用户提供智能聊天体验。用户可以与Copilot进行无缝对话,获取信息,享受更智能的聊天体验,所有这些功能都集成在Telegram应用中。Copilot for Telegram的主要优点包括提供个性化建议、娱乐内容、生活小贴士等,旨在提高用户的社交互动质量。

  • 一设MJ咒语解析:反向解析AI提示词的效率工具

    MJ咒语解析是一个专注于设计领域的工具,它能够帮助用户根据图片和绘画反向解析AI提示词,从而提高设计工作的效率和质量。该工具的背景信息表明,它是由一群对AI技术在设计领域应用充满热情的开发者所创建,旨在解决设计师在创作过程中遇到的提示词难题。

  • Marlee:AI协作与绩效助手,提升团队协作与个人发展。

    Marlee是一款致力于提升团队协作和个人绩效的AI工具。它通过个性化洞察,帮助团队成员在工作流程中相互促进,提供连接、激励、协作和发展的解决方案。Marlee利用科学支持的问题和分析,以高达98%的可靠性度量48种工作动机,帮助团队成员感到被看见和接受,从而在工作中展现最佳状态。此外,Marlee还提供人才招聘、人才发展、解决冲突、团队绩效和沟通等方面的帮助,以及在并购中预测文化协同的可能性。

今日大家都在搜的词: