首页 > 业界 > 关键词  > Apollo最新资讯  > 正文

AI视野:百度Apollo开放平台9.0发布;OpenAI公布ChatGPT安全框架;Etched AI推AI推理加速芯片Sohu;美图云修Pro版正式发布;Runway上线文字生成语音功能

2023-12-19 15:10 · 稿源:站长之家

📰🤖📢AI新鲜事

百度Apollo开放平台9.0发布

百度发布Apollo开放平台9.0,全面升级自动驾驶开发领域,包括工程、算法和工具三方面,重构12万行代码,新增20万行。工程框架拆分成小软件包,提高灵活性;算法优化感知算法,支持4D毫米波雷达;工具升级包括高精地图、传感器标定等,提升Dreamview+效率。

微信截图_20231219135004.png

【AiBase提要:】

🚗 工程框架全面升级,模块拆分提高灵活性;

🔍 算法优化感知算法,支持4D毫米波雷达;

🧰 工具升级包括高精地图、传感器标定,提升效率。

OpenAI公布ChatGPT安全框架

OpenAI发布ChatGPT安全框架,采用风险“记分卡”衡量潜在危害,雇佣跨领域专家团队监测技术,与第三方合作测试技术,与竞争对手Anthropic的政策形成差异。

【AiBase提要:】

🔒 安全框架发布:OpenAI推出ChatGPT安全框架,采用风险“记分卡”评估潜在危害,不断完善框架以确保AI安全。

🌐 跨领域专家团队:雇佣AI研究、国家安全、政策专业人员组成“应对”团队,监测技术风险并提供预警。

🤝 开放合作与竞争对手对比:允许第三方测试技术,与Anthropic的政策形成鲜明对比,展现出框架的灵活性。

Etched AI推AI推理加速芯片Sohu

美国芯片初创公司Etched AI成功开发了一项技术,将Transformer架构直接嵌入芯片,创造出专为Transformer推理的超强服务器Sohu,可运行万亿参数模型,挑战英伟达。

QQ截图20231219095455.jpg

官网地址:https://www.etched.ai/

【AiBase提要】

🔥 Etched AI成功将Transformer架构“烧录”到芯片,创造强大服务器Sohu。

🚀 技术支持实时语音代理、高级解码等多项功能。

💡 服务器配备144GB HBM3E,支持MoE和转换器变体,为高性能提供有力支持。

百度数字人生成专利公布

百度公布一项数字人生成专利,专利涉及人工智能技术领域,通过计算机视觉、自然语言处理和深度学习等技术,实现对数字人赋予不同人格。

【AiBase提要:】

😊 多人格数字人生成专利: 百度公布一项数字人生成专利,通过语言模型训练和三维建模,使数字人具备不同人格。

😃 应用领域广泛: 该专利涉及计算机视觉、自然语言处理和深度学习,可应用于元宇宙等场景,提升数字人的交流与互动自然度。

😎 赋予情感与意识: 生成的数字人可像人类一样表达情感和意识,为人机交互提供更丰富、自然的体验。

OpenAI官方发布Prompt工程指南

OpenAI官方发布的Prompt工程指南分享了六个策略,帮助用户优化ChatGPT等大型语言模型的输出,包括写清楚指令、提供参考文本、拆分复杂任务等。

指南地址:https://platform.openai.com/docs/guides/prompt-engineering

【AiBase提要:】

📌 写清楚指令: 用户需明确、详细指导模型,减少猜测,提高满意度。

📚 提供参考文本: 使用参考文本帮助模型减少错误输出,指导回答问题。

🧩 拆分复杂任务: 将任务分解为简单子任务,降低错误率,提高整体性能。

Adobe终止200亿美元收购Figma

Adobe和Figma宣布终止200亿美元的合并交易,因欧洲监管机构强烈反对,认为该交易将损害竞争,导致用户面临更高的价格和更少的选择。

【AiBase提要:】

💔 Adobe和Figma终止200亿美元的合并交易,欧洲监管机构认为交易将损害竞争,不予批准。

💼 Adobe首席执行官表示尽管相信合并的好处,但由于欧洲监管无法获得批准,共同同意终止交易。

💰 根据合同规定,Adobe需支付Figma10亿美元的终止费,反映科技行业监管日益严格。

Mistral AI CEO宣布于2024年开源GPT-4级别模型

法国初创公司Mistral AI计划于2024年开源GPT-4级别模型,最近获得4.15亿美元融资,推出基于MoE架构的8X7B模型,同时推进多语言模型Mistral Medium的开发。

【AiBase提要:】

🚀 Mistral AI首席执行官Arthur Mensch宣布公司将于2024年开源GPT-4级模型,引起行业广泛关注。

💰 公司最近获得4.15亿美元融资,估值20亿美元,推出基于MoE架构的8X7B模型,同时推出API服务“La Plateforme”。

🌐 Mistral AI正在开发支持多语言的Mistral Medium模型,在标准基准测试中表现优异,预计将于2024年发布。

🤖📱💼AI应用

美图云修Pro版正式发布

美图公司旗下的美图云修正式推出Pro版,搭载全新图像处理引擎,实现实时预览,为商业摄影提供即时修图解决方案。同时,智能修图API服务也正式开放,支持多端应用,助力快速出图。数据显示,美图云修已拥有超过百万用户和3万余家商业摄影机构使用,年修图量超过5亿张,有效提升修图效率和生产力。

微信截图_20231219082230.png

美图云修官网:https://yunxiu.meitu.com/home

【AiBase提要】

🚀 Pro版亮点: 全新图像处理引擎,实时预览,适用于约拍和旅拍等即时修图场景。

💡 API服务开放: 美图云修智能修图API服务全面开放,支持多端应用,实现“即拍即修”。

📈 数据亮点: 超过百万用户、3万余家商业摄影机构使用,年修图量超5亿张,提升修图效率。

Runway上线文字生成语音功能

Runway最近悄悄上线了文字生成语音功能,初次尝试英文效果惊艳,但中文语音仍带有外国口音,可能需要解决。

QQ截图20231218175418.jpg

体验地址:https://app.runwayml.com

【AiBase提要】

🔊 语音功能惊艳登场:Runway最新推出的文字生成语音功能,在英文表达方面展现出惊人的自然丰富情感。

🌐 多模型选择,点数消耗低:该功能提供多种语音模型,仅需右上角点数即可生成长时间可用的语音。

🌐 中文语音仍存问题:尽管英文效果惊艳,中文语音仍存在外国口音问题,可能需要解决。

超强小说生成工具Midreal AI 情节有逻辑还具有互动能力

小说生成工具Midreal AI强于其他LLM直接生成的小说,以内存跨越技术和长篇写作能力为特色,用户可在关键节点选择剧情走向,获得具有逻辑和互动能力的小说。

image.png

体验地址:discord.gg/ReKvgchE3P

【AiBase提要:】

🧠 内存跨越技术:Midreal AI采用内存跨越技术,实现几乎无限的记忆保留,确保长期无缝连接的游戏体验。

📝 长篇写作能力:具备长篇写作能力,保持叙事连贯和引人入胜,为用户提供高质量的阅读体验。

🌐 中英文支持:Midreal AI支持中文和英文,为喜爱阅读和写作的用户提供全新的创作体验。

CSM ai推实时草图转3D功能

CSM AI最新推出的实时绘图工具进化,用户可通过简单草图生成3D模型,并导出至3D软件,在儿童游戏和专业3D创意工作中具备广泛应用。

image.png

体验地址:https://3d.csm.ai/canvas

【AiBase提要】

🎨 实时草图转3D: CSM AI推出的工具允许用户通过简单的草图实时生成3D模型。

🔄 导出至3D软件: 生成的3D模型可直接导出到其他3D软件中进行进一步编辑和应用。

🌐 免费体验功能: 用户可以通过访问体验地址免费尝试这一功能,为创意设计提供便利。

🤖📈💻💡大模型动态

谷歌推视觉语言模型PixelLLM

通过与加州大学圣迭戈分校合作,谷歌AI研究团队推出PixelLLM,实现了细粒度定位和视觉-语言对齐。该模型通过在语言模型的每个输出单词与像素位置建立密集对齐,成功解决了大语言模型在定位任务中的挑战。

image.png

项目体验网址:https://top.aibase.com/tool/pixelllm

论文网址:https://arxiv.org/abs/2312.09237

【AiBase提要:】

🧠 PixelLLM采用密集对齐策略,成功解决了大型语言模型在细粒度定位任务中的挑战。

🌐 在密集目标描述、位置条件描述和引用定位等视觉任务中,PixelLLM表现出卓越性能,取得最先进的结果。

📈 通过引入新的视觉-语言模型,PixelLLM为实现更精确的视觉-语言对齐和定位提供了新的可能性。

元象开源高性能大模型XVERSE-65B-2底座版

元象宣布开源XVERSE-65B-2底座版,强化代码和数学能力,保持生成创作、角色扮演等能力,为生态贡献“文理兼修、大有可为”的大模型。

【AiBase提要:】

🚀 XVERSE-65B-2通过综合优化器状态和学习率策略进行Continual Pre-Training,总训练token量达3.2万亿。

🌐 模型支持40多种语言,上下文窗口为16K,在六个维度11项标准中八成超越GPT3.5。

💡 XVERSE-65B显著提升大模型的理解、生成、逻辑和记忆等能力,是国内最早开源的650亿参数免费商用模型。

项目地址:

  • Github:https://github.com/xverse-ai/XVERSE-65B

  • Hugging Face:https://huggingface.co/xverse/XVERSE-65B-2

  • ModelScope魔搭:https://modelscope.cn/models/xverse/XVERSE-65B-2

UIUC清华联手发布全新代码大模型Magicoder

UIUC和清华合作推出的Magicoder是一款在代码生成领域表现出色的大型语言模型,仅使用了7B参数,并以全面开源的方式分享了其代码、权重和数据。

image.png

论文地址:https://arxiv.org/pdf/2312.02120.pdf

【AiBase提要:】

🚀 模型介绍: UIUC和清华合作推出的Magicoder,在代码生成领域以不到7B参数媲美顶级模型,并全面开源其代码、权重和数据。

🛠️ OSS-INSTRUCT方法: Magicoder采用OSS-INSTRUCT方法,从开源代码中获取灵感,生成多样、真实和可控的编码指令数据,注重真实性对于指令调整的重要性。

📈 性能表现: 在Python、其他编程语言以及数据科学库领域,Magicoder表现出色,在DS-1000dataset上改善了8.3个百分点,展现了在实际用例中的潜力。

音乐生成深度学习模型StemGen

字节跳动AI研究团队推出StemGen项目,采用非自回归、基于Transformer的模型,通过听取音乐上下文生成音乐,在音频质量和音乐与上下文协调性方面取得竞争性成果。

image.png

项目网址:https://julian-parker.github.io/stemgen/

论文网址:https://arxiv.org/abs/2312.08723

【AiBase提要】

🤖 革新性方法: StemGen采用非自回归、基于Transformer的模型,通过听取音乐上下文生成音乐,突破传统抽象条件的模型。

🌐 模型效果验证: 采用标准指标和主观测试证明StemGen模型在音频质量和音乐与上下文的强大协调性方面表现出竞争性。

🚀 技术进步: 结合图像和语言处理技术,以端到端方式推动深度学习音频生成,提出非自回归、基于Transformer的架构训练模型的新范例。

👨‍💻💡🎯聚焦开发者

创新3D技术Gaussian-SLAM 通过分析视频重建逼真的3D场景

通过分析视频流中的图像,Gaussian-SLAM技术能够实时渲染并重建逼真的3D模型,为自动驾驶、机器人导航、增强现实等领域提供新的可能性。

image.png

【AiBase提要:】

🌐 光学真实的渲染: Gaussian-SLAM以高度真实的方式重建和渲染真实世界和合成场景。

🔄 高斯斑点场景表示: 使用高斯斑点作为场景的表示单位,与传统的点云或网格表示不同。

📷 适用于单目RGBD输入: 针对单目RGBD输入数据进行优化,适用于多种场景。

论文地址:https://ivi.fnwi.uva.nl/cv/paper/GaussianSLAM.pdf

项目地址:https://github.com/VladimirYugay/Gaussian-SLAM

演示地址:https://vladimiryugay.github.io/gaussian_slam/

举报

  • 相关推荐
  • 大家在看
  • Granola:AI智能笔记工具,提升会议效率。

    Granola是一款专为频繁开会人士设计的AI笔记应用。它能够将会议的原始笔记转化为结构化、易于阅读的格式,并通过AI技术增强笔记内容。Granola支持Mac平台,无需会议机器人即可直接转录Mac音频,提供可定制的会议模板,满足不同团队的需求。内置GPT-4,帮助用户处理会议后的行动项目,如撰写跟进邮件、列出行动项目等。此外,Granola还支持一键分享笔记到常用平台,提高工作效率。

  • Muddy:让团队协作变得流畅而有趣。

    Muddy 是一个专为团队设计的协作工具,它通过人工智能简化了多应用和文件的工作流程,让团队成员能够更高效地协作。Muddy 能够自动整理和分类标签页,支持无限回溯功能,允许用户在应用、文件和对话之间快速切换。此外,它还具有通用评论功能,允许用户在任何地方进行高亮、点击和发送,就像在每个应用和网站上都有 Slack 的线程一样。Muddy 还能自动读取所有标签页,从您的对话中学习,并在需要时提出后续问题。

  • Ivee:B2B影响者营销平台

    Ivee是一个B2B影响者营销平台,旨在帮助企业与行业专家合作,以增长收入、产生潜在客户并提升品牌。它通过AI驱动的搜索引擎集中来自Linkedin、Youtube、Substack和Apple podcast等平台的数据,帮助企业找到与品牌DNA和目标最相关的行业领导者。Ivee还提供数据驱动的洞察来评估受众质量和相关性,并帮助企业建立业务驱动的合作关系,提高运营效率。

  • Visible AI Inbox:将电子邮件转化为投资组合洞察的工具

    Visible AI Inbox是一个专为风险投资公司设计的工具,它能够自动解析、结构化和图表化投资组合公司的数据,从而提供清晰的投资组合洞察。产品通过AI技术帮助用户从电子邮件和文件中提取信息,与现有的数据结合,创建一个投资组合指标和洞察的真实来源。它还允许创始人以他们喜欢的方式分享数据,同时确保数据安全,采用SOC 2认证、TLS 1.2加密和AES-256静态加密等安全措施。

  • DokeyAI:AI工具目录与产品展示平台。

    DokeyAI是一个提供超过1800个AI网站和AI工具的目录与产品展示平台。它通过Photo AI等技术增强了用户喜爱的工具,覆盖了43个不同的类别,包括会计金融、动画3D建模、建筑室内设计、艺术图像生成、聊天机器人、编程数据库助手等。DokeyAI旨在为用户提供一个集中的平台,以发现和使用各种AI增强的工具。

  • Nowadays:AI助力的企业活动规划师

    Nowadays是一个AI驱动的企业活动规划平台,旨在简化活动策划流程,通过电子邮件和电话与最佳场地进行谈判,为公司活动找到合适的地点。它通过AI技术提供快速响应时间,作为IATA认证的旅行代理运营,并提供无限范围的场地搜索,确保结果与活动标准相匹配。此外,AI还协助全球范围内与场地进行谈判,帮助用户节省成本。

  • Unify AI:一站式LLM模型比较与优化平台

    Unify AI是一个为开发者设计的平台,它允许用户通过一个统一的API访问和比较来自不同提供商的大型语言模型(LLMs)。该平台提供了实时性能基准测试,帮助用户根据质量、速度和成本效率来选择和优化最合适的模型。Unify AI还提供了定制路由功能,允许用户根据自己的需求设置成本、延迟和输出速度的约束,并定义自定义质量指标。此外,Unify AI的系统会根据最新的基准数据,每10分钟更新一次,将查询发送到最快提供商,确保持续达到峰值性能。

  • ChatVid.AI:AI生成的用户界面,重新定义视频学习。

    ChatVid.AI 是一个利用人工智能技术,通过生成用户界面来提升视频学习效率的平台。它通过AI技术生成的界面,让用户能够更快速地获取视频内容的核心信息,减少观看时间,提高学习效率。产品背景信息显示,它可能与当前流行的AI技术如LLaMA 3 大模型和GPT-4 Omni等有关联,表明其技术先进性和创新性。

  • Crusoe Cloud:高性能、成本效益高、气候对齐的云平台

    Crusoe提供可扩展的、气候对齐的数字基础设施,专为高性能计算和人工智能优化。我们的创新方法通过使用浪费的、孤立的或清洁能源来减少温室气体排放,支持能源转型,并最大化资源效率。

  • AI 论文速递:提供人工智能领域最新研究论文的速递服务。

    AI 论文速递是一个专注于人工智能领域的学术资源分享平台,旨在帮助研究人员和学者快速获取最新的人工智能研究论文。该平台通过聚合各大学术会议和期刊的论文,为用户提供一个集中的、易于访问的信息源,从而促进知识的传播和学术的交流。

  • Dolphin 2.9.1 Mixtral 1x22b:基于Dolphin-2.9-Mixtral-8x22b的先进AI模型

    Dolphin 2.9.1 Mixtral 1x22b是由Cognitive Computations团队精心训练和策划的AI模型,基于Dolphin-2.9-Mixtral-8x22b版本,拥有Apache-2.0许可。该模型具备64k上下文容量,通过16k序列长度的全权重微调,经过27小时在8个H100 GPU上的训练完成。Dolphin 2.9.1具有多样的指令、对话和编码技能,还具备初步的代理能力和支持函数调用。该模型未进行审查,数据集已过滤去除对齐和偏见,使其更加合规。建议在作为服务公开之前,实施自己的对齐层。

  • PowerToys:微软推出的系统增强工具集

    PowerToys 是微软推出的一款面向高级用户的系统增强工具集,旨在提高用户的工作效率和系统使用体验。它包含了多种实用工具,如颜色选择器、窗口管理、文件资源管理器插件等,以帮助用户更好地管理他们的Windows系统。

  • AI创意商拍:10秒搞定电商出图设计

    美间AI创意商拍是一个专注于电商领域的在线设计平台,它通过人工智能技术,帮助用户快速生成电商所需的各种设计图,如主图、头图等。该平台的核心优势在于其高效的设计生成速度和丰富的模板资源,能够满足不同品类商品的设计需求,从而提升电商运营的效率和效果。

  • Truecaller:全球领先的验证联系人和阻止不受欢迎通信的平台

    Truecaller是一个全球领先的平台,致力于验证联系人和阻止不受欢迎的通信。它使人们之间的安全和相关对话成为可能,并使企业与消费者之间的联系更加高效。Truecaller致力于在数字经济中建立通信信任,特别是在新兴市场。自2009年在斯德哥尔摩成立以来,Truecaller已经成为超过3.83亿活跃用户日常通信的重要组成部分,自推出以来下载量超过5亿次,2021年识别并阻止了近380亿次不受欢迎的呼叫。Truecaller由经验丰富的管理团队领导,是一个具有企业家精神的公司。

  • Mistral-7B-v0.3:一种大型语言模型,具有扩展词汇量。

    Mistral-7B-v0.3是由Mistral AI团队开发的大型语言模型(Large Language Model, LLM),它是Mistral-7B-v0.2的升级版,具有扩展到32768的词汇量。该模型支持文本生成,适合于需要文本生成能力的应用场景。目前,该模型没有内容审核机制,团队正在寻求社区合作,以实现更精细的内容审核,满足需要内容审核的部署环境。

  • CodiumAI Cover-Agent:AI驱动的自动化测试生成和代码覆盖增强工具

    CodiumAI Cover-Agent 是一款利用生成式AI自动化测试生成和增强代码覆盖的工具,旨在简化开发工作流程。它通过与大型语言模型(LLM)交互,为软件项目自动创建单元测试,确保测试的全面性和质量保证。Cover-Agent 计划集成到流行的CI平台中,社区被邀请合作并帮助扩展Cover Agent的功能,使其成为自动化单元测试生成领域的尖端解决方案。

  • 腾讯混元助手:AI伙伴,提供多样化智能服务

    腾讯混元助手是腾讯公司TEG技术工程事业群开发的一款AI聊天服务产品,旨在通过人工智能技术提供多样化的智能服务,包括文本问答、图片理解等。该产品使用腾讯混元大模型V1.7.6,能够生成文本、图片等多种形式的内容,为用户提供灵感和帮助。

  • LemonSpeak:自动化播客营销内容创作工具

    LemonSpeak是一个旨在帮助播客制作者从他们的播客剧集中创建营销内容的在线平台,通过自动化技术节省时间,提高播客的发现性。它通过转录、摘要、创建SEO优化标题、节目笔记、博客文章等,帮助播客制作者扩大在线观众群,提升搜索引擎优化,使播客在播客目录中更具吸引力。

  • Neolocus:利用AI技术,快速设计您的梦想家居空间。

    Neolocus是一个创新的在线设计平台,它利用人工智能技术帮助用户快速设计和装饰他们的生活空间。用户只需上传空间照片,选择风格偏好,Neolocus就能在一分钟内提供令人惊叹的渲染效果,并推荐相应的产品购买,实现梦想家居的构建。该平台不仅服务于个人用户,还特别为Airbnb房东提供服务,帮助他们吸引更多客户。Neolocus的技术背景包括在ROSHN PropTech Hackathon中获得金奖,成为沙特阿拉伯GAIA Cohort 1的一部分,并在2023年的Cityscape Global上展出。

  • Tap4 AI Web UI:开源AI工具目录,构建个性化AI工具平台。

    Tap4 AI Web UI是一个开源的AI工具目录,由Tap4 AI Tools Directory构建。该项目旨在帮助每个人轻松构建自己的AI工具目录。你可以fork项目,一键部署到Vercel,并通过项目中的dataList更新你自己的AI工具。

今日大家都在搜的词: