首页 > 业界 > 关键词  > 多模态最新资讯  > 正文

AI视野:多模态ChatGPT即将上线;抖音“AI美式证件照”走红;百度发布交通大模型“ACE3.0”

2023-09-26 14:58 · 稿源:站长之家

文头.jpg

📰🤖📢AI新鲜事

多模态ChatGPT即将上线 会看图、听声音、说话

OpenAI在美东时间9月25日宣布对ChatGPT进行重磅升级,实现了看图、听声音、输出语音内容的三大功能,为通用人工智能(AGI)迈出重要一步。

微信截图_20230926075244.png

AiBase提要:

📸 ChatGPT实现多模态功能,支持看图、听声音、说话

🗣️ 新语音功能能生成人类音频,图片理解功能提供多种应用

🔐 OpenAI重视安全,逐步推出功能,防范风险

🌐 Spotify和Be My Eyes已经使用新功能,拓宽应用领域

DeepMind研究:LLMs在图像和音频压缩方面出色表现

Google旗下的DeepMind研究人员发现,大型语言模型(LLMs)除了在文本领域表现出色,还在图像和音频数据的压缩方面具备出色能力,超越了专用的压缩算法如PNG和FLAC。

AiBase提要:

🔍 研究人员发现LLMs不仅在文本上表现出色,还在图像和音频压缩上取得显著成功。

💡 这项研究将LLMs视为强大的数据压缩器,提供了新的理解模型能力的视角。

📈 LLMs的性能与数据集大小相关,压缩率成为评估模型学习数据集信息的指标。

SambaNova发布全新AI芯片SN40L,可运行5万亿参数模型

SambaNova发布了一款新型AI芯片SN40L,支持运行高达5万亿参数的大模型,提升模型质量和推理速度,降低总体拥有成本。

AiBase提要

☑️ SambaNova的新AI芯片SN40L支持单节点上运行5万亿参数模型,大大提升了模型质量和推理速度。

☑️ SN40L采用先进设计,同时支持HBM和DRAM内存,算法可以根据需要选择合适的内存类型。

☑️ SN40L集成到SambaNova的全栈大语言模型平台,帮助客户训练和部署大模型如GPT-4。

SK电讯宣布AI金字塔战略,力争成为全球AI巨头

SK电讯宣布AI金字塔战略,加速创新与投资,重点聚焦AI基础设施、转型和服务,力争成为全球AI巨头。

AiBase提要:

SK电讯未来5年AI相关投资将从12%大幅提升至33%

AI基础设施包括数据中心、AI芯片和多语言模型,是SK电讯AI能力的集中体现

SK电讯正式推出个人AI助手A.,并计划带入全球市场

Snap 与微软合作在其「My AI」聊天机器人对话中投放广告

Snapchat 与微软合作,将在其 AI 产品 My AI 中插入广告。这个合作意味着用户与 AI 聊天机器人对话时,可能会收到与他们的查询相关的赞助商链接建议。这个广告形式类似于与对话相关的 Sponsored Links,而微软的广告业务正取得新的进展,与其他科技公司竞争合作伙伴。Snapchat 表示这一功能还处于早期实验阶段,但他们计划与更多合作伙伴合作,以增强 My AI。

🤖 AiBase提要:

1. Snapchat 与微软合作,为 My AI 聊天机器人插入广告,提供用户相关的赞助商链接建议。

2. 微软的广告业务取得进展,与超过7500个合作伙伴品牌合作,在 AI 聊天机器人中插入广告。

3. Snap 表示这一功能仍在早期实验阶段,计划与更多合作伙伴合作,以增强 My AI。

哈佛研究发现GPT-4使得企业员工绩效提升了40%

哈佛大学领导的研究发现,使用生成式人工智能的波士顿咨询集团顾问的任务完成质量、速度和频率均有显著提升,相较不使用AI的同行,提高了40%的绩效。

AiBase提要

👥研究发现GPT-4使波士顿咨询集团顾问的绩效提高了40%

🔍这是首次大规模研究企业中生成式AI的实际应用效果

🤖部分顾问采用“Cyborg”和“Centaur”方式使用AI,为未来应用提供启示

抖音网友用AI生成各国版蜘蛛侠获赞6.7万

一位抖音网友使用AI软件生成不同国家风格的蜘蛛侠形象,获得了大量好评和点赞。这些蜘蛛侠形象充满了各国的特色和代表性元素,例如中国风格的武侠风、冰岛冰霜气息、牙买加的红黄绿经典三色以及沙特的富裕感。目前,该系列作品已获得6.7万点赞。

image.png

AiBase提要:

⛹️‍♂️ 一位抖音网友使用AI软件生成不同国家风格的蜘蛛侠形象。

👍这些蜘蛛侠形象融入了各国的文化特色,获得了6.7万的点赞。

🔥 AI软件生成热门IP形象成为获得更高曝光的趋势。

抖音上线“亚运加油盲盒”AI特效

抖音官方在杭州亚运会期间推出了“亚运加油盲盒”AI特效,可以给用户照片添加卡通化的亚运造型,已有超过147万人使用。

image.png

AiBase提要:

🏀 亚运加油盲盒AI特效可以为用户照片生成卡通化的亚运造型,衣服可变为运动装

🔥 特效可能使用了ControlNet等技术来分析人物动作和体态

🎨 本届亚运还展示了多项AI技术应用,如修复老照片、数字人点燃火炬等

抖音“AI美式证件照”走红 相关话题播放量过亿

AI生成的证件照模板越来越受欢迎,抖音上AI美式证件照话题播放量过亿,但部分网友认为生成效果不太像。

image.png

AiBase提要:

🔥 AI证件照走红,抖音相关话题播放过亿

🔥 剪映AI美式证件照受欢迎,但部分网友认为生成效果不像

🔥 相比抖音,AI写真软件生成效果更好,门槛更高

富士通推出新技术保护对话型AI免受幻觉和对抗性攻击

富士通推出两项新技术可检测对话型AI中的幻觉和网络钓鱼网址,以提高对话型AI的可靠性和安全性。

AiBase提要:

💡 富士通推出技术可检测对话AI回复中的幻觉,提高检测准确率约22%。

💡 富士通开发技术可检测对话AI中植入的网络钓鱼网址,防止用户受到欺骗。

💡 两项新技术将集成到富士通AI平台,有助保护企业用户免受各种威胁。

DeepMind利用无监督学习开发AlphaMissense,预测7100万种基因突变

DeepMind开发AlphaMissense,利用AlphaFold模型预测蛋白质结构,再结合无监督学习对7100万种基因错义突变进行预测,在多个数据集上的预测正确率达90%以上。

论文地址:https://www.science.org/doi/10.1126/science.adg7492

AiBase提要

☝️ 利用AlphaFold分析蛋白质结构,基于此开发AlphaMissense模型

☝️ 训练数据集包括已知的良性和预测的致病错义突变

☝️ 在多个数据集上表现优异,总体预测正确率达90%以上

💻💡🎯聚焦开发者

Rerender A Video源代码放出!解决AI视频闪烁问题

Rerender A Video项目通过零训练的文本引导视频到视频翻译框架,实现了低成本的时间一致性,解决了AI视频闪烁问题。

image.png

项目地址:https://github.com/williamyang1991/Rerender_A_Video

AiBase提要:

❤️ 通过交叉帧约束实现时间一致性

🔥 无需训练即可应用于各类视频翻译任务

💡 支持结合现有图像生成模型进行自定义翻译

高效开源LLM框架Haystack 助力打造高效应用程序

Haystack是一个端到端的自然语言处理框架,能够帮助构建由大型语言模型、Transformer模型、向量搜索等驱动的应用程序。

image.png

项目地址:https://github.com/deepset-ai/haystack

AiBase提要

📋 Haystack的核心功能包括流水线、节点、代理、工具和文档存储。

🔎 Haystack支持多种文档存储,包括ElasticSearch、Opensearch、Weaviate等。

💡 Haystack可以帮助使用最先进的NLP模型构建端到端的NLP应用程序。

万能AI编程工具包插件Sidekick 提供个性化编程帮助

文章介绍了微软开发的万能AI编程工具包插件Sidekick,通过GPT-4引擎提供支持,根据用户编程习惯提供个性化编程帮助,提高编程效率。

image.png

体验地址:

https://marketplace.visualstudio.com/items?itemName=InvisibleTools.sidekickai&%3Butm_source=9527ai&utm_source=talkingdev.uwl.me

AiBase 提要:

Sidekick AI能根据用户编程需求提供个性化编程帮助

Sidekick AI具有快速聊天、代码附加等功能帮助开发

Sidekick AI通过GPT-4提高编码效率,重新定义AI编程工具

EmoPP模型开源:一款基于情感感知的韵律短语生成模型

EmoPP-Demo是一款基于情感感知的韵律短语生成模型,通过预测短语分隔符来提升端到端文本转语音的自然度和情感表达能力,开源代码在GitHub。

image.png

地址:https://ai-s2-lab.github.io/EmoPP/

AiBase提要:

📝 EmoPP-Demo可以自动识别话语中的情感线索,并生成韵律短语分隔符。

📐 经过评估,EmoPP-Demo在情感表达方面表现出色,优于基线模型。

🔊 EmoPP-Demo提供语音演示,验证其在人类感知中的优越性。

🤖📱💼AI应用

Getty Images与Nvidia合作开发生成式AI图片工具

图片库巨头Getty Images与芯片制造商Nvidia宣布合作,共同开发生成式AI图片工具,这引发了有关创作者应获取创作权的争议,将推动思考AI如何影响文化创意产业。

image.png

AiBase提要:

📷 Getty推出基于自有图库训练的生成AI,为AI艺术品提供版权保障

🎨 该技术为艺术家提供新的创作工具,也带来创作灵感和资源

🚨 合作引发版权和创作者权益保护等争议,需要找到平衡

Spotify 将使用 OpenAI 人工智能技术克隆播客声音

Spotify正在测试使用OpenAI的语音生成技术,让播客主持人用自己的声音模拟不同语言版本,以方便触达其他语言区的听众。

AiBase提要:

☁️ Spotify与部分播客主持人合作,用AI技术把他们的英语内容翻译成其他语言。

🔊 Spotify表示该技术来自OpenAI,可以保留播客独特的语音特征。

🌎 这种新技术被称为“语音翻译”,已在西班牙推出,其他语言版本也将陆续推出。

🤖📈💻💡大模型动态

百度智能云发布交通行业大模型“ACE3.0”

百度智能云在全球可持续交通高峰论坛上,发布了基于大模型重构的智能交通解决方案ACE3.0,利用大模型的知识压缩能力,实现对交通行业的AI原生重构。

AiBase提要:

💡百度表示,ACE3.0利用大模型强大的知识压缩能力,将车、路、云、图的基本能力进行了聚合和泛化升级,打造交通大模型。

💡模型层即交通行业大模型,基于语言、视觉和跨模态大模型构成;应用层则包含智慧网联、智慧交管等智能交通场景。

💡百度智能交通已联合140多家生态伙伴,为200多个城市提供智能交通服务。未来还将依托行业大模型,继续推动交通智能化。

什么值得买开发大模型

值得买表示,大数据和大模型是公司非常关注的领域,公司已经在该领域加大了投入。在大数据层面,目前随着公司逐步沉淀来自于消费内容业务板块和营销服务业务板块等的更多数据资源,已形成一个能够涵盖人、货、场等多种维度的底层数据体系。

AiBase提要

📈 公司关注大数据和大模型领域,加大投入

💼 积累多维度数据资源,包括人、货、场

🚀 开发“值得买消费内容大模型”和应用产品探索

聆心智能开源定制角色对话交互模型CharacterGLM-6B

聆心智能发布了CharacterGLM-6B模型,用于定制化角色对话。该模型基于ChatGLM模型,有6B、12B和66B三个不同参数量的版本。聆心智能将开放12B和66B模型的API访问,并开源CharacterGLM-6B模型,以促进AI角色扮演和AI在心理学中的应用。性能评估结果显示,CharacterGLM在大多数类别和话题下表现优于竞争对手,并提供了不同类别角色的对话交互效果示例。

开源地址:

https://huggingface.co/LingxinAI/CharacterGLM-6b

API调用地址:

CharacterGLM API: https://bigmodel.cn/dev/api#characterglm

AiBase提要

🔥 聆心智能发布CharacterGLM-6B,定制角色对话交互模型

💡 基于ChatGLM模型,包括6B、12B和66B版本

🚀 开源CharacterGLM-6B,推动AI角色扮演和心理学应用

举报

  • 相关推荐
  • 既能读懂情绪,还能多模态交互!INDEMIND用空间智能重新定义陪伴机器人

    TCL与INDEMIND合作推出的陪伴机器人“Ai Me”通过空间智能技术实现突破,从传统2D感知升级为3D语义感知,赋予机器人动态语义建图、实时环境适应及多模态交互能力。该平台借助立体视觉与多传感器融合,让机器人精准构建三维地图,识别家居属性,实现主动避障与个性化服务。同时,结合低算力混合模型与情感交互功能,机器人可感知用户情绪、提供安全防护,并支持宠物看护等场景拓展,从“工具”升级为有温度的“家庭伙伴”,真正满足复杂家庭需求。

  • AI日报:阿里推多模态模型Qwen3-Omni;谷歌推出AP2协议;百度推出Qianfan-VL 模型

    本期AI日报聚焦多领域技术突破:阿里云推出全球首个全模态AI模型Qwen3-Omni,支持文本、图像、音频和视频统一处理;百度发布多尺寸视觉理解模型Qianfan-VL,优化企业级应用。苹果扩展Image Playground平台,引入ChatGPT等第三方模型。谷歌与PayPal合作推出AP2协议,推动AI支付安全创新。钉钉上线AI表格助手,支持自然语言生成表格。DeepSeek开源V3.1-Terminus模型,性能显著提升。Kimi推出Agent会员服务,智元机器人开源全球首个通用具身智能模型GO-1,降低技术门槛促进行业创新。

  • 小度发布多模态智能摄像机,AI大模型重塑家庭看护体验

    小度科技推出首款多模态智能摄像机C800,搭载800万像素4K超清摄像头,支持AI大模型技术。该产品不仅能实现高清监控,还具备智能行为识别、语音交互等功能,可自定义看护提醒。结合视觉与语音交互,支持复杂语义查询和家庭设备联动,扩展智能家居应用场景。目前产品已全网发售,年底还将推出三摄版本,持续探索AI硬件创新。

  • 语音、手势、触控、人脸等,思必驰多模态交互开启智能经济时代

    人类的交互通道有眼耳鼻舌口等器官,他们充当着外在世界信号的“接收器”,将范围内的信号接收并传递给“大脑”。在机器世界里,从过去鼠标键盘转变成当下的触控、语音、手势、视觉等,多模态人机交互技术正在彼此融合。目前智能语音具备兼顾老人、儿童以及地方方言的能力,语音与视觉,触屏,LCD反馈显示结合的交互体验,令交互门槛的不断降低。国内专业的对话式AI企业思必驰,结合全链路语音交互技术及自研计算机视觉技术推出多?

  • 支付安全再升级,瑞银信押注多模态技术

    支付业务作为所有金融服务的基础入口,安全性始终是其最关键的考量因素。从最基础的密码验证,到数字密钥、指纹识别、面部识别等支付验证技术,每一次支付安全背后都是越来越严峻的风险形势。在支付领域深耕十余年的瑞银信,对支付安全技术有着长期的探索积累,并在近期将目光投向了多模态技术。模态是指任何一种信息的来源,例如指纹、人脸、声纹、步态、虹膜、语音等都可以被称之为一种模态。而所谓多模态识别技术,则是指综合运

  • 云栖大会智舱黑科技:全球首个全模态端侧大模型解决方案,斑马智行首发

    9月24日,2025云栖大会在杭州开幕,主题为“云智一体·碳硅共生”,汇聚全球50多国2000余位嘉宾探讨AI、云计算与产业应用趋势。阿里云发布7款通义大模型,其中Qwen3-Omni作为行业首个端到端全模态AI大模型,在36项基准测试中实现22项SOTA,性能全面突破。大会聚焦多模态技术,斑马智行宣布率先接入Qwen3-Omni,并与阿里云、高通联合推出端到端全模态端侧大模型方案Auto+Omni,具备主动智能、断网可用、隐私无忧三大特点,推动汽车智能座舱从指令交互向Always-on主动服务升级。首批搭载方案车型将于2026年量产,标志着汽车智能化迈入“自主行动”新阶段。大会将持续至26日,预计更多创新技术将亮相。

  • 多模态生物识别成趋势,指静脉识别优势显著!

    随着生物识别技术不断发展,在日常人们更容易感受到生物识别技术带来的便利,例如AI人脸识别破案、指纹手机解锁、刷指静脉过闸等,生物识别越来越频繁地出现在大众的视野。在当下众多生物识别方式中,指纹识别是我们最常见的识别方式之一,成本也相对较低,但是关于指纹识别存在的安全隐患频频出现在新闻之中。对于国内的技术工作者甚至是创新型企业,无疑是一种对更高安全识别技术挑战。近年人脸识别、虹膜识别、指静脉识别技术有

  • Turing OS 机器人操作系统大升级,多模态交互再增强

    今年7月的图灵机器人创新大会上,图灵机器人团队正式对外发布了Turing OS 1.5。图灵机器人曾在2015年发布首款人工智能级的机器人操作系统——Turing OS,是智能机器人专属的操作系统。半年后,伴随着升级版本的到来,团队一次连发几十款机器人应用,并全面加强Turing OS系统,开放图灵机器人平台新服务。经过紧张的调试与准备,10月13日,Turing OS 1.5测试版正式上线。据了解,除了之前会上特别介绍过的机器人应用、视觉能力及主?

  • 亚略特助力非洲首个多模态生物识别国家身份证中心落成

    2019 年 11 月 8 日,安哥拉司法和人权部国家身份与犯罪综合管理平台项目(以下简称“国家身份证中心”)举行落成仪式,这标志着非洲首个多模态生物识别国家身份证体系正式上线。安哥拉总统洛伦索出席剪彩仪式并对该项目给予高度评价,表示该中心将有效提高安哥拉公共服务水平,为经济社会良好稳定发展发挥重要作用。安哥拉国家身份证中心于 2018 年 6 月开始筹建,是安哥拉最高级别的身份证管理机构,具备数据处理、身份证制作等?

  • 眼神科技CTO:多模态统一身份认证的必要性

    国内知名人工智能及前沿科技领域新媒体量子位发起「量子位·视点」CEO/CTO系列分享活动,眼神科技CTO江武明受邀参加,并进行了主题为《多模态统一身份认证——数字化的入口和枢纽》直播分享,引发数千人观看...电子证照的顺利实施,离不开对电子化证照的管理和鉴权,眼神科技的核心技术解决方案——多模态统一身份认证平台可以做为电子证照推行过程中的一个中枢平台,为随时随地的数据获取和验证提供初始的身份确认及安全保障......

今日大家都在搜的词: