首页 > 业界 > 关键词  > OpenAI最新资讯  > 正文

AI视野:OpenAI推新模型GPT-4-0125-preview;阿里Qwen-VL升级更新;苹果播客新增转录功能;AI写真项目InstantID在GitHub爆火

2024-01-31 15:30 · 稿源:站长之家

欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

QQ截图20240131154754.png

🤖📱💼AI应用

OpenAI不服GPT-4被Bard反超 推出最新模型GPT-4-0125-preview

【AiBase提要:】

😲 Bard搭载了新版大模型Gemini Pro-scale

😠 网友质疑混合在线和离线大模型

🔄 模型GPT-4-0125-preview已入场竞技场

Finalframe即将推出适用于AI生成视频的剪辑界面

QQ截图20240131095243.png

要点:

⭐ Finalframe支持文本转视频和图像转视频

⭐ 支持创建、打开、保存项目,以及导出完整时间轴

⭐ 即将推出的新功能让视频剪辑方式更直观方便

官网地址:https://top.aibase.com/tool/finalframe

WhisperKit开源!可在iPhone和Mac流畅体验实时语音转录

image.png

【AiBase提要:】

😃Argmax公司将WhisperKit作为首个项目。

😃WhisperKit以MIT许可证的形式开源。

😃WhisperKit实现了实时语音转文本。

项目入口:https://top.aibase.com/tool/whisperkit

苹果iOS17.4更新:播客应用新增转录功能

image.png

【AiBase提要:】

⭐ 转录功能自动生成播客节目文字稿

⭐ 初期支持英语、法语、德语和西班牙语

⭐ 转录文本不包含动态插入音频和音乐歌词

Mistral-Medium意外泄露 神秘新模型“Miqu”击败GPT-4之外的所有大模型

image.png

【AiBase提要:】

🤔 Mistral-Medium模型意外泄露,引发AI社区热议,与名为"Miqu"的新模型有关。

🔥 Miqu在EQ-Bench基准上表现强大,与Mistral-Medium相近,但发布者身份神秘。

💥 Miqu身份存疑,是否Mistral-Medium早期版本或Llama70B。

开源地址:https://top.aibase.com/tool/miqu-1-70b

Vary-toy:具有高级视觉词汇视觉语音模型

【AiBase提要:】

📌 挑战与潜力: 大型视觉语言模型在计算机视觉和自然语言处理任务表现出色,但在图像感知能力方面仍有潜力待发。

📌 模型结构: LVLMs采用图像标记作为前缀或交叉注意力进行特征融合,效率受视觉词汇网络的限制。

📌 解决方案: MEGVII Technology的研究人员提出Vary-toy,用于提高LVLMs的图像感知能力。

项目入口:https://top.aibase.com/tool/vary-toy

阿里巴巴多模态模型Qwen-VL升级更新 推出这2个版本

image.png

【AiBase提要:】

⭐ Qwen-VL-Plus和Qwen-VL-Max版本推出

⭐ 在多模态任务上与GeminiUltra和GPT-4V相当

⭐ Qwen-VL-Max在视觉推理方面展现卓越能力

试用地址:https://huggingface.co/spaces/Qwen/Qwen-VL-Max

AI实时对话系统WhisperFusion:集成大模型,与AI无缝语音对话

【AiBase提要:】

1. 🎙️ 实时语音转文本:利用OpenAI WhisperLive实现即时将口语转换为文本。

2. 🧠 大型语言模型整合:集成Mistral大型语言模型,提升对转录文本的理解和上下文把握。

3. ⚙️ TensorRT优化:LLM和Whisper均经过TensorRT引擎优化,确保高性能和低延迟处理。

📰🤖📢AI新鲜事

Midjourney使用1.6万名艺术家数据库进行训练遭批判

【AiBase提要:】

📌 艺术家反应:艺术家指责公司侵权

📌 法律诉讼:涉及多方提起集体诉讼

📌 艺术家作品未经许可被用于训练AI程序

Open AI否认报告称ChatGPT泄露了用户密码

【AiBase提要:】

😡 OpenAI否认ChatGPT泄露密码

😡 Ars Technica报道泄露工单及网站登录凭证

😡 ChatGPT遭指控为漏洞百出

AI写真项目InstantID在GitHub引爆热潮

【AiBase提要:】

⭐ AI写真项目InstantID在全网刷屏

⭐ 项目背后是来自小红书的 InstantX 团队

⭐ InstantID出图速度快,不需模型训练,支持多种风格

项目地址:https://top.aibase.com/tool/instantid

微软等公司财报低于预期 美股AI相关巨头市值一夜蒸发1900亿美元

【AiBase提要:】

📉 微软、Alphabet和超微公布季度业绩低于预期。

💻 与AI相关的公司市值一夜蒸发1900亿美元。

📉 英伟达的股价在1月份上涨了27%,但在盘后交易中也回落了2%以上。

美国点评网站Yelp将加强AI功能 部分功能已在iOS版上线

【AiBase提要:】

👉 Yelp的新功能包括AI生成的摘要和首页重新设计

👉 AI生成的摘要将简洁地介绍商家的特色和服务

👉 摘要功能已在iOS上推出,未来会扩展到Android和网页

MIT最新研究:纯文本模型也能训练出视觉表征 用代码就能作画

【AiBase提要:】

👁️ 纯文本模型训练视觉概念表征的新可能性

💻 语言模型无法直接处理像素形式的视觉信息

🌈 语言模型在生成复杂场景方面表现出色

论文地址:https://arxiv.org/pdf/2401.01862.pdf

首个图像序列基准测试Mementos开源 GPT-4V/Gemini竟看不懂漫画!

【AiBase提要:】

🤔 Mementos测试的关键目的是测试多模态大语言模型的推理能力。

😟 对于GPT-4V和Gemini等模型,在图像序列推理中表现不足20%。

🤯 Mementos测试发现模型容易产生对象幻觉和行为幻觉。

项目地址:https://mementos-bench.github.io/

200GB!AutoMathText:专注数学文本的超大规模数据集

【AiBase提要:】

1. AutoMathText是一个庞大的数学文本数据集,总体规模达到200GB,汇聚了来自多个来源的数据,适用于多种应用场景。

2. 数据集包含10亿到100亿的数据量级,提供丰富的资源供大规模模型训练。

3. AutoMathText提供了详细的领域标签,涵盖数学推理、推理、微调等方面。

高效机器人学习软件SERL25分钟学会一个任务

image.png

【AiBase提要:】

⭐ 机器人学习软件SERL通过更少的尝试快速学会新任务

⭐ SERL可执行多种复杂任务,如组装电路板、布线或移动物体

⭐ 这一软件工具包已经教会机器人执行多种任务,包括组装电路板、布线或移动物体到新位置

项目地址:https://top.aibase.com/tool/serl

举报

  • 相关推荐
  • OpenAI的开源模型现已在IBM watsonx.ai上提供

    OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B,允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台,采用专家混合架构,支持本地或云端部署,不受商业用途限制。模型具备高透明度,输出完整推理链,在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态,IBM强调其开放战略,为企业提供灵活、安全的AI开发选择。

  • 奥尔特曼称自己不适合担任CEO OpenAI上市后或卸任

    OpenAI首席执行官Sam Altman近日接受采访时透露,虽然公司正推进数万亿美元级的计算基础设施投资计划,但他对上市后继续担任CEO持保留态度。 Altman坦言,尽管主导着OpenAI多项战略级项目,但自认缺乏上市公司CEO所需的核心管理素质与市场敏感度。 他特别强调,上市企业领导者需具备应对复杂投资者关系与监管环境的综合能力,而自己可能并非最优人选。

  • OpenAI CEO:GPT-6将具备个性化记忆 记住用户偏好习惯

    OpenAI的首席执行官萨姆奥尔特曼(Sam Altman)在近日的一次专访中,透露了下一代大模GPT-6的最新进展。他表示,GPT-6 的开发正在积极推进中,其发布节奏将比从GPT-4到GPT-5的周期更快。 奥尔特曼特别强调,GPT-6将不再局限于单纯回答问题,而是朝着与用户深度适配”的方向演进。他举例描述

  • AI日报:海螺AI首尾帧功能上线;元石科技发布问小白5;OpenAI发布全新语音模型GPT-Realtime

    AI日报栏目每日提供人工智能领域热点内容,聚焦开发者,帮助洞悉技术趋势、了解创新AI产品应用。最新动态包括:MiniMax海螺AI首尾帧功能上线;元石科技发布问小白5挑战GPT-5;OpenAI推出语音模型GPT-Realtime;谷歌Gemini AI优化表格处理;腾讯黑科技实现AI配音;百度计划培养千万AI人才;MathGPT.ai反作弊功能推广;苹果Xcode集成Claude Sonnet4;微软发布自研AI模型MAI系列;xAI推出高效编码模型Grok Code Fast1;SuperCLUE多模态评测Gemini-2.5-Pro居首;9月1日起AI内容标识新规实施,违规将承担法律风险。

  • OpenAI和科大讯飞,瞄准了同一件事

    OpenAI正式发布GPT-5大模型,距离GPT-4推出已29个月。GPT-5虽仍是当前最全面的模型,但性能提升未与主流模型拉开显著差距,部分场景甚至被Grok4和Claude+Opus4.1超越。OpenAI强调此次升级重点在于减少幻觉、提升指令遵循能力和降低模型谄媚性,而非单纯追求性能突破。与此同时,国产大模型代表星火X1也在7月25日升级,同样聚焦解决幻觉问题,在事实性幻觉和忠诚性幻觉治理上取得突破。全球顶尖大模型正从"能用"向"好用"转变,OpenAI和科大讯飞都通过多目标奖励机制和思维链监控等技术手段改善模型可靠性。星火X1已全面赋能教育、医疗、企业应用等行业,在复杂场景任务上满足用户核心需求。大模型产业已进入规模化落地关键期,中国人工智能产业正从追赶走向领先阶段。

  • 博士水平的GPT-5依然翻车 OpenAI奥特曼:AGI已失去意义

    上周末OpenAI公司发布了传闻已久的GPT-5大模型,号称迄今为止最先进的人工智能模型,具备博士级别的智能水平。 GPT-5发布之后在多个榜单上确实刷榜了,包括编程、数学等,总计拿到了25个榜单的第一,评分表现很震撼。 然而上线之后,GPT-5的实际表现引发质疑,跑分第一不代表实际体验第一,甚至被不少用户认为表现倒退了,反应也变慢,这可能是OpenAI翻车最快的旗舰大�

  • GPT5上线大翻车!用户强烈呼吁使用旧版 OpenAI重新上线GPT4o

    OpenAI发布最强AI模型GPT-5,但引发用户强烈不满。新模型上线后反应速度变慢、回答质量下降,且官方突然下架GPT-4o等8个旧模型,导致付费用户抗议。部分用户对旧版产生情感依赖,认为GPT-4o更具人性化温暖。第三方测试显示GPT-5在复杂任务上虽有提升,但交互体验明显退步。CEO承认低估用户对旧版的喜爱,承诺将恢复部分旧模型并提供更多定制服务。专家指出大模型边际效益递减,面临数据质量和算力成本限制。总体而言,GPT-5在技术指标进步的同时,牺牲了情感交互体验。

  • 健合旗下Swisse PLUS携手TEDx举办抗衰沙龙,发布NAD+新生瓶系列

    《全球抗衰老市场研究报告》显示,2024年全球抗衰老产品市场规模达2662亿美元。高端消费群体需求从粗放式营养补充转向精准干预,推动行业向细胞级解决方案升级。Swisse PLUS与TEDx合作举办主题沙龙,发布NAD+新生瓶系列,汇聚专家学者探讨细胞抗衰科学路径,倡导建立个人健康管理系统,实现精准抗衰与主动健康管理。

  • GPT-5有望明天发布 OpenAI:免费无限使用

    OpenAI宣布将于太平洋时间7月4日上午10点(北京时间7月5日凌晨1点)举办重要直播活动。官方预告中"LIVESTREAM"误写为"LIVE5TREAM",引发网友猜测可能暗示GPT-5即将发布。消息称免费版ChatGPT将在标准设置下开放GPT-5对话功能,但会设置防滥用阈值;Plus和Pro用户则可享受更智能的GPT-5服务,包括语音交互、绘图创作等高级功能。此前CEO奥特曼曾透露GPT-5将整合多项前沿技术。若属实,这将是AI爱好者的重大福利,也将进一步提升ChatGPT的实用性和用户体验。

  • OpenAI正式发布GPT-5模型 网友:写作像诗人

    OpenAI在直播活动中正式推出新一代人工智能模型GPT-5,宣称其覆盖编程、数学、写作、健康咨询、视觉感知等核心领域,实现"公司迄今为止最重大的模型升级"。OpenAI首席执行官萨姆·奥尔特曼(Sam Altman)形容,与GPT-5交互如同与各领域专家对话,其多维度能力突破将重塑人机协作模式。 分层开放策略满足多元需求 GPT-5将于本周四启动全球用户分批推送,免费用户与付�

今日大家都在搜的词: