AI视野：OpenAI推新模型GPT-4-0125-preview；阿里Qwen-VL升级更新；苹果播客新增转录功能；AI写真项目InstantID在GitHub爆火

2024-01-31 15:30 · 稿源：站长之家

欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://top.aibase.com/

QQ截图20240131154754.png

🤖📱💼AI应用

OpenAI不服GPT-4被Bard反超推出最新模型GPT-4-0125-preview

【AiBase提要:】
😲 Bard搭载了新版大模型Gemini Pro-scale
😠 网友质疑混合在线和离线大模型
🔄 模型GPT-4-0125-preview已入场竞技场

Finalframe即将推出适用于AI生成视频的剪辑界面

QQ截图20240131095243.png

要点:
⭐ Finalframe支持文本转视频和图像转视频
⭐ 支持创建、打开、保存项目，以及导出完整时间轴
⭐ 即将推出的新功能让视频剪辑方式更直观方便
官网地址:https://top.aibase.com/tool/finalframe

WhisperKit开源!可在iPhone和Mac流畅体验实时语音转录

【AiBase提要:】
😃Argmax公司将WhisperKit作为首个项目。
😃WhisperKit以MIT许可证的形式开源。
😃WhisperKit实现了实时语音转文本。
项目入口:https://top.aibase.com/tool/whisperkit

苹果iOS17.4更新:播客应用新增转录功能

【AiBase提要:】
⭐ 转录功能自动生成播客节目文字稿
⭐ 初期支持英语、法语、德语和西班牙语
⭐ 转录文本不包含动态插入音频和音乐歌词

Mistral-Medium意外泄露神秘新模型“Miqu”击败GPT-4之外的所有大模型

【AiBase提要:】
🤔 Mistral-Medium模型意外泄露，引发AI社区热议，与名为"Miqu"的新模型有关。
🔥 Miqu在EQ-Bench基准上表现强大，与Mistral-Medium相近，但发布者身份神秘。
💥 Miqu身份存疑，是否Mistral-Medium早期版本或Llama70B。
开源地址:https://top.aibase.com/tool/miqu-1-70b

Vary-toy:具有高级视觉词汇视觉语音模型

【AiBase提要:】
📌 挑战与潜力: 大型视觉语言模型在计算机视觉和自然语言处理任务表现出色，但在图像感知能力方面仍有潜力待发。
📌 模型结构: LVLMs采用图像标记作为前缀或交叉注意力进行特征融合，效率受视觉词汇网络的限制。
📌 解决方案: MEGVII Technology的研究人员提出Vary-toy，用于提高LVLMs的图像感知能力。
项目入口:https://top.aibase.com/tool/vary-toy

阿里巴巴多模态模型Qwen-VL升级更新推出这2个版本

【AiBase提要:】
⭐ Qwen-VL-Plus和Qwen-VL-Max版本推出
⭐ 在多模态任务上与GeminiUltra和GPT-4V相当
⭐ Qwen-VL-Max在视觉推理方面展现卓越能力
试用地址:https://huggingface.co/spaces/Qwen/Qwen-VL-Max

AI实时对话系统WhisperFusion:集成大模型，与AI无缝语音对话

【AiBase提要:】
1. 🎙️ 实时语音转文本:利用OpenAI WhisperLive实现即时将口语转换为文本。
2. 🧠 大型语言模型整合:集成Mistral大型语言模型，提升对转录文本的理解和上下文把握。
3. ⚙️ TensorRT优化:LLM和Whisper均经过TensorRT引擎优化，确保高性能和低延迟处理。

📰🤖📢AI新鲜事

Midjourney使用1.6万名艺术家数据库进行训练遭批判

【AiBase提要:】
📌 艺术家反应:艺术家指责公司侵权
📌 法律诉讼:涉及多方提起集体诉讼
📌 艺术家作品未经许可被用于训练AI程序

Open AI否认报告称ChatGPT泄露了用户密码

【AiBase提要:】
😡 OpenAI否认ChatGPT泄露密码
😡 Ars Technica报道泄露工单及网站登录凭证
😡 ChatGPT遭指控为漏洞百出

AI写真项目InstantID在GitHub引爆热潮

【AiBase提要:】
⭐ AI写真项目InstantID在全网刷屏
⭐ 项目背后是来自小红书的 InstantX 团队
⭐ InstantID出图速度快，不需模型训练，支持多种风格
项目地址:https://top.aibase.com/tool/instantid

微软等公司财报低于预期美股AI相关巨头市值一夜蒸发1900亿美元

【AiBase提要:】
📉 微软、Alphabet和超微公布季度业绩低于预期。
💻 与AI相关的公司市值一夜蒸发1900亿美元。
📉 英伟达的股价在1月份上涨了27%，但在盘后交易中也回落了2%以上。

美国点评网站Yelp将加强AI功能部分功能已在iOS版上线

【AiBase提要:】
👉 Yelp的新功能包括AI生成的摘要和首页重新设计
👉 AI生成的摘要将简洁地介绍商家的特色和服务
👉 摘要功能已在iOS上推出，未来会扩展到Android和网页

MIT最新研究:纯文本模型也能训练出视觉表征用代码就能作画

【AiBase提要:】
👁️ 纯文本模型训练视觉概念表征的新可能性
💻 语言模型无法直接处理像素形式的视觉信息
🌈 语言模型在生成复杂场景方面表现出色
论文地址:https://arxiv.org/pdf/2401.01862.pdf

首个图像序列基准测试Mementos开源 GPT-4V/Gemini竟看不懂漫画!

【AiBase提要:】
🤔 Mementos测试的关键目的是测试多模态大语言模型的推理能力。
😟 对于GPT-4V和Gemini等模型，在图像序列推理中表现不足20%。
🤯 Mementos测试发现模型容易产生对象幻觉和行为幻觉。
项目地址:https://mementos-bench.github.io/

200GB!AutoMathText:专注数学文本的超大规模数据集

【AiBase提要:】
1. AutoMathText是一个庞大的数学文本数据集，总体规模达到200GB，汇聚了来自多个来源的数据，适用于多种应用场景。
2. 数据集包含10亿到100亿的数据量级，提供丰富的资源供大规模模型训练。
3. AutoMathText提供了详细的领域标签，涵盖数学推理、推理、微调等方面。

高效机器人学习软件SERL25分钟学会一个任务

【AiBase提要:】
⭐ 机器人学习软件SERL通过更少的尝试快速学会新任务
⭐ SERL可执行多种复杂任务，如组装电路板、布线或移动物体
⭐ 这一软件工具包已经教会机器人执行多种任务，包括组装电路板、布线或移动物体到新位置
项目地址:https://top.aibase.com/tool/serl

（举报）

相关推荐
大家在看

关键词：

OpenAI

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
荐AI日报：媲美GPT-4！智谱AI发布最新模型GLM-4-Plus；阿里重磅开源超强AI模型Qwen2-VL；国产AI神器NotePin在国外火了

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、智谱AI震撼发布GLM-4-Plus：媲美GPT-4，首创C端视频通话功能智谱AI最新发布的GLM-4-Plus模型展示了与OpenAIGPT-4媲美的强大视觉能力，即将开放使用。数百个开源LLM服务器泄露企业和健

智谱AI
荐阿里重磅开源Qwen2-VL：能理解超20分钟视频，媲美GPT-4o！

阿里巴巴开源了最新视觉多模态模型Qwen2-VL，根据测试数据显示，其72B模型在大部分指标超过了OpenAI的GPT-4o，Anthropic的Claude3.5-Sonnet等著名闭源模型，成为目前最强多模态模型之一。Qwen2-VL支持中文、英文、日文、韩文等众多语言，可以在Apache2.0协议下进行商业化使用。你也可以向Qwen2-VL发送一张杭州萧山到北京的飞机票，然后基于上面的内容进行提问:“这趟航班什么时候到达?�

Qwen2-VL
OpenAI官宣ChatGPT用户破2亿，新模型比GPT-4强100倍！

在刚刚召开的“KDDISUMMIT2024”大会上，OpenAI日本首席执行官長崎忠雄表示，截止至今年8月底，ChatGPT的月活用户数量突破2亿大关，成为史上最快达到这一成就的软件产品。ChatGPT企业级用户也获得大幅度增长达到百万级，典型客户包括苹果、普华永道、可口可乐、摩根大通、Salesforce、Moderna等世界顶级公司。两人都坚信，随着AI技术的不断创新、迭代，在很多业务场景中都会看到它们的身影，成为整个社会的重要基础部分之一。

ChatGPT
荐AI日报：Runway推出“Video to Video”功能；腾讯推AI游戏生成模型 GameGen-O；HeyGen推出Avatar 3.0；OpenAI新模型o1虚有其名？

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、Runway推出“VideotoVideo”功能精神小伙秒变科幻片主角Runway最新推出的VideotoVideo功能彻底改变了视频创作的游戏规则，让任何人都能成为数字魔法师，轻松改变视频风格、背景和氛围。该办法根据多项法律法规制定，意见反馈截止时间为2024年10月14日。

Runway
OpenAI宣布启动GPT Next计划：AI性能有望提高100倍

日前，OpenAIJapan出席了KDDI峰会，介绍了公司即将推出的下一代AI模型，并宣布将在2024年启动GPTNext计划。OpenAIJapan首席执行官长崎忠雄长崎忠雄在峰会上强调了AI技术相比传统软件的飞速发展，指出AI技术正以指数级的速度进步。这种100倍的增长可能不仅仅指的是计算资源的扩展更可能涉及到有效计算容量的增加，以及包括架构改进和学习效率提升在内的2个数量级的增长。

OpenAI Japan KDDI峰会
GPT-5降临，代号猎户座？OpenAI疑用草莓训练，数学推理暴涨超越所有模型

OpenAI的下一代旗舰大语言模型，要来了?据悉，新模型代号Orion，就是能超越GPT-4的下一代模型。猎户座的预训练数据，正是由草莓模型生成的。我们能从中窥见草莓和Orion的端倪。

GPT-5 猎户座草莓
荐突发！OpenAI展示草莓，很快发布“GPT-5”猎户座！

OpenAI不藏了，终于展示江湖流传已久的秘密项目“草莓”和猎户座。根据Theinformation消息，OpenAI已经向美国国家安全官员展示了草莓这个秘密项目，保证会在安全、合理的范围内来开发和使用。猎户座则具备多模态理解、处理能力，能对文本、图像、声音和视频等多种数据类型的综合处理能力，能以更自然地方式与人类、环境进行综合交互。

GPT-5
Cursor AI 与 GitHub C0pilot：哪个更适合程序员？

由AI驱动的编码助手在帮助开发者编写、审查或理解代码方面取得了巨大进展。在这个领域中，CursorAI和GitHubCopilot是两个非常受欢迎的工具。两款工具各有特色，并且它们的持续发展很可能会塑造AI辅助编码的未来。

Cursor GitHub 人工智能
荐ChatGPT成精了！居然主动勾引用户，OpenAI又测试新功能？

有网友表示，他收到了ChatGPT主动给他发送的消息，询问“你高中的第一周过得怎么样?还适应吗?”他很懵逼的回了一句“你刚才是给我发消息吗?”。在没有任何先前文本提示下，ChatGPT主动“勾引”了用户，开始了一段新的对话。如果OpenAI正在测试这个新的功能，在真正上线时场景用例和使用体验方面应该会更好。

ChatGPT
联想AI PC明星级应用再升级：与Stability AI独家合作

联想在IFA百年展会期间举办创新世界大会发布全新系列的Yoga和IdeaPad笔记本电脑。联想CreatorZone成为备受关注的AIPC明星级应用程序。该应用将扩展支持至更多联想Yoga设备。

联想 Yoga IdeaPad

Background Removal AI:使用AI技术快速去除图片背景

背景去除AI是一个基于人工智能技术的在线服务，它能够快速、准确地从用户上传的图片中去除背景。这项技术特别适用于需要批量处理图片背景去除的电子商务、平面设计、个人照片编辑、房地产摄影以及数字艺术和视频制作等领域。背景去除AI的主要优点包括即时处理、高精度边缘检测、批量处理能力以及支持多种输出格式。它为用户提供了一个简单、高效且成本效益高的解决方案，以满足不同行业和个人对图像编辑的需求。

AI图像处理背景去除在线服务

Lyrics Into Song AI:将您的歌词转换成完整的歌曲。

Lyrics Into Song AI 是一款利用人工智能技术将用户输入的歌词转换成旋律、和声和编曲的在线音乐创作工具。它通过自然语言处理、神经网络架构和音乐生成算法，为创作者提供便捷的音乐创作体验。该产品支持多种音乐风格和语言，适合各种创作需求，无论是社交媒体内容创作、播客开场音乐、视频配乐还是个人活动音乐，都可以通过这个平台轻松实现。

AI音乐创作歌词转歌曲在线音乐制作

CodeCV简历:免费的专业在线Markdown简历制作工具

CodeCV简历是一个专业的在线简历制作工具，支持Markdown格式，为用户提供多种简历模板和AI辅助写简历功能，帮助用户快速生成个性化、专业的简历。该工具特别适合需要在线制作和导出简历的用户，无论是校招还是社招，都能满足需求。

简历制作在线工具 Markdown

智语:探索无限智能，构建更完美的聚合之路。

智语1号是一个以智能系统为基础的聊天平台，提供用户与AI进行互动交流的体验。它利用大模型技术，通过自然语言处理和机器学习，使得AI能够理解和回应用户的各种问题和需求。智语1号的背景是随着人工智能技术的发展，人们对于智能助手的需求日益增长，它旨在为用户提供一个高效、智能的交流环境。产品目前是免费试用，主要面向对智能聊天感兴趣的用户群体。

人工智能自然语言处理机器学习

FB Group Extractor:一键抓取Facebook群组成员信息

FB Group Extractor是一款基于AI技术的Facebook群组成员信息抓取工具，能够帮助用户从Facebook群组中提取、分析并有效利用有价值的信息。该工具支持多种数据提取，包括用户ID、用户名、加入状态、工作职位、位置等，对于市场营销、内容优化和用户研究具有重要意义。它通过Chrome插件的形式提供服务，支持跨平台使用，并且具备免费和付费两种使用方案，满足不同用户的需求。

Facebook 数据抓取市场营销

Solidroad:AI驱动的训练和评估平台，提升员工培训效率。

Solidroad是一个AI优先的训练和评估平台，它将公司的知识库转化为沉浸式培训项目，易于培训者管理，同时为员工提供更吸引人的学习体验。该平台通过个性化支持、指导和专业知识，帮助客户节省时间和资源，加快新员工的熟练速度，并提高客户满意度评分。

AI教练培训反馈

Docs by Hashnode:动态API文档和产品指南的内容引擎

Docs by Hashnode是一个为开发者团队设计的API文档和产品指南内容引擎，它允许团队像编写代码一样快速、轻松地构建、定制和扩展他们的文档。它提供了全控制、自定义和Stripe级别的高质量文档，而无需繁重的工作。产品具有现代化的前端、一流的文档编辑器、快速的搜索和发现功能，以及强大的协作和用户反馈工具。

API文档开发者工具团队协作

Bolna:全天候AI前台接待，接听所有来电

Bolna是一款AI前台接待系统，旨在无缝地接管和扩展您的前台运营，确保不错过任何来电。它通过创建AI代理、连接知识库、语音实验室、预约安排和报告功能，提供了一个全面的解决方案。Bolna通过提供多种语言支持和集成CRM系统，帮助企业提升客户服务效率和质量。

AI 客户服务自动化

ComfyUI-LumaAI-API:为ComfyUI提供Luma AI API的自定义节点。

ComfyUI-LumaAI-API是一个为ComfyUI设计的插件，它允许用户直接在ComfyUI中使用Luma AI API。Luma AI API基于Dream Machine视频生成模型，由Luma开发。该插件通过提供多种节点，如文本到视频、图像到视频、视频预览等，极大地丰富了视频生成的可能性，为视频创作者和开发者提供了便捷的工具。

视频生成 API集成图像处理

Notion-like AI Editor (Lexical):利用Liveblocks、Lexical和Vercel AI SDK构建的协作文本编辑器。

Notion-like AI Editor是一个基于Liveblocks、Lexical和Vercel AI SDK的协作文本编辑器示例，它允许用户实时同步编辑文档，同时查看彼此的光标位置。该编辑器还集成了AI工具栏，用户可以通过查询AI来生成改进和新内容。

协作编辑 AI辅助实时同步

StoryMaker:文本到图像生成工具，创造连贯角色故事。

StoryMaker是一个专注于文本到图像生成的AI模型，能够根据文本描述生成具有连贯性的角色和场景图像。它通过结合先进的图像生成技术和人脸编码技术，为用户提供了一个强大的工具，用于创作故事性强的视觉内容。该模型的主要优点包括高效的图像生成能力、对细节的精确控制以及对用户输入的高度响应。它在创意产业、广告和娱乐领域有着广泛的应用前景。

AI图像生成文本到图像故事创作

Runway API:使用，随时随地创造视频内容。

Runway API是一个强大的视频模型平台，提供先进的生成视频模型，允许用户在安全、可靠的环境中嵌入Gen-3 Alpha Turbo到他们的产品中。它支持广泛的应用场景，包括创意广告、音乐视频、电影制作等，是全球顶尖创意人士的首选。

视频生成 API集成创意工具

NotePlan AI Meeting Notes:自动化会议记录工具，提升会议效率。

NotePlan AI Meeting Notes 是一款为Google Meet设计的AI驱动会议记录插件，它能够将会议内容自动转化为简洁、可操作的摘要，帮助用户捕捉关键决策、主题和洞见。该插件支持全词转录，用户无需在会议中分心记录，可以完全专注于讨论。它与NotePlan应用无缝集成，可以一键将会议摘要和记录同步至NotePlan，无论是个人还是团队协作，都能提升工作效率。

会议记录 AI摘要 Google Meet

Diarly:安全、简单且美观的日记应用，开启自我发现之旅。

Diarly是一款专注于个人日记记录的应用程序，它通过提供安全、用户友好且美观的界面，帮助用户记录和回顾个人生活。该应用允许用户通过多种视图如时间线、笔记和日历来轻松导航，同时支持个性化设置，如主题、字体和自定义模板。Diarly还提供了强大的加密和密码保护功能，确保用户隐私安全。此外，它还支持通过iCloud在不同设备间同步日记，让用户随时随地都能记录和查看自己的日记。

日记写作个人成长

Stytch Fraud & Risk Prevention:行业领先的精准欺诈和风险预防解决方案

Stytch Fraud & Risk Prevention 提供先进的设备指纹技术，超越了传统的CAPTCHA和WAF，能有效阻止机器人、欺诈和滥用行为。它通过高度独特的指纹技术，结合标准和专有信号，保护用户隐私的同时，确保了几乎不可能被绕过的准确性。该产品通过详细的仪表板报告，提供实时可见性，监控用户的安全姿态，并通过智能CAPTCHA技术，提高用户体验。此外，Stytch还提供了多种指纹类型和智能速率限制功能，以应对各种用例。

欺诈预防风险管理设备指纹

Meco:将您的新闻通讯从收件箱中解放出来

Meco是一个新闻通讯聚合器，旨在帮助用户将新闻通讯从电子邮件收件箱中移出，以减少干扰并提高阅读效率。它通过提供智能过滤器、分组、AI音频摘要、个性化推荐等功能，使用户能够更有效地管理和阅读新闻通讯。Meco支持与Gmail和Outlook同步，提供个性化的新闻摘要，并且允许用户在任何设备上阅读，包括即将推出的Android版本。

新闻通讯电子邮件管理 AI音频

Zivy:专为工程和产品领导设计的AI通信管理工具。

Zivy是一款旨在帮助工程和产品领导管理通信混乱的AI工具。它通过自动优先排序和学习来优化消息，确保用户只关注需要立即处理的内容。Zivy通过集成Slack或Gmail等账户，使用OAuth2和官方API来保护用户密码和信息安全。它还承诺遵守SOC-2和ISO27001标准，确保数据安全。Zivy的设计理念是简化工作空间，让用户能够更专注于创造和生活，而不是被通信工具所困扰。

AI 通信管理任务安排

Brightband:利用AI技术预测天气和气候，助力人类适应极端天气

Brightband是一个致力于通过先进的地球系统AI技术，使天气和气候变得可预测，以帮助人类适应日益极端的天气变化。该平台通过开源基准数据集、模型和指标，鼓励全球社区共同提升天气预测的技术水平。Brightband提供给学术界、政府和公司使用的工具，旨在改善与天气和气候相关的决策，从而长期造福人类和地球。

AI预测气候适应开源数据

SiFive:引领RISC-V革命，提供高性能计算密度

SiFive是RISC-V架构的领导者，提供高性能、高效率的计算解决方案，适用于汽车、AI、数据中心等应用。其产品以优越的性能和效率，以及全球社区的支持，推动了RISC-V技术的发展和应用。

RISC-V 高性能计算 AI

SiFive Intelligence XM Series:高效能AI计算引擎，集成多种计算单元，提供高内存带宽。

SiFive Intelligence XM系列是SiFive推出的高效能AI计算引擎，通过集成标量、向量和矩阵引擎，为计算密集型应用提供极高的性能功耗比。该系列继续SiFive的传统，提供高效的内存带宽，并通过开源SiFive Kernel Library来加速开发时间。

AI视野：OpenAI推新模型GPT-4-0125-preview；阿里Qwen-VL升级更新；苹果播客新增转录功能；AI写真项目InstantID在GitHub爆火

今日大家都在搜的词：

热文

站长商机