首页 > 业界 > 关键词  > Octopusv2最新资讯  > 正文

AI日报:可以在手机上跑的大模型Octopusv2一夜爆火;90后小伙AI“复活”逝者订单超1000;OpenAI允许构建自定义模型;个具有情商的对话型AI来了

2024-04-07 15:41 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

QQ截图20240407155231.png

📰🤖📢AI新鲜事

斯坦福推可以在手机端跑的大模型 Octopusv2超越GPT-4一夜爆火

image.png

【AiBase提要:】

⭐️ 斯坦福大学推出Octopusv2,20亿参数模型,可在手机等设备上运行,准确性和延迟超越GPT-4,上下文长度减少95%。

⭐️ 设备端AI智能体时代来临,Octopusv2开发过程创新函数token策略,训练方法提高推理速度,表现优异。

⭐️ Octopus-V2-2B在性能评估中表现卓越,速度提高168%,为设备端AI发展注入新活力。

论文地址:https://arxiv.org/abs/2404.01744

模型主页:https://huggingface.co/NexaAIDev/Octopus-v2

90后小伙用AI“复活”逝者,一年成交1000单

【AiBase提要:】

⭐️90后小伙张泽伟使用AI技术,为逝者塑造数字形象,已接超过1000笔订单。

⭐️ 他的团队通过还原逝者的相貌、声音,让客户能与其数字形象互动。

⭐️ 这种业务独特之处在于AI技术生成逝者数字形象的反应,无需人类扮演。

详细内容:https://www.chinaz.com/2024/0407/1608319.shtml

OpenAI为开发者添加新功能 允许构建自定义模型

1.png

【AiBase提要:】

⭐️ 开发者可以使用OpenAI的新功能构建特定于组织、业务领域、任务需求的自定义模型。

⭐️ 自定义模型包括专门知识库、特定数据理解、执行任务或特定输入响应。

⭐️ OpenAI提供微调API、自定义训练模型程序和辅助微调服务等功能帮助开发者构建自定义模型。

详细内容:https://openai.com/blog/introducing-improvements-to-the-fine-tuning-api-and-expanding-our-custom-models-program

OpenAI 转录了超过一百万小时的 YouTube 视频来训练 GPT-4

【AiBase提要:】

🤖 OpenAI使用YouTube视频转录训练GPT-4

📚 AI公司遇到高质量训练数据挑战

⚖️ 公司处理数据问题涉及版权法模糊区域

AI视频理解天花板,全新MiniGPT4-Video刷爆SOTA!宝格丽宣传片配文一绝

图片

【AiBase提要:】

⭐ MiniGPT4-Video框架能理解复杂视频,还能创作诗歌配文。

⭐ 支持处理时态视觉数据和文本数据,善于理解视频的复杂性。

⭐ 在多个基准测试中,MiniGPT4-Video有显着提高,可为视频配文、广告等提供强大解读能力。

论文:https://arxiv.org/pdf/2404.03413.pdf

DeepMind发布Gecko: 专注于文档检索 性能媲美大7倍模型

image.png

【AiBase提要:】

🦎 Gecko是通用文本嵌入模型,专注于文档检索、语义相似度和分类任务。

🦎 Gecko通过从LLM中提炼知识,融入检索器,实现强大检索性能。

🦎 在大规模文本嵌入基准上,256维Gecko优于768维现有模型。

论文地址:https://arxiv.org/pdf/2403.20327.pdf

微软投资1000亿美元推动生成式AI,这支股票有望大涨

【AiBase提要】

🧠 微软部署基于 Arm 设计的定制芯片,有望为 Arm Holdings 带来增长。

📈 Arm Holdings 已受益于人工智能芯片增长,微软项目或进一步推动其业绩。

🔋 微软可能通过定制芯片减少对其他公司依赖,提高性能降低成本,有望带动 Arm 收入增长。

马斯克的朋友将帮助 xAI 筹集30亿美元

【AiBase提要:】

🤑 投资者与马斯克有着密切关系,计划帮助 xAI 筹集30亿美元。

🤖 xAI 与 OpenAI 和 Anthropic 等竞争对手展开竞争,加紧发展在竞争激烈的人工智能领域。

💼 人工智能人才争夺战激烈,xAI 和其他竞争对手竞相吸引和留住。

AI下一个重大飞跃是理解情感,第一个具有情商的对话型AI来了

图片

【AiBase提要:】

⭐️ HumeAI发布具有情感识别能力的对话AI,能检测53种情绪。

⭐️ HumeAI致力于理解和回应用户情感,通过声音特征实现互动。

⭐️ 提供API让用户训练自己的AI模型,应用广泛覆盖健康、客服等领域。

官网地址:https://dev.hume.ai/docs/expression-measurement-api/overview

金山办公 WPS365将发布一站式AI办公产品

【AiBase提要:】

⭐ WPS365将强调提升用户办公效率与体验

⭐ 套件包含内容创作工具和协作软件

⭐ 核心理念是统一工具、协作和管理

🤖📱💼AI应用

Infinity AI:输入剧本即可一键生成电影 还提供数字人克隆功能

image.png

【AiBase提要:】

⭐ 目标:只需要输入剧本内容,即可一键生成电影,官方已经发布Demo

⭐ 技术团队成功克隆CEO形象展示产品功能,提出未来小团队借助AI有望赢得奥斯卡奖预言。

⭐ 提供克隆自己服务,用户可以通过录制视频训练定制AI模型,生成包含自己声音和面部表情的视频内容。

官网:https://top.aibase.com/tool/infinity-ai

在线体验地址:https://studio.infinity.ai/

详细教程及视频:https://qqi2gjmnk4.feishu.cn/wiki/HTmRwpZ1hiRONpkZ3SIce89ynuc?fromScene=spaceOverview

谷歌推Scenic:可识别视频内容 并生成详细描述

image.png

【AiBase提要:】

🔍 提供 SOTA 模型和基线模型,支持快速原型设计大规模视觉模型。

🔍 使用 JAX 和 Flax 进行开发,支持图像、视频、音频和多模态组合模型。

🔍 能识别视频内容并生成详细描述,提供功能丰富的基线模型和数据集。

产品入口:https://top.aibase.com/tool/scenic

CameraCtrl:让文本生成视频实现镜头控制 支持AnimateDiff控制镜头

image.png

【AiBase提要:】

⭐镜头控制在视频生成中至关重要

⭐通过训练镜头编码器实现插拔式镜头模块

⭐不同数据集视频增强镜头控制的可控性和泛化性

产品入口:https://hehao13.github.io/projects-CameraCtrl/

Lixel CyberColor:自动生成无限大的电影级效果的3D场景

image.png

【AiBase提要:】

⭐️ LCC采用Multi-SLAM和高斯溅射技术生成电影级效果的3D场景。

⭐️ XGRIDS的Multi-SLAM算法和3DGS技术创造逼真大型3D模型。

⭐️ XGRIDS提供LCC插件和SDK支持在多平台上无限复制3D内容。

官网地址:https://xgrids.com/lcc

AI语音识别工具Universal-1:38秒可以处理60分钟音频 比fast Whisper更快

【AiBase提要:】

⭐️ Universal-1提供准确鲁棒的多语言语音转文字功能

⭐️ Universal-1通过时间戳估计提高了准确性和说话者辨识

⭐️ AssemblyAI利用Conformer RNN-T架构和Google Cloud TPUs构建了高效的Universal-1模型

产品入口:https://top.aibase.com/tool/universal-1

InstantStyle: 文本生成图像风格参考,用于SD保持风格一致

image.png

【AiBase提要:】

⭐️ 内容和风格有效分离,通过简单但强大的技术实现。

⭐️ CLIP全局特征的应用,明确风格和内容的解耦。

⭐️ 不同层级网络捕捉不同语义信息,实现更好的风格保留效果。

产品入口:https://top.aibase.com/tool/instantstyle

————

每日midjourney prompt:性感电商模特

3_1712475023245_ai2023_A_beautiful_Chinese_GirlDetailed_facial_detailslong_hair_da38faab-b655-43c3-abc4-fde1a97fd67e.png

图源备注:图片由AI生成,图片授权服务商Midjourney

A beautiful Chinese Girl,Detailed facial details,long hair ,dark hair, wearing a short pink satin dress. She is sitting on concrete stairs in front of a tiled building facade. The lighting is soft and natural, with sunlight casting shadows --ar3:4--v6.0--style raw

一个美丽的中国女孩,详细的面部细节,长发,深色头发,穿着一件粉红色的缎面短裙。她坐在瓷砖建筑正面前的混凝土楼梯上。灯光柔和自然,阳光投射出阴影

举报

  • 相关推荐
  • StarRocks Connect 2025 圆满落幕:AI Native 时代,数据分析未来已来

    StarRocks Connect 2025峰会圆满落幕,聚焦AI Native时代的数据分析未来。活动汇聚全球开发者与行业专家,分享StarRocks在复杂业务场景中的实践,探讨技术演进方向。从性能引擎到AI原生平台,StarRocks 4.0将支持多智能体协作框架,提升数据分析效率。多家企业展示应用案例,覆盖电商、金融、旅游等领域,验证了其高性能与成本优势。开源精神推动技术创新,共同探索数据智能的无限可能。

  • 浪漫自在,悦己之声 森海塞尔ACCENTUM Open 真无线耳机 樱花粉上市

    森海塞尔于2025年9月22日在北京发布ACCENTUM Open真无线耳机樱花粉配色。新品在保持卓越音质的同时,以柔和樱花粉点缀耳畔,融合半开放式声学结构与舒适贴耳设计,支持蓝牙5.3多设备连接、双麦克风降噪及28小时续航。耳机单只仅重4.35克,配备IPX4防水,兼顾轻盈佩戴与全天候使用。樱花粉作为继经典黑白后的新配色,将于9月28日正式发售。森海塞尔强调其致力于创新音频解决方案,2025年正值品牌创立80周年,持续为客户打造独特声音体验。

  • 性能超越GPT-4o及Qwen2.5-VL,百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度第一

    百度发布超轻量级文字识别模型PP-OCRv5,仅0.07B参数却实现媲美700亿参数大模型的OCR精度。在多项测试中超越GPT-4o等通用视觉大模型,尤其在文本定位和边界框精度上表现优异。该模型支持5种文字类型识别,适用于教育、医疗、法律等多行业数字化需求,累计下载量超900万,是GitHub上唯一Star数超5万的中国OCR项目。

  • 纯白电竞房最后一块拼图,技嘉M27UP ICE与M27Q2 QD ICE显示器来袭

    技嘉推出两款纯白电竞显示器:M27UP+ ICE支持4K/160Hz与1080P/320Hz自由切换,兼顾游戏与办公;M27Q2QD+ ICE采用量子点技术,色彩表现接近OLED,支持2K/210Hz刷新率。两款均配备战术键、智能OD、黑平衡2.0等电竞功能,提供丰富接口与KVM切换,适合追求高颜值、高性能的电竞玩家与创作者。

  • 美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5

    9月23日,美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking。该模型在保持极致速度的同时,性能更强大、更专业,在逻辑、数学、代码、智能体等多个领域的推理任务中达到全球开源模型最先进水平(SOTA),部分任务性能接近闭源模型GPT5-Thinking。它增强了智能体自主调用工具能力,扩展了形式化定理证明能力,成为国内首个结合深度思考、工具调用与非形式化、形式化推理的大语言模型。在数学、代码、智能体等高复杂度任务上表现尤为突出,多项基准测试成绩领先开源及闭源顶尖模型,已在HuggingFace、Github全面开源。

  • Panduit 泛达荣获EcoVadis企业可持续发展表现银牌评级

    泛达公司宣布荣获EcoVadis企业可持续发展银牌评级,位列全球前6%,彰显其在环境责任与可持续商业实践方面的坚定承诺。该评估覆盖环境、劳工与人权、商业道德及可持续采购四大核心领域,包含21项可持续发展指标。泛达全球可持续发展经理Mark Dehmlow表示,这一成就证明公司在环境管理、道德采购及员工健康安全方面的努力正产生可衡量影响。作为全球领先的电气与网络基础设施解决方案制造商,泛达将持续提升可持续发展表现,契合市场期望,并支持合作伙伴生态系统及行业优先发展事项。

  • 真我GT8 Pro不改名!真我CMO:用产品力说话 而不是用改名发声

    真我GT8系列将于10月发布,包括GT8和GT8 Pro两款旗舰机型。新机搭载高通骁龙8至尊版芯片,采用台积电3nm工艺,配备2K直屏、2亿像素潜望长焦、大师级对称双扬声器等顶级配置。真我高管强调产品力优先,拒绝跟风改名,以Pro之名诠释Ultra级产品实力。

  • Matrixport 加密基金获 FCA 营销许可,机构化投资通道加速成型

    2025年9月11日,Matrixport旗下旗舰产品Crypto Market Index Fund获得英国FCA营销许可,成为首个可在英国向专业投资者私募销售的瑞士加密基金。该基金追踪瑞士SIX交易所的CMI10指数,覆盖BTC、ETH等十大主流加密资产,采用合规基金结构,由FINMA监管。此次突破体现了Matrixport"双轮驱动"战略:持续优化产品结构与深化合规运营,为机构提供透明安全的数字资产配置工具。

  • 目标安卓最强平板!荣耀MagicPad3 Pro全面对标iPad Pro、小米平板Ultra

    荣耀MagicPad3+Pro平板即将发布,将搭载第五代骁龙8至尊版芯片,配备13.3英寸超高刷大屏,首发MagicOS 10系统,支持PC级交互能力。对标iPad Pro和小米平板Ultra,目标成为安卓阵营最强平板。预计售价约5000元,因旗舰芯片成本较高。作为参考,荣耀MagicPad 3售价2999元起。

  • OpenAI发布GPT-5-Codex:可完成7小时单次编程任务

    OpenAI宣布推出新一代AI编程模型GPT-5-Codex,其最大亮点是创新的动态时间分配系统。 不同于传统AI追求秒级响应”,该模型可根据任务复杂度灵活调整处理时长,从数秒到7小时不等,以更接近人类专家的决策方式优化代码质量。 GPT-5-Codex产品负责人亚历山大恩比里科斯解释称,传统模型在任务初期即固定计算资源,而GPT-5-Codex能实时评估需求:动态决定加速推进、暂停语法核�

今日大家都在搜的词: