首页 > 业界 > 关键词  > 橙篇最新资讯  > 正文

AI日报:百度“橙篇”APP上线;知网状告秘塔AI搜索;Midjourney推全新图像编辑器;清华大学推万字AI系统LongWriter

2024-08-16 15:29 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、百度AI原生应用“橙篇”APP上线 集成智能搜索、AI热点推荐等功能

百度文库推出全新AI原生APP“橙篇”,集成了智能搜索、AI热点推荐等功能,引入了多图快速合成视频、超长篇幅文章创作和智能文件内容摘要技术。用户可通过文字或语音与应用交流,支持一键生成长文。

image.png

【AiBase提要:】

🔍 先进智能搜索和AI热点推荐功能

📝 多图快速合成视频、超长篇幅文章创作、智能文件内容摘要技术

💬 强大的对话交互能力,一键生成长文

2、英伟达开源新突破:新模型训练算力节省1.8倍!

英伟达开源了两款新型大模型,通过结构化剪枝和知识蒸馏训练方法,显著降低了数据和算力需求,节省了1.8倍算力成本。这一举措将AI领域推向更高效的方向,展示了英伟达在AI技术上的领导地位。

【AiBase提要:】

🚀 英伟达开源新型大模型,通过剪枝和蒸馏方法降低训练成本。

💡 结构化剪枝简化模型结构,保留权重矩阵结构,适合在GPU、TPU等硬件高效运行。

🎓 知识蒸馏提升性能,学生模型通过模仿教师模型深层理解,保持出色性能。

详情链接:https://huggingface.co/nvidia/Nemotron-4-Minitron-4B-Base

3、Midjourney网页版更新:推全新图像编辑器,应对FLUX.1挑战

Midjourney推出全新网络编辑器,整合多项图像操作,满足用户需求。更新体现紧迫感,面对FLUX.1挑战。功能创新是重要尝试,以提高用户体验和吸引用户。竞争激烈,Midjourney需保持图像质量优势,持续推出新功能保持领先地位。

【AiBase提要:】

✨ 整合多项图像操作,提高操作效率,交互逻辑清晰明了。

🔥 面对FLUX.1挑战,更新体现紧迫感,压力增加。

💡 功能创新是重要尝试,全面升级编辑器以优化用户体验。

详情链接:https://top.aibase.com/tool/midjourney

4、阿里巴巴公布2025财年Q1财报:通义大模型下载量破2000万

阿里巴巴集团公布了2025财年第一季度的业绩报告,阿里云业绩突出,营收同比增长6%,AI产品收入实现三位数增长,公共云业务增长稳健。阿里云将继续投资客户和技术领域,特别是在AI技术和基础设施方面,以保持市场领先地位。

image.png

【AiBase提要:】

🚀 阿里云营收同比增长6%,达到265.49亿元。

💡 AI产品收入实现三位数增长,经调整EBITA利润同比增长155%。

💻 阿里云全面支撑巴黎奥运会,成为独家云服务商,提供云计算及AI服务,推动赛事转播质量提升。

5、收到28页侵权告知函!秘塔AI搜索不再收录知网文献题录及摘要数据

秘塔AI搜索团队收到知网的侵权告知函,决定不再收录知网文献题录及摘要数据。团队强调知识的流动价值,表示尊重知网的选择,并将与其他知识库合作。秘塔科技致力于智能化知识发现,提供快速精准的文献查找服务。

【AiBase提要:】

💡 秘塔AI搜索收到知网侵权告知函,停止收录知网文献题录及摘要数据。

💡 知识的流动价值被强调,科学文献开放获取对知识公平获取和科学研究至关重要。

💡 秘塔AI搜索将与其他中英文权威知识库合作,推动知识的发现与传播。

6、谷歌Imagen3发布 细腻图像生成体验获好评

谷歌最新图像生成工具Imagen3在Test Kitchen平台上推出,生成细腻、光影效果更佳的图像。用户体验良好,可通过描述生成详细图像,但存在生成限制。与Grok工具相比,Imagen3过滤功能更完善,避免争议性内容。然而,谷歌早前聊天工具生成图像引发争议。

【AiBase提要:】

🖼️ 新版Imagen3在Test Kitchen平台推出,生成细腻、光影效果更佳的图像

🔍 用户可通过描述生成详细图像,编辑功能简单易用

⚠️ 存在生成限制,无法生成公众人物图像,但可绕过限制创建相似形象

7、清华大学推出超万字生成式AI系统LongWriter,挑战人类作家

清华大学研发的LongWriter AI系统突破性地能生成超过10,000字的连贯文本,为长篇写作带来新可能。AI模型输出长度与训练文本长度相关,研究团队成功提升生成文本长度。技术面临虚假信息、竞争加剧、知识产权挑战,需要合理利用与监管。

【AiBase提要:】

📚 LongWriter AI系统改变长篇写作方式

🚀 AI模型输出长度与训练文本长度相关

⚖️ 技术面临虚假信息、竞争加剧、知识产权挑战

详情链接:https://top.aibase.com/tool/longwriter

8、Pindrop推AI音频伪造检测工具Pulse Inspect

Pindrop推出的AI音频伪造检测工具Pulse Inspect准确率高达99%,为用户提供快速、准确的伪造分数反馈,帮助组织应对音频伪造风险,维护品牌信誉。该工具不局限于特定供应商的检测,覆盖多种生成工具,适用于多种音频和视频文件。Pindrop计划根据市场需求推出更实惠的定价方案,满足不同用户的需求。

image.png

【AiBase提要:】

🌟 高准确率: Pulse Inspect能以99%的准确率检测AI生成的音频伪造。

🎤 多功能应用: 适用于多种音频和视频文件,不限于特定生成工具。

📈 实惠定价: Pindrop计划根据市场需求推出更实惠的定价方案,满足不同用户的需要。

详情链接:https://www.pindrop.com/products/pulse-inspect

9、谷歌AI生成的搜索摘要改变引用来源展示方式

谷歌推出的AI生成的搜索摘要在全球六个国家展开,改变了用户获取信息的方式,提高了用户的导航体验。用户可以保存摘要并简化内容,同时新增的链接展示方式让用户更方便找到感兴趣的内容。谷歌在不断完善功能的同时,也面对挑战并采取措施确保质量和安全。

image.png

【AiBase提要:】

🌍 AI 生成搜索摘要在六个国家推出,改变了引用来源的展示方式。

🔗 新增的链接展示方式让用户更方便找到感兴趣的内容。

💾 用户可以保存 AI 摘要,便于日后查看,同时增加了简化功能。

10、AI监控画面惊呆网友!马斯克竟在超市当起小偷?Grok+Flux=恶搞无限

文章揭示了网友们利用AI恶搞工具Grok和Flux展开的狂欢活动,虚拟世界中的无限可能性。马斯克被恶搞成超市小偷,引发网友疯狂讨论和围观。尽管AI的创作范围广泛,但也引发了对道德底线和安全意识的担忧。马斯克则认为这是一个乐趣和创意的过渡阶段,展现了对AI发展的大胆态度。

image.png

【AiBase提要:】

🤖 AI恶搞工具Grok和Flux带来前所未有的虚拟世界狂欢活动

🤣 网友们创作出荒诞画面,包括马斯克在超市当小偷和川普与马斯克互动等

⚠️ 对AI道德底线和安全意识的担忧,以及马斯克对AI发展的大胆态度

详情链接:https://x.com/skirano/status/1824146538463191540https://x.com/dreamingtulpa/status/1824202643935248734

11、李飞飞AI初创公司World Labs2个月内完成2轮融资 估值超10亿美元

在人工智能领域,由斯坦福大学著名AI教授李飞飞创立的神秘创业公司World Labs引起广泛关注。公司在短短两个月内完成两轮融资,估值超过10亿美元,展现出投资者对其潜力的巨大信心。虽然商业模式尚需验证,但其专注于三维AI技术的快速发展令人期待。

【AiBase提要:】

🚀 知名科学家创业受追捧,李飞飞的声誉吸引大量投资。

🌐 三维数据的重要性日益增长,AI模型需求多样化。

💰 融资速度加快,AI领域投资热度高,商业化挑战仍需时间验证。

12、AI视频聊天对象居然比真人还会聊?TavusAI员工反应速度让你怀疑人生!

Tavus的创业小分队推出了神器级视频聊天AI,Conversational Replicas by Tavus,引发科技圈轩然大波。这款AI不仅反应速度惊人,还能根据表情变化做出反应,简直让人怀疑是真人操作。用户可与虚拟同事卡特互动,体验其幽默风趣,快如闪电的反应速度。Tavus还提供多种AI角色选择和自定义对话背景,技术革新不断,速度与激情并存。

【AiBase提要:】

🚀 反应速度惊人,堪比真人,栩栩如生。

🤖 卡特互动有趣,幽默风趣,解围及时。

💡 提供多种AI角色选择和自定义对话背景,技术革新不断。

详情链接:https://www.tavus.io/careers

13、Geekbench推出新AI基准测试,评估设备处理AI任务的性能

作为最新推出的跨平台工具,Geekbench AI专注于评估设备在AI密集型工作负载下的表现。通过测量CPU、GPU和NPU,它能够判断设备在处理机器学习应用程序时的能力。用户可以在多个平台上下载并测试设备的AI处理能力,了解设备在AI任务上的性能表现。

image.png

【AiBase提要:】

🖥️ Geekbench AI是一个新的基准测试工具,专注于评估设备在AI任务上的性能。

⚙️ 它通过测量CPU、GPU和NPU,并支持多种机器学习框架,提供准确性和速度的评估。

📱 该工具现已上线,用户可以在多个平台上下载并测试设备的AI处理能力。

举报

  • 相关推荐
  • 大家在看
  • Canvas:与ChatGPT协作的新方式

    Canvas是OpenAI推出的一个新界面,旨在通过与ChatGPT的协作来改进写作和编码项目。它允许用户在一个单独的窗口中与ChatGPT一起工作,超越了简单的聊天界面。Canvas利用GPT-4o模型,能够更好地理解用户的上下文,并提供内联反馈和建议。它支持直接编辑文本或代码,并提供快捷操作菜单,帮助用户调整写作长度、调试代码等。Canvas还支持版本回溯,帮助用户管理项目的不同版本。

  • Text Behind Image:轻松创建文字背景图片设计。

    Text Behind Image 是一个开源的设计工具,允许用户轻松创建文字背景图片设计。它提供了一个简洁的界面,让用户可以自由地在图片上添加文字,创造出独特的视觉效果。这个工具对于设计师、社交媒体运营者和内容创作者来说非常有用,因为它可以快速生成具有吸引力的视觉内容。

  • torchao:PyTorch原生量化和稀疏性训练与推理库

    torchao是PyTorch的一个库,专注于自定义数据类型和优化,支持量化和稀疏化权重、梯度、优化器和激活函数,用于推理和训练。它与torch.compile()和FSDP2兼容,能够为大多数PyTorch模型提供加速。torchao旨在通过量化感知训练(QAT)和后训练量化(PTQ)等技术,提高模型的推理速度和内存效率,同时尽量减小精度损失。

  • LFMs:新一代生成式AI模型

    Liquid Foundation Models (LFMs) 是一系列新型的生成式AI模型,它们在各种规模上都达到了最先进的性能,同时保持了更小的内存占用和更高效的推理效率。LFMs 利用动态系统理论、信号处理和数值线性代数的计算单元,可以处理包括视频、音频、文本、时间序列和信号在内的任何类型的序列数据。这些模型是通用的AI模型,旨在处理大规模的序列多模态数据,实现高级推理,并做出可靠的决策。

  • NVLM-D-72B:前沿的多模态大型语言模型

    NVLM-D-72B是NVIDIA推出的一款多模态大型语言模型,专注于视觉-语言任务,并且通过多模态训练提升了文本性能。该模型在视觉-语言基准测试中取得了与业界领先模型相媲美的成绩。

  • gradio-bot:将Hugging Face Space或Gradio应用转化为Discord机器人

    gradio-bot是一个可以将Hugging Face Space或Gradio应用转化为Discord机器人的工具。它允许开发者通过简单的命令行操作,将现有的机器学习模型或应用快速部署到Discord平台上,实现自动化交互。这不仅提高了应用的可达性,还为开发者提供了一个与用户直接交互的新渠道。

  • AI-Powered Meeting Summarizer:会议语音转文本并自动生成摘要的AI工具

    AI-Powered Meeting Summarizer是一个基于Gradio的网站应用,能够将会议录音转换为文本,并使用whisper.cpp进行音频到文本的转换,以及Ollama服务器进行文本摘要。该工具非常适合快速提取会议中的关键点、决策和行动项目。

  • VARAG:视觉增强的检索与生成系统

    VARAG是一个支持多种检索技术的系统,优化了文本、图像和多模态文档检索的不同用例。它通过将文档页面作为图像嵌入,简化了传统的检索流程,并使用先进的视觉语言模型进行编码,提高了检索的准确性和效率。VARAG的主要优点在于它能够处理复杂的视觉和文本内容,为文档检索提供强大的支持。

  • JoyHallo:数字人模型,支持生成普通话视频

    JoyHallo是一个数字人模型,专为普通话视频生成而设计。它通过收集来自京东健康国际有限公司员工的29小时普通话视频,创建了jdh-Hallo数据集。该数据集覆盖了不同年龄和说话风格,包括对话和专业医疗话题。JoyHallo模型采用中国wav2vec2模型进行音频特征嵌入,并提出了一种半解耦结构来捕捉唇部、表情和姿态特征之间的相互关系,提高了信息利用效率,并加快了推理速度14.3%。此外,JoyHallo在生成英语视频方面也表现出色,展现了卓越的跨语言生成能力。

  • PhysGen:基于物理的图像到视频生成技术

    PhysGen是一个创新的图像到视频生成方法,它能够将单张图片和输入条件(例如,对图片中物体施加的力和扭矩)转换成现实、物理上合理且时间上连贯的视频。该技术通过将基于模型的物理模拟与数据驱动的视频生成过程相结合,实现了在图像空间中的动态模拟。PhysGen的主要优点包括生成的视频在物理和外观上都显得逼真,并且可以精确控制,通过定量比较和全面的用户研究,展示了其在现有数据驱动的图像到视频生成工作中的优越性。

  • Whisper large-v3-turbo:高效自动语音识别模型

    Whisper large-v3-turbo是OpenAI提出的一种先进的自动语音识别(ASR)和语音翻译模型。它在超过500万小时的标记数据上进行训练,能够在零样本设置中泛化到许多数据集和领域。该模型是Whisper large-v3的微调版本,解码层从32减少到4,以提高速度,但可能会略微降低质量。

  • Realtime API:低延迟的实时语音交互API

    Realtime API 是 OpenAI 推出的一款低延迟语音交互API,它允许开发者在应用程序中构建快速的语音到语音体验。该API支持自然语音到语音对话,并可处理中断,类似于ChatGPT的高级语音模式。它通过WebSocket连接,支持功能调用,使得语音助手能够响应用户请求,触发动作或引入新上下文。该API的推出,意味着开发者不再需要组合多个模型来构建语音体验,而是可以通过单一API调用实现自然对话体验。

  • Saylo AI:探索无限的AI角色扮演游戏。

    Saylo AI是一个AI角色扮演游戏,让你与AI角色互动,探索多样化的戏剧性故事。它利用人工智能技术,提供沉浸式的互动体验,让玩家在虚拟世界中与AI朋友交流,体验不同的故事情节。Saylo AI的背景信息展示了其创新性和娱乐性,旨在为玩家提供一种全新的娱乐方式。目前产品处于推广阶段,价格未明确标注。

  • twinny:Visual Studio Code的免费且私密的AI扩展

    twinny是一个为Visual Studio Code用户设计的AI扩展,旨在提供个性化的编程辅助,提高开发效率。它通过集成先进的AI技术,帮助开发者在编码过程中快速解决问题,优化代码,并提供智能提示。twinny的背景是响应开发者对于更加智能和自动化编程工具的需求,它通过简化开发流程,减少重复劳动,从而让开发者能够专注于更有创造性的工作。

  • Buildpad:构建人们真正想要的产品

    Buildpad 是一个旨在帮助创始人从概念到成功最小可行产品(MVP)的在线平台。它通过提供智能验证工具、AI引导的开发流程、进度跟踪以及个性化的项目见解,帮助用户构建能够获得市场认可的产品。Buildpad 的主要优点包括简化产品开发流程、提高产品成功率、以及提供个性化的指导和支持。

  • Novela:AI时代的技能学习平台

    Novela是一个专注于AI时代技能学习的在线平台,提供早期访问服务,用户可以免费试用。它旨在帮助用户掌握AI相关的技能,以适应未来职场的需求。

  • interview.co:视频面试软件,简化招聘流程

    interview.co是一个专注于简化招聘流程的视频面试软件。它通过提供在线视频面试、AI问题生成器和面试管理工具,帮助企业高效地筛选和评估候选人。产品背景信息显示,interview.co旨在解决传统面试中的时间消耗、日程安排困难和成本高昂等问题。价格方面,interview.co提供试用版,具体定价信息需进一步探索。

  • Open NotebookLM:将任何PDF转换为播客集!

    Open NotebookLM是一个利用开源语言模型和文本到语音模型的工具,它可以处理PDF内容,生成适合音频播客的自然对话,并将其输出为MP3文件。该项目的灵感来自于NotebookLM工具,通过使用开源的大型语言模型(LLMs)和文本到语音模型来实现。它不仅提高了信息的可访问性,还为内容创作者提供了一种新的媒体形式,使他们能够将书面内容转换为音频格式,扩大其受众范围。

  • Chital:macOS平台的Ollama模型聊天应用

    Chital是一个为macOS平台设计的应用程序,它允许用户与Ollama模型进行聊天。这个应用具有低内存占用和快速启动的特点,支持多聊天线程,能够在不同的模型间切换,并支持Markdown格式。此外,它还能自动为聊天线程生成标题摘要。Chital的开发主要是为了满足开发者个人的使用需求,但也鼓励社区成员通过fork代码库来添加新功能。

  • SafeEar:保护隐私的音频深度检测

    SafeEar是一个创新的音频深度检测框架,它能够在不依赖于语音内容的情况下检测深度音频。这个框架通过设计一个神经音频编解码器,将语义和声学信息从音频样本中分离出来,仅使用声学信息(如韵律和音色)进行深度检测,从而保护了语音内容的隐私。SafeEar通过在真实世界中增强编解码器来提高检测器的能力,使其能够识别各种深度音频。该框架在四个基准数据集上的广泛实验表明,SafeEar在检测各种深度技术方面非常有效,其等错误率(EER)低至2.02%。同时,它还能保护五种语言的语音内容不被机器和人类听觉分析破译,通过我们的用户研究和单词错误率(WER)均高于93.93%来证明。此外,SafeEar还构建了一个用于反深度和反内容恢复评估的基准,为未来在音频隐私保护和深度检测领域的研究提供了基础。

今日大家都在搜的词: