首页 > 业界 > 关键词  > 正文

AI日报:当前国产Sora大模型Vidu发布;Kimi Chat移动端升级;通义千问开源千亿参数模型;苹果计划与 OpenAI 合作

2024-04-28 15:08 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

1、清华团队发布视频大模型Vidu 可生成16 秒、1080P 视频

清华大学与生数科技在中关村论坛未来人工智能先锋论坛上发布了中国首个长时长、高一致性、高动态性视频大模型Vidu,标志着中国在视频生成技术领域取得重要进展。该模型采用创新性的U-ViT架构,能一键生成高清视频内容,具备高时空一致性和丰富的想象力。

image.png

【AiBase提要:】

🎥 Vidu是中国首个长时长、高一致性、高动态性视频大模型

🌟 融合Diffusion与Transformer技术,能一键生成长达 16 秒、1080P的高清视频内容。

🚀 不仅能模拟真实物理世界,还具备丰富的想象力,支持多镜头生成

产品入口:https://top.aibase.com/tool/vidu

2、通义千问团队开源首个千亿参数模型Qwen1.5-110B

通义千问团队开源的首个千亿参数模型Qwen1.5-110B在基础能力和Chat评估中表现出色,展示了模型规模扩展对性能提升的重要意义。该模型采用Transformer解码器架构,支持多种语言,具有高效的分组查询注意力机制。Qwen1.5-110B是通义千问系列中规模最大的模型,拥有超过1000亿参数,在与SOTA模型的比较中表现出色。团队将继续探索模型规模提升和扩展预训练数据规模的优势。

【AiBase提要:】

🌟 Qwen1.5-110B是首个拥有超过1000亿参数的模型,在Chat评估中表现更好,展示了更大规模模型的潜力。

🔍 110B模型的性能提升主要来自于增加的模型规模,而训练方法并未大幅改变,表明模型规模扩展对性能提升具有重要意义。

💡 Qwen1.5-110B采用Transformer解码器架构,支持多种语言,具有高效的分组查询注意力机制,展示了在模型大小扩展方面仍有提升空间。

模型链接:https://top.aibase.com/tool/qwen1-5-110b

3、Kimi Chat移动端UI大幅重构

Kimi Chat移动端应用迎来了重要的更新,版本1.2.1对用户界面进行了全面的重构,引入了“月之亮面”浅色模式,提供更加舒适和直观的用户体验。更新包括界面改进、性能优化、内存管理、电池效率、功能增强、安全性提升、兼容性改进、错误修复、本地化支持和辅助功能。用户只需更新至最新版本1.2.1即可体验新功能。

image.png

【AiBase提要:】

🎨 界面改进: 界面重新设计,美观易用,操作更直观。

⚡ 性能优化: 提升响应速度和流畅度,减少卡顿和延迟。

🔒 安全性提升: 增强应用安全性,保护用户数据和隐私。

详情链接:https://top.aibase.com/tool/kimi-chat

4、Domo AI新增乐高、美国漫画等4个风格 新用户可免费试用15个点数

DomoAI最近新增了乐高风格、美国漫画风格、彩笔风格、像素艺术四个新风格,并且为庆祝其推特账号粉丝超过1万,新用户可免费试用15个点数。此前,DomoAI推出了视频色度抠图功能,用户可以将扣出的人物合成到新背景中。用户还可以轻松自定义后台背景颜色,制作跳舞视频等功能。

image.png

【AiBase提要:】

🎨 DomoAI新增了乐高风格、美国漫画风格、彩笔风格、像素艺术四个新风格

🔑 新用户可免费试用15个点数

💃 用户可以使用 /move 命令将静态照片变成动态视频

详情链接:https://top.aibase.com/tool/domoai

5、苹果计划与 OpenAI 合作,加强 iPhone 人工智能功能

苹果寻求与 OpenAI 合作,以提升 iPhone 的人工智能功能。前任机器学习总监离职后,苹果人工智能发展步履维艰。苹果可能在全球开发者大会前推出新的生成式人工智能产品。

【AiBase提要:】

📌 苹果寻求与 OpenAI 合作,提升 iPhone 的人工智能功能。

📌 前任机器学习总监离职后,苹果人工智能发展步履维艰。

📌 苹果可能在全球开发者大会前推出新的生成式人工智能产品。

6、谷歌推出 AI 英语对话练习功能

谷歌最近推出了AI语音对话练习功能,让用户可以通过手机与对话机器人进行英语会话练习。虽然功能目前仅限于部分国家使用,但谷歌可能会将其扩展到更多国家。文章介绍了谷歌的语言学习工具提供的对话练习和反馈功能,以及其在AI辅助语言学习领域的发展。

image.png

【AiBase提要:】

🎙️ 谷歌推出AI语音对话练习功能,让用户通过手机与对话机器人进行英语会话练习。

🌐 目前功能仅限于部分国家使用,但可能会扩展到更多国家。

💬 虽然缺乏像Duolingo等应用的课程设置,但提供了对话练习和反馈功能。

7、元象开源首个多模态大模型XVERSE-V

作为元象公司发布的首个多模态大型模型,XVERSE-V在多个权威评测中表现优异,综合能力出色。该模型融合整体和局部信息的策略,提高了图像识别和分析的准确性和全面性。除了图像识别,XVERSE-V在信息图理解、视障场景处理、文本生成、教育解题等实际应用中也表现突出。

image.png

【AiBase提要:】

🌟 XVERSE-V是首个多模态大型模型,支持任意宽高比的图像输入

🔍 该模型在综合能力上表现出色,取得优异成绩

💡 XVERSE-V采用融合整体和局部信息的策略,提高图像识别和分析的准确性和全面性

详情链接:https://huggingface.co/xverse/XVERSE-V-13BModelScope

8、Perplexica:开源AI驱动的问答搜索引擎

Perplexica是一个开源的AI驱动搜索引擎,提供多种搜索模式,旨在为用户提供更精准、更智能的搜索体验。它具有先进的机器学习算法,确保用户隐私和提供最新的搜索结果。Perplexica致力于成为全面、高效的搜索解决方案。

image.png

【AiBase提要:】

🔍 提供多种搜索模式,根据用户需求调整搜索算法,以获得更相关的搜索结果。

🔍 使用先进的机器学习算法来精细化搜索结果,包括相似性搜索和嵌入技术。

🔍 确保隐私保护,使用SearxNG作为当前性保障,避免每日数据更新的开销。

详情链接:https://top.aibase.com/tool/perplexica

9、Meta 推出 LayerSkip:提升大语言模型推理速度

Meta公司最新发布的LayerSkip技术旨在提升大型语言模型的推理速度,通过优化推理过程,减少计算资源消耗,保持模型性能。这对实时需求高的应用场景具有重要意义,反映了Meta在AI模型效率方面的持续投入和创新。LayerSkip技术的未来展望将为大语言模型的部署和使用带来更多可能性,特别是在需要快速处理大量语言数据的场合。

【AiBase提要:】

🚀 LayerSkip在CNN/DM文档摘要任务中将推理速度提升了2.16倍,显著提高了文档处理效率。

⚡ LayerSkip在编程任务中实现了1.82倍的速度提升,可能优化编程辅助工具的性能。

💡 LayerSkip在TOPv2语义解析任务上推理速度提升达到了2.0倍,对语义解析等自然语言处理任务有重要影响。

论文:https://huggingface.co/papers/2404.16710

10、调查显示:1/3的翻译者和1/4的插画师已经因AI失去了工作

AI技术的快速发展对创意产业造成深远影响,英国作家协会的调查揭示了AI对作家、翻译者、插画师等职业的影响,引发了行业内的担忧和呼吁。

【AiBase提要:】

🤖 约五分之一的创作者在工作中使用过生成性AI,AI技术已经开始渗透到各个创作领域。

💼 1/4的插画师和1/3的翻译者因生成性AI失去了工作,工作机会受到直接威胁。

💰 大多数小说家和非小说类作家担心AI技术将对未来创意工作收入产生负面影响,强烈呼吁获得版权保护和政府监管。

11、WebLlama:基于Llama-3-8B的智能网页浏览代理

WebLlama是一款基于Llama-3-8B模型的智能代理工具,通过对话与用户互动,执行网页浏览相关任务。它能处理连续对话,理解用户指令,自动完成网上搜索、导航和信息检索等操作。WebLlama展示了强大的对话处理能力和网页交互功能,提高用户获取信息效率,减少手动操作需求。在专业基准测试中表现优异,具有先进性和实用性,有望在自动化网页浏览和信息收集方面发挥更大作用。

【AiBase提要:】

🗣️ 对话理解: 能听取用户指令,与用户交互。

🌐 自动网页浏览: 执行搜索、导航,帮助用户获取信息。

🤖 完成复杂任务: 能预定酒店、购物或查找信息等实际应用任务。

详情链接:https://top.aibase.com/tool/webllama

12、Mutable AI发布Auto Wiki v2:将代码转换为类似于维基百科风格的文章

Mutable AI推出的Auto Wiki v2是一款革命性的工具,能够自动将代码转化为维基百科风格的文章,解决了代码文档化难题。这一创新解决方案提供了清晰描述的代码文档,可视化理解代码,提升开发效率。

image.png

【AiBase提要:】

🤖 自动将代码转化为维基百科风格文章,解决代码文档化难题。

📝 自动生成清晰描述的代码文档,可视化理解代码。

⚙️ 提供代码图表、自动更新文档等多项功能,提升开发效率。

详情链接:https://top.aibase.com/tool/mutable

13、Cog-Become-Image:将任意人物图像转换成指定风格的图

Cog-Become-Image项目是一个创新的图像转换工具,可以将任意人物的面部图像转换成另一种风格的图片。该项目在艺术创作、媒体制作和娱乐行业有广泛的应用前景,为图像转换领域带来新的可能。无论是专业开发者还是技术爱好者,都可以利用这个项目来实现创意图像的转换。

image.png

【AiBase提要:】

🎨 面部图像转换: 用户可以将2D动漫人物或其他风格的人脸图像转换成逼真的真人图像。

🎥 动画视频制作: 转换后的图像可以进一步利用Hyper AI等工具制作成动画视频。

🛠 易于使用: 项目提供了Replicate和ComfyUI两种运行模型的方式,使得用户可以轻松地进行图像转换。

项目地址:https://top.aibase.com/tool/cog-become-image

试玩地址:https://replicate.com/fofr/become-image

14、PhysDreamer:让3D物体符合物理规律动起来

通过视频生成模型学习的物体动态先验知识,实现静态3D物体对新型交互的真实响应。PhysDreamer利用物理学方法赋予静态3D物体交互式动态,提升虚拟体验的真实感和吸引力。研究提出的PhysDreamer为静态3D物体动态响应提供了一种物理合理的方式。

image.png

【AiBase提要:】

🌟 通过视频生成模型学习的物体动态先验知识,实现静态3D物体对新型交互的真实响应。

🌟 PhysDreamer利用物理学方法赋予静态3D物体交互式动态,提升虚拟体验的真实感和吸引力。

🌟 研究提出的PhysDreamer为静态3D物体动态响应提供了一种物理合理的方式。

详情链接:https://top.aibase.com/tool/physdreamer

举报

  • 相关推荐
  • 大家在看
  • Voice Pen:语音转文字的智能助手

    Voice Pen是一款利用人工智能技术将语音转换为文字的应用程序,它支持超过50种语言,使用OpenAI的Whisper技术提供完美的转录和标点。用户可以使用Voice Pen记录语音,生成笔记、摘要、电子邮件、消息、博客帖子等。此外,它还具备AI重写功能,帮助用户清晰地组织文本、总结、制作列表、创建博客/帖子/推文、Instagram标题和电子邮件。Voice Pen注重用户隐私,不收集任何录音或文本数据。

  • Eternity AC:创建您的数字克隆,超越限制,实现自我不朽。

    eternity.ac是一个提供数字克隆服务的平台,允许用户创建具有自己思想、声音和外观的数字克隆体。这项技术突破了传统的交流和表达方式,使用户能够以全新的形式与世界互动。产品背景信息显示,eternity.ac致力于推动数字存在技术的革命,为用户提供一种全新的自我表达和社交方式。

  • Dropbase:快速构建自定义后台操作软件的开发者平台

    Dropbase是一个为开发者设计的平台,旨在快速且无痛地构建自定义的内部工具和后台操作软件。它通过自然语言声明应用、UI预览、拖放调整、输入行为生成代码、代码运行和追踪调试等功能,帮助开发者摆脱低代码/无代码开发的局限。Dropbase支持与现有的CRM、计费和支持工具集成,提供如管理面板、审批仪表板、数据编辑器、云控制台和通知系统等多样化的内部软件组件,并且完全使用Python编写,提供代码的灵活性和重用性。

  • Socap.ai:利用AI帮助创始人和投资者快速扩展网络和融资

    Socap.ai是一个利用人工智能技术帮助创始人和投资者扩展社交网络和加速融资流程的平台。它通过提供智能匹配、社交资本共享和协作功能,使创业者能够更有效地与潜在的投资者和合作伙伴建立联系。Socap.ai背后的理念是利用社交网络的力量,通过有针对性的介绍和社区支持,帮助创业者实现其商业目标。

  • TrustLoop:AI驱动的反馈与评论自动化平台

    TrustLoop是一款专注于商业领域的在线平台,利用人工智能技术帮助企业自动化收集用户反馈和评论。它通过在合适的时机引导用户留下5星好评,从而加速产品市场契合度,构建社会信任。平台易于设置,只需两行代码即可集成到网站,且完全可定制,不拖慢网站速度。TrustLoop还提供共享团队邮箱,确保团队成员能够及时获取反馈信息,快速响应客户。

  • AI Signature Generator:创建个性化和专业的电子签名。

    AI Signature Generator是一个强大的工具,允许用户轻松创建自己的电子签名。无论是数字文档签名、PDF和Word文档下载签名,还是电子邮件添加签名,这个工具都简化了整个过程。它完全免费,提供无限下载,快速渲染,并且具有用户友好的界面。

  • Butterflies AI:释放你的想象力,与AI角色创造、聊天、共处。

    Butterflies AI是一款允许用户与AI角色进行创造、聊天和社交的应用程序。它利用先进的人工智能技术,为用户提供一个富有想象力的互动平台,让用户能够与虚拟角色进行深入的交流和创造活动。

  • Puppeteer:数字医疗助手,提升患者体验。

    Puppeteer是一款数字医疗助手,通过生成式人工智能技术,提供类似人类的对话式患者入院表单,以增强患者体验并从数字入院表单中获取最大价值。产品具备实时检查患者答案、根据患者情况提供高质量问题、为医生决策提供总结化相关信息等功能。

  • Amplication:AI驱动的后端代码生成平台

    Amplication是一个开源的、强大的开发平台,旨在革新.NET和Node.js应用程序的创建过程。它通过AI技术将想法快速转化为生产就绪的代码,自动化后端应用程序开发,确保一致性、可预测性,并符合最高标准。Amplication的用户友好界面促进了API、数据模型、数据库、认证和授权的无缝集成。它基于灵活的插件架构构建,允许轻松定制代码,并提供多样化的集成选项。Amplication专注于协作,简化了面向团队的开发,使其成为从初创公司到大型企业各规模团队的理想选择。

  • ComfyUI-Hallo:一个定制的ComfyUI节点,用于Hallo模型。

    ComfyUI-Hallo是一个为Hallo模型定制的ComfyUI插件,它允许用户在命令行中使用ffmpeg,并从Hugging Face下载模型权重,或者手动下载并放置在指定目录。它为开发者提供了一个易于使用的界面来集成Hallo模型,从而增强了开发效率和用户体验。

  • AI Word Summarizer:AI驱动的文档摘要工具,快速生成文档摘要。

    AI Word Summarizer是一款利用高级人工智能技术快速生成Microsoft Word文档摘要的在线工具。它通过用户友好的在线界面,帮助用户节省时间,提高工作效率。该工具支持将DOCX/DOC格式的文档转换为文本,并在几秒钟内生成摘要。它还提供了与文档对话的功能,允许用户提出问题并获得即时的洞察和澄清。

  • AI Math GPT Solver Powered by GPT-4o:AI驱动的数学问题解决器

    AI Math GPT Solver是一个由GPT-4o提供动力的在线数学问题解决平台,它覆盖了代数、微积分和几何等数学领域,集成了微软数学求解器等领先技术,提供快速、准确的解决方案。该平台通过网页和移动应用程序提供免费、用户友好的服务,允许用户随时随地解决问题。

  • GPT4o.so:革命性AI技术,多模态智能互动

    GPT-4o是OpenAI的最新创新,代表了人工智能技术的前沿。它通过真正的多模态方法扩展了GPT-4的功能,包括文本、视觉和音频。GPT-4o以其快速、成本效益和普遍可访问性,革命性地改变了我们与AI技术的互动。它在文本理解、图像分析和语音识别方面表现出色,提供流畅直观的AI互动,适合从学术研究到特定行业需求的多种应用。

  • 知闻AI:基于AI技术的新闻聚合平台

    知闻AI是一个利用人工智能技术为用户提供高质量新闻内容的新闻聚合平台。它通过分析大量新闻源,筛选出准确、及时的新闻,帮助用户获取有价值的信息。平台特点包括智能评估、多元视角、AI摘要等,以提高用户的阅读效率和信息获取质量。

  • MidJourney Sref Codes Library:探索和标记您喜爱的MidJourney Sref代码。

    MidJourney Sref Codes Library是一个在线资源网站,提供MidJourney平台上的高质量Sref代码集合。这些代码用于生成具有独特和一致风格的图像,为艺术家和创作者提供了实现特定视觉效果的强大工具。

  • Humanize.im:将AI文本转化为自然人类语言。

    Humanize.im是一个先进的AI文本人性化工具,旨在将AI生成的文本转化为更自然、更具吸引力的人类语言。它利用高级算法进行上下文分析和情感分析,确保文本在上下文和情感上适当且一致,同时增强可读性和相关性。该工具支持多语言,具有跨设备功能,并且注重数据安全。Humanize.im通过持续的反馈循环不断改进,以确保生成的文本与人工撰写的文本无异,有效绕过AI检测系统如GPTZero。

  • 免费在线转换文字为语音:将文本转换为逼真语音的在线工具

    该产品是一个先进的在线文字转语音工具,使用人工智能技术将文本转换为自然逼真的语音。它支持多种语言和语音风格,适用于广告、视频旁白、有声书制作等场景,增强了内容的可访问性和吸引力。产品背景信息显示,它为数字营销人员、内容创作者、有声书作者和教育工作者提供了极大的便利。

  • Kling AI:文本到视频的革命性生成模型

    Kling AI是由快手科技开发的文本到视频生成模型,能够根据文本提示生成高度逼真的视频。它具有高效的视频生成能力,长达2分钟的30帧每秒视频,以及3D时空联合注意机制和物理世界模拟等先进技术,使其在AI视频生成领域具有显著的竞争优势。

  • LocalhostAI:与Chrome和Gemini Nano无缝协作的AI助手。

    LocalhostAI是一款旨在提高用户生产力的AI助手应用。它与Chrome浏览器和Gemini Nano设备紧密集成,使用户能够利用先进的AI模型来提升工作效率。该产品的主要优势在于其内置的Chrome AI模型、支持离线使用、注重隐私保护、运行速度快且完全免费。

  • TravelTrail:智能旅行规划助手,轻松管理你的旅程。

    TravelTrail是一款旅行规划应用,通过人工智能技术帮助用户创建和组织旅行计划。它允许用户保存梦想目的地的列表,探索每个城市的详细信息,并根据个人喜好定制旅行体验。应用支持多语言,包括中文、英文等,为用户提供了便捷的旅行规划工具,无需担心语言障碍。

今日大家都在搜的词: