首页 > 业界 > 关键词  > MM1最新资讯  > 正文

今日AI:苹果大模型MM1入场;Sora训练数据来源竟来自这;全球最快AI芯片WSE-3发布;阿里邀请AI参加数学竞赛

2024-03-15 15:37 · 稿源:站长之家

欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

QQ截图20240315154743.png

📰🤖📢AI新鲜事

苹果大模型MM1入场:参数达到300亿 超半数作者是华人

【AiBase提要:】

🍎 苹果发布大型多模态基础模型MM1,拥有300亿参数,MoE架构,超半数作者是华人。

👥 MM1在多模态领域表现出竞争力,标志着苹果在该领域的重要进展。

🔮 该模型为未来苹果可能推出的产品奠定了技术基础,对GenAI领域发展具有重要意义。

论文地址:https://arxiv.org/pdf/2403.09611.pdf

全球最快AI芯片WSE-3发布 性能碾压H100!

image.png

【AiBase提要:】

🌟 WSE-3采用4万亿晶体管5nm制程,拥有125FP16PetaFLOPS性能,比H100GPU强大。

🌟 单机可训练24万亿参数的模型,具备90万个AI核心和44GB片上SRAM存储。

🌟 Cerebras的CS-3超算可训练比GPT-4和Gemini大十倍的下一代前沿大模型。

Midjourney禁止用户生成拜登和特朗普图片

【AiBase提要:】

🚫 Midjourney开始禁止用户创造涉及拜登和特朗普的虚假图片,以维护选举公正性。

🤖 新政策旨在防止AI技术被用于制造虚假信息,体现了对保护选举公正性的承诺。

🛑 CEO表示公司将采取更严格的态度处理选举相关事务,遏制可能影响公正性的行为。

Claude3Haiku API发布

QQ截图20240315102558.png

【AiBase提要:】

⭐ Haiku是Anthropic发布的速度最快、最有性价比的型号

⭐ Haiku每秒可处理21,000个令牌,提供先进的视觉功能。

⭐ 只需1美元就可以处理和分析400起最高法院案件或2500张图片

产品入口:https://top.aibase.com/tool/claude-3-haiku

OpenAI CTO承认Sora训练数据来源,引发争议

【AiBase提要:】

⭐️ Sora接受公开和许可数据训练,数据来源不明确引发争议;

⭐️ Sora生成视频与现实接近,需改进和适应时间;

⭐️ OpenAI计划增加音频生成功能,改进模型易用性。

阿里数赛首次向AI开放!知乎网友:给AI捏了把汗,该防止人类替考

image.png

【AiBase提要:】

⭐️ 阿里全球数学竞赛向硅基AI开放,最高奖金1万美金。

⭐️ AI参赛引发热烈讨论,挑战人类解题能力。

⭐️ AI模型表现不一,未来AI或成数学研究助手。

详情:https://www.chinaz.com/2024/0315/1603514.shtml

苹果完成收购加拿大公司 DarwinAI iOS18将有重大更新

【AiBase提要:】

🍏 苹果完成收购加拿大的DarwinAI公司,强化人工智能团队。

🍎 DarwinAI专注于开发人工智能技术,提高人工智能效率。

🍏 苹果将在iOS18和macOS15操作系统增加人工智能功能,保护用户隐私。

Meta公布Llama3训练集群细节!储备60万块H100迎接AGI

【AiBase提要:】

⭐️ Meta公开技术博客展示算力资源和AI Infra路线图

⭐️ 集群由24576个H100GPU组成,用于训练Llama3

⭐️ 存储部署采用Tectonic和Hammerspace满足数据需求

谷歌 I/O 开发者大会5月14日举行 聚焦Gemini模型与Android15

【AiBase提要:】

🌐 谷歌宣布5月14日举办2024年I/O开发者大会,通过网络直播形式进行。

📱 展示Gemini模型和Android15新功能,吸引广泛开发者关注。

💡 Gemini1.5Pro模型在处理长篇信息时表现出色,开辟新的AI发展可能性。

🤖📱💼AI应用

Devin“平替”来了!Babel Agent可自主编译代码

【AiBase提要:】

🤖 Babel Agent是类似Devin的AI软件构建Agents,能通过自主驱动的Agents解决编码、调试、测试、部署问题。

👨‍💻 Babel Agent具备自主编写和编译代码能力,能自主调试和解决问题,减少人工干预,提高开发效率。

🛠️ Babel Agent支持自主集成新发布的Claude3,具有自主修正问题和寻求人工帮助能力,提高软件稳定性。

官网:https://top.aibase.com/tool/babel-cloud

AI实时绘画系统StreamMultiDiffusion 支持局部涂抹+提示生成图片

image.png

【AiBase提要】

⭐ StreamMultiDiffusion是实时、交互式文本到图像生成系统

⭐ 根据绘制区域颜色精确控制生成内容

⭐ 红色区域生成人物,在耳朵和尾巴区域标记为狗,会根据涂抹区域生成带狗耳朵的人物

项目地址:https://top.aibase.com/tool/streammultidiffusion

Glyph-ByT5:确保AI绘画图片中文字渲染的准确性并自动排版

image.png

【AiBase提要:】

⭐ Glyph-ByT5提高图像生成中文本渲染准确性

⭐ Glyph-ByT5理解每个字母和符号确保准确显示

⭐ 可以使用GPT-4和Glyph-SDXL模型来自动化生成和优化排版布局

项目地址:https://top.aibase.com/tool/glyph-byt5

Muse Pro:一款专为iPad设计的AI实时画图应用

QQ截图20240315104047.png

【AiBase提要:】

🎨 随便涂几笔,AI都能转化为高质量图片

🎨 快速增强和放大功能,分辨率高到可以直接打印

🎨 提供丰富自定义画笔,支持图层操作,适合不同艺术风格和技巧。

应用下载地址:https://top.aibase.com/tool/muse-pro

文本转3D动画工具Cartwheel 可指定动作还可导出到任何3D程序中编辑

【AiBase提要:】

⭐ 只需输入文字提示即可生成3D动画角色。

⭐ 生成的角色是可以指定动作,还可以直接导出到任何3D程序中进行编辑

⭐ 尽管目前在测试阶段,但已能生成许多酷炫动作

排队地址:https://top.aibase.com/tool/cartwheel

图像新技术Follow-Your-Click:用户指哪动哪

【AiBase提要:】

🖱️ 用户点击或提示,就可以让图像特定区域动起来

👥 香港科技大学、腾讯、清华大学合作开发

🖼️ 用户简单点击和短语提示即可控制动画

https://top.aibase.com/tool/follow-your-click

AI图像平台Fotor推出一站式AI长视频平台Clipfly

【AiBase提要:】

🚀 Fotor正式进军视频领域,推出Clipfly平台

🎥 Clipfly集成AI视频生成、增强和编辑功能

💡 用户可完成从构思到最终视频输出的整个流程

体验地址:https://top.aibase.com/tool/clipfly

————————————

今日Midjourney提示词:春日主题古风美女

3_1710473531527_ai2023__AnimeThis_picture_shows_a_woman_wearing_traditional_Chi_54bde866-8b5a-45e5-be8b-f1602870b339_副本.png

图源备注:图片由AI生成,图片授权服务商Midjourney

垫图+Anime,This picture shows a woman wearing traditional Chinese clothing, which looks like ancient Chinese clothing, possibly Hanfu or Tangzhuang. She holds a bouquet of flowers, possibly for decoration or as a gift. Her hairstyle is also very distinctive, with her hair pulled up and fixed with a hairpin, which was a common hairstyle among ancient Chinese women.Her clothing and hairstyle suggest that this picture may be for filming a costume drama, movie, or showcasing traditional culture. Her expression is soft, her gaze looks into the distance, giving people a sense of tranquility and elegance.The background is blurry, but it can be seen that it is a natural environment with ripples, possibly lakes or rivers, which adds a soft background to the picture.Overall, this picture gives people a feeling of classicism, elegance, and tradition, which may be promoting traditional Chinese culture or showcasing the charm of ancient clothing. --ar3:4--niji6--s400

举报

  • 相关推荐
  • 大家在看
  • 51chat:全能AI助手,提供对话、搜索、写作等功能

    51chat是一个全能AI助手网站,提供对话、搜索、写作等功能。它通过大模型生成内容,帮助用户一键总结网页链接概要、生成小红书爆款内容、进行多语言翻译等。产品背景信息显示,51chat致力于提供高效、准确的AI服务,以满足用户的多样化需求。目前产品提供免费试用,具体价格和定位需进一步了解。

  • VideoMaker:免费在线工具,将文本和图片转换为视频

    VideoMaker Luma AI视频生成器是一个利用AI技术快速轻松创建高质量视频的平台,提供文本转视频和图片转视频功能,让用户能够将文本和图片转化为引人入胜的视频。该平台通过免费的AI视频制作工具和在线视频制作工具,提供了一种专业且用户友好的体验,无需任何编辑技能。Luma AI以其在AI技术领域的创新而闻名,特别是在3D建模方面。其最新的创新产品Dream Machine模型是一款AI视频生成器,可以通过文本和图片输入生成高质量、逼真的视频,具备流畅的动作和一致的背景,相较于以前的AI视频生成器是一个显著的改进。

  • Electronic-Component-Sorter:AI驱动的电子元件分类器,智能组件管理的终极解决方案。

    Vanguard-s/Electronic-Component-Sorter是一个利用机器学习和人工智能自动化识别和分类电子元件的项目。该项目通过深度学习模型,能够将电子元件分为电阻、电容、LED、晶体管等七大类,并通过OCR技术进一步获取元件的详细信息。它的重要性在于减少人工分类错误,提高效率,确保安全性,并帮助视觉障碍人士更便捷地识别电子元件。

  • URL Parser Online:在线URL解析器,将URL转换为适合大型语言模型的输入格式。

    URL Parser Online是一个在线工具,它能够将复杂的URL转换为适合大型语言模型(LLMs)使用的输入格式。这项技术的重要性在于它能够帮助开发者和研究人员更有效地处理和解析URL数据,尤其是在进行网页内容分析和数据抽取时。产品背景信息显示,随着互联网数据量的爆炸式增长,对URL的解析和处理需求日益增加。URL Parser Online以其简洁的用户界面和高效的解析能力,为用户提供了一个便捷的解决方案。该产品目前提供免费服务,定位于开发者和数据分析师。

  • AI Summarizer:全能AI摘要生成器,快速生成文本、PDF、视频摘要。

    AI Summarizer是一个强大的AI摘要生成器,支持文本、PDF、视频等多种格式的摘要生成。它通过先进的算法提取关键信息,帮助用户快速理解内容要点,提升工作和学习效率。产品支持超过50种语言,保障用户隐私,不存储任何上传文件,并提供免费的Chrome扩展插件,方便用户随时随地使用。

  • Transcribro:Android平台上的私有、设备端语音识别键盘和文字服务

    Transcribro是一款运行在Android平台上的私有、设备端语音识别键盘和文字服务应用,它使用whisper.cpp来运行OpenAI Whisper系列模型,并结合Silero VAD进行语音活动检测。该应用提供了语音输入键盘,允许用户通过语音进行文字输入,并且可以被其他应用显式使用,或者设置为用户选择的语音转文字应用,部分应用可能会使用它来进行语音转文字。Transcribro的背景是为用户提供一种更安全、更私密的语音转文字解决方案,避免了云端处理可能带来的隐私泄露问题。该应用是开源的,用户可以自由地查看、修改和分发代码。

  • Oasis:基于Transformer的实时开放世界AI模型

    Oasis是由Decart AI开发的首个可玩、实时、开放世界的AI模型,它是一个互动视频游戏,由Transformer端到端生成,基于逐帧生成。Oasis能够接收用户键盘和鼠标输入,实时生成游戏玩法,内部模拟物理、游戏规则和图形。该模型通过直接观察游戏玩法学习,允许用户移动、跳跃、拾取物品、破坏方块等。Oasis被视为研究更复杂交互世界的基础模型的第一步,未来可能取代传统的游戏引擎。Oasis的实现需要模型架构的改进和模型推理技术的突破,以实现用户与模型的实时交互。Decart AI采用了最新的扩散训练和Transformer模型方法,并结合了大型语言模型(LLMs)来训练一个自回归模型,该模型可以根据用户即时动作生成视频。此外,Decart AI还开发了专有的推理框架,以提供NVIDIA H100 Tensor Core GPU的峰值利用率,并支持Etched即将推出的Sohu芯片。

  • 三顿智能助手:多功能AI助手,提供问答、写作、绘图等智能服务。

    三顿智能助手是一个集成了多种AI功能的在线平台,它通过提供问答、写作、绘图等多种服务,帮助用户提高工作效率和创造力。该产品以其强大的AI技术背景和用户友好的界面,为用户提供了一个便捷的智能服务入口。价格方面,三顿智能助手提供免费试用,同时也提供付费服务以解锁更多功能。

  • Light Novels:AI驱动的轻小说阅读平台,提供个性化推荐和翻译

    Explore Light Novels是一个AI驱动的轻小说阅读平台,旨在通过人工智能技术打破语言障碍,为全球读者提供沉浸式的轻小说阅读体验。平台拥有数千部流行轻小说,并提供AI驱动的个性化推荐,每日更新新章节和根据读者偏好定制的新鲜内容。此外,平台还提供AI生成的文化背景注释,帮助读者深入了解故事背景,并通过AI推荐系统学习用户的轻小说偏好,推荐新作者和故事。平台还设有AI主持的全球社区讨论,以及AI生成的每日内容,确保读者总有新鲜内容可读。

  • SDXL_EcomID_ComfyUI:ComfyUI的EcomID原生支持插件

    SDXL_EcomID_ComfyUI是一个为ComfyUI提供原生SDXL-EcomID支持的插件。它通过增强肖像表示,提供更真实、审美上更令人愉悦的外观,同时确保语义一致性和更大的内部ID相似性。这个插件完全集成于ComfyUI,并且不使用diffusers,而是本地实现EcomID。它的重要性在于能够提升图像生成的质量和一致性,特别是在处理人物肖像时,能够保持不同年龄、发型、眼镜等物理变化下的内部特征一致性。

  • Promega:通过ChatGPT加速制造、销售和市场营销。

    Promega是一家在生命科学领域领先的公司,提供用于研究和应用技术的开创性生物试剂和集成系统。Promega通过自上而下地采用ChatGPT,帮助员工更高效地管理数千种产品和超过60,000个账户,从而加速产品交付到生物技术生态系统。ChatGPT的使用不仅提高了工作效率,还增强了客户关系,并在制造、销售和市场营销等多个领域发挥了重要作用。

  • Excerptor:从实体书籍中提取划线或手写标记的文本

    Excerptor是一个专门设计来从实体书籍中提取划线或手写标记文本的工具。它通过图像处理和光学字符识别技术,将书籍中的标记文本转换为数字格式,方便用户编辑和保存。这项技术的重要性在于它能够帮助用户快速从大量书籍中提取关键信息,提高研究和学习的效率。Excerptor以其高效、准确的文本识别能力和用户友好的操作界面,满足了学术研究、教育和个人学习等不同领域的需求。目前,Excerptor是免费提供给用户的,它的开发和维护由开源社区负责。

  • Spafe Code:AI代码翻译器

    Spafe Code是一个利用人工智能技术实现代码翻译的平台,它能够将代码从一种编程语言翻译成另一种编程语言。这项技术的重要性在于它能够帮助开发者跨越语言障碍,提高代码的可读性和可维护性,促进全球开发者之间的协作。Spafe Code以其高效的翻译能力、易用性和对多种编程语言的支持而受到开发者的欢迎。目前,Spafe Code提供免费试用,具体价格和定位信息需要进一步查询。

  • Browser AI Kit:在浏览器中直接运行的AI工具箱

    Browser AI Kit是一个集成了多种AI工具的平台,用户可以在浏览器中直接使用这些工具,无需安装或设置。它提供了音频转文本、去除背景、文本转语音等多种功能,并且完全免费。这个工具箱基于Transformers.js开发,强调数据安全和隐私保护,所有数据处理都在本地进行,不上传任何服务器。它的目标是为用户提供一个便捷、安全、多功能的AI工具平台。

  • Emotive AI Actors by CreatorKit:视频广告中的情感AI演员

    Emotive AI Actors by CreatorKit是一个利用人工智能技术创建用户生成内容(UGC)视频和广告的平台。它通过与真实UGC演员和内容策略师合作训练AI,使得用户能够快速创建出具有真实情感反应的视频广告。这个产品的重要性在于它能够以更低的成本、更快的速度和更好的性能来替代传统的视频制作方式,同时提供可扩展的解决方案,允许用户在几分钟内创建出100个视频广告。AI Actors的主要优点包括成本效益、快速制作、性能优越和易于扩展。

  • SELA:通过结合蒙特卡洛树搜索和基于LLM的代理来增强自动化机器学习。

    SELA是一个创新系统,它通过将蒙特卡洛树搜索(MCTS)与基于大型语言模型(LLM)的代理结合起来,增强了自动化机器学习(AutoML)。传统的AutoML方法经常产生低多样性和次优的代码,限制了它们在模型选择和集成方面的有效性。SELA通过将管道配置表示为树,使代理能够智能地探索解决方案空间,并根据实验反馈迭代改进其策略。

  • Universal-2:下一代语音AI,提供卓越的音频数据处理能力。

    Universal-2是AssemblyAI推出的最新语音识别模型,它在准确度和精确度上超越了前一代Universal-1,能够更好地捕捉人类语言的复杂性,为用户提供无需二次检查的音频数据。这一技术的重要性在于它能够为产品体验提供更敏锐的洞察力、更快的工作流程和一流的产品体验。Universal-2在专有名词识别、文本格式化和字母数字识别方面都有显著提升,减少了实际应用中的词错误率。

  • Laminar.ai:开源全栈平台,为打造顶级LLM产品提供支持

    Laminar是一个开源的全栈平台,专注于从第一性原理出发进行AI工程。它帮助用户收集、理解和使用数据,以提高大型语言模型(LLM)应用的质量。Laminar支持对文本和图像模型的追踪,并且即将支持音频模型。产品的主要优点包括零开销的可观测性、在线评估、数据集构建和LLM链管理。Laminar完全开源,易于自托管,适合需要构建和管理LLM产品的开发者和团队。

  • HOVER:人形机器人多功能神经全身控制器

    HOVER是一个针对人形机器人的多功能神经全身控制器,它通过模仿全身运动来提供通用的运动技能,学习多种全身控制模式。HOVER通过多模式策略蒸馏框架将不同的控制模式整合到一个统一的策略中,实现了在不同控制模式之间的无缝切换,同时保留了每种模式的独特优势。这种控制器提高了人形机器人在多种模式下的控制效率和灵活性,为未来的机器人应用提供了一个健壮且可扩展的解决方案。

  • LinkedIn Hiring Assistant:LinkedIn招聘助手,助力招聘流程自动化。

    Hiring Assistant for Recruiter & Jobs是LinkedIn推出的一款AI助手,旨在帮助招聘人员自动化执行耗时的任务,从而让他们专注于更有影响力的、以人为中心的工作部分。这款产品代表了LinkedIn在利用人工智能技术优化招聘流程方面迈出的重要一步,它通过自动构建候选人管道、筛选顶级申请者、起草外展邮件甚至回答有关角色的基本问题来减轻招聘人员的工作负担。产品背景信息显示,LinkedIn一直致力于通过AI技术提升用户体验,而Hiring Assistant的推出进一步强化了这一点。产品定位于帮助招聘人员提高效率,同时保持对招聘过程的完全控制。

今日大家都在搜的词:

热文

  • 3 天
  • 7天