首页 > 传媒 > 关键词  > 人工智能最新资讯  > 正文

专访视源股份首席技术官杨铭:将持续加大投入 释放大模型潜能

2024-05-22 15:00 · 稿源: 站长之家用户

近年来,AI热度居高不下,各行各业都在积极拥抱AI大模型。作为视听行业中的龙头上市公司,视源股份(002841)也在该领域持续加码投入,推动新一代AI技术在教育、办公等场景中实现落地。

日前,视源股份首席技术官杨铭在接受证券时记者专访时表示,目前,视源股份多款自研行业大模型已通过国家网信办备案,并应用于教育、会议等核心业务实际场景;公司还将持续加大投入,以软硬一体协同释放大模型潜能,并研究如何把大模型的能力扩充到更多的模态,进一步提升智能化水平,并探索更丰富的应用场景。

“未来,公司将重点投入以大模型为代表的人工智能技术,也在加速构建下一代音视频、交互显示、多模态理解与生成等核心技术。”杨铭说,视源股份将通过内生孵化与投资并购“双轮驱动”的方式,围绕主营业务进行新业务拓展,来寻求业绩增长点。

深耕行业大模型

“自去年以来,国内掀起了‘百模大战’。但我们从一开始,就没想着去蹭这个热点。而是切实解决实际问题,思考生成式AI能否解决这些实际问题。公司在人工智能领域的优势之一是具备软硬一体协同的能力,通过建立了软件、算法的研发能力,并基于公司的硬件和产品矩阵,能够打造出快速落地的AI创新产品。目前,公司自研的多款模型均已通过备案。同时,公司对大模型也持开放合作的态度,共同为用户提供最 好的使用体验。”谈及公司布局大模型,杨铭直言。

杨铭还表示,如果单纯依赖合作与引入头部公司的大模型,虽然能提供通用能力,但由于缺少细分领域数据和对场景需求的理解,难以满足业务中的特殊需求。基于上述考量,我们决定在大模型方向上建立自主研发能力。

他举例称,在教育业务领域,公司的一个重要目标是显著提升教师的教学质量和效率。“围绕着这个问题,我们的产品团队和技术团队开始了联合探索。我们在探索中发现即便是像GPT-4这样的顶 尖大模型,在完成这些任务时仍面临挑战。而我们覆盖了280万间教室、超800万活跃教师用户、积累8亿多份课件,在教育领域积累的庞大数据为我们投入大模型的相关研发提供了支持。我们自主训练了希沃教学大模型,拥有包括教材、教案、课件在内的多达2200亿token的训练数据,现在已经上线成为教师专属的‘助教’。此外我们也基于在会议场景数据和经验的积累,推出了MAXHUB领效智会大模型。”

“除了教育和会议领域,公司计划将这些基础模型应用于更广泛的场景中。希望通过算法研究、算力与数据等资源的投入,一方面短期内可以直接提升产品服务广度和深度;另一方面拓展技术的应用边界,挖掘在更多赛道的发展机会。”杨铭告诉记者。

实际上,作为显示交互智能科技上市公司,视源股份在AI应用层面持续深耕,这背后离不开其在研发领域的持续投入。视源股份近期发布的2023年财报显示,2023年,视源股份全年营业收入201.73亿元,其中研发投入达14.37亿元,占该年营业收入的7.12%。若把时间拉长,2017年上市以来,该公司研发投入累计超70亿元。

财报还显示,目前,视源股份已建立起了一支来自清华、北大、Apple等机构的人工智能研究团队;打造“三院一站”,即中央研究院、中央工程院、创新设计院与博士后科研工作站,并拥有在站博士后17位,以及超过百名的行业资 深博士以及专家。截至2023年12月31日,公司拥有授权专利超过9000件,拥有计算机软件著作权、作品著作权超4000件。报告期内,公司专利年申请量超过2000件,其中发明专利申请占比超49%。

谈及AI领域的未来规划,杨铭表示,首先,公司会着眼于降低大模型的成本,希望在不明显影响效果的前提下,研究如何优化大模型的计算效率和能耗,让更多人受益于新技术;其次,将拓展到多模态大模型,探索下一代的音视频、下一代的交互显示、多模态理解与生成系统等方向。另外,公司也在巩固安全,实现本地化、国产化方案方面保持持续的推进,以及致力于在有些场景下提供整套完整的大模型软硬件系统。

新业务加速拓展

值得一提的是,2023年,视源股份保持了对新业务的持续培育和拓展,并已经迎来明显进展。

财报显示,目前,视源股份还在持续推进LED、计算设备及服务、电力电子、机器人等新业务的发展。2023年,除液晶显示主控板卡、交互智能平板、家用电器控制器三大业务以外的其他营业收入达到50亿元,占比提升至25%。

其中,算力业务,目前已推出工业计算机主板系列、工业计算机整机系列等多款产品,并在运动控制类计算硬件产品、机器视觉类计算硬件解决方案等领域加大布局;新能源业务,在户用储能、UPS等领域的核心部件、整机及系统方面持续加大投入,逐步完善产品线;机器人业务,报告期内,公司商用清扫机器人已应用于部分医院、图书馆、写字楼及商场等公共场所,并持续拓展新的应用场景等。

“尽管公司产品线多样,涵盖会议、教育、机器人等领域,新业务也发展快速,但技术内核高度共通。例如,我们在会议和教育领域开发的大模型技术,不仅在这些领域运用,还为机器人智能发展奠定基础。我们组建跨领域团队,由相近技术背景团队进行协作,确保技术连贯和一致。技术本质上相辅相成,具有显著相似性。”杨鸣告诉记者。

谈及新业务拓展方面,杨铭透露,公司将通过内生孵化与投资并购“双轮驱动”的模式,围绕主营业务进行上下游及相关业务领域拓展,寻求新的业绩增长点。“内生方面,我们将依托原有业务的技术积淀,在新业务领域进一步加大研发投入,并积极构建有效的新业务团队,从而为公司的中长期成长注入创新动力。”

“公司秉承务实的理念,明确投入方向。”在整体技术规划方面,杨铭表示,公司产品设计注重软硬件的深度融合,涵盖软件与硬件技术的创新。目前,公司将重点关注与视源现有业务及未来战略紧密相关的技术领域。除了AI技术外,显示技术也是长期重点;在交互技术方面,公司已组建了领先的触觉感知与反馈团队,相关技术未来有望应用于机器人、白电等多元领域。此外,公司也在持续加强产品的连接能力,致力于构建一个协同性强的产品矩阵,而非仅依赖单一产品来解决问题。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 大家在看
  • Nemotron-4-340B-Reward:多维奖励模型,助力构建自定义大型语言模型。

    Nemotron-4-340B-Reward是由NVIDIA开发的多维奖励模型,用于合成数据生成管道,帮助研究人员和开发者构建自己的大型语言模型(LLMs)。该模型由Nemotron-4-340B-Base模型和一个线性层组成,能够将响应末尾的标记转换为五个标量值,对应于HelpSteer2属性。它支持最多4096个标记的上下文长度,并能够对每个助手轮次的五个属性进行评分。

  • Nemotron-4-340B-Instruct:NVIDIA的高级语言模型,优化于英文对话场景。

    Nemotron-4-340B-Instruct是由NVIDIA开发的大型语言模型(LLM),专为英文单轮和多轮对话场景优化。该模型支持4096个token的上下文长度,经过监督式微调(SFT)、直接偏好优化(DPO)和奖励感知偏好优化(RPO)等额外的对齐步骤。模型在约20K人工标注数据的基础上,通过合成数据生成管道合成了超过98%的用于监督微调和偏好微调的数据。这使得模型在人类对话偏好、数学推理、编码和指令遵循方面表现良好,并且能够为多种用例生成高质量的合成数据。

  • BookSlice:让阅读更有趣,用游戏化的方式增加阅读量。

    BookSlice是一款面向忙碌人群的游戏化阅读应用,通过心理学原理帮助用户建立阅读习惯,并通过设置每日挑战来维持阅读连续性。它利用实施意图、习惯叠加等心理工具,使阅读变得习惯性和上瘾。此外,BookSlice还提供AI问答功能,帮助用户在阅读过程中获得上下文答案。

  • agentUniverse:基于大型语言模型的多智能体应用开发框架

    agentUniverse 是一个基于大型语言模型的多智能体应用开发框架,提供了构建单一智能体和多智能体协作机制的所有必需组件。通过模式工厂,允许开发者构建和自定义多智能体协作模式,轻松构建多智能体应用,并分享不同技术与业务领域的模式实践。

  • HunyuanDiT Distillation Acceleration:高性能图像生成模型的蒸馏加速版本

    HunyuanDiT Distillation Acceleration 是腾讯 Hunyuan 团队基于 HunyuanDiT 模型开发的蒸馏加速版本。通过渐进式蒸馏方法,在不降低性能的情况下,实现了推理速度的两倍提升。该模型支持多种GPU和推理模式,能够显著减少时间消耗,提高图像生成效率。

  • WonderWorld:从单张图片生成交互式3D场景

    WonderWorld是一个创新的3D场景扩展框架,允许用户基于单张输入图片和用户指定的文本探索和塑造虚拟环境。它通过快速高斯体素和引导扩散的深度估计方法,显著减少了计算时间,生成几何一致的扩展,使3D场景的生成时间少于10秒,支持实时用户交互和探索。这为虚拟现实、游戏和创意设计等领域提供了快速生成和导航沉浸式虚拟世界的可能性。

  • ChatTTS_Speaker:基于ERes2NetV2模型的音色稳定性评分与音色打标。

    ChatTTS_Speaker是一个基于ERes2NetV2说话人识别模型的实验性项目,旨在对音色进行稳定性评分和音色打标,帮助用户选择稳定且符合需求的音色。项目已开源,支持在线试听和下载音色样本。

  • fastc:轻量级文本分类工具,使用大型语言模型嵌入。

    fastc是一个基于大型语言模型嵌入的简单且轻量级的文本分类工具。它专注于CPU执行,使用高效的模型如deepset/tinyroberta-6l-768d生成嵌入。通过余弦相似度分类代替微调,实现文本分类。它还可以在不增加额外开销的情况下,使用相同的模型运行多个分类器。

  • MeshAnything:3D资产的自动生成工具

    MeshAnything是一个利用自回归变换器进行艺术家级网格生成的模型,它可以将任何3D表示形式的资产转换为艺术家创建的网格(AMs),这些网格可以无缝应用于3D行业。它通过较少的面数生成网格,显著提高了存储、渲染和模拟效率,同时实现了与先前方法相当的精度。

  • HunyuanDiT-v1.1:多分辨率扩散变换器,支持中英文理解

    HunyuanDiT-v1.1是由腾讯Hunyuan团队开发的一款多分辨率扩散变换模型,它具备精细的中英文理解能力。该模型通过精心设计的变换器结构、文本编码器和位置编码,结合从头开始构建的完整数据管道,实现数据的迭代优化。HunyuanDiT-v1.1能够执行多轮多模态对话,根据上下文生成和细化图像。经过50多名专业人类评估员的全面评估,HunyuanDiT-v1.1在中文到图像生成方面与其他开源模型相比,达到了新的最先进水平。

  • UniAnimate:高效生成一致性人物视频动画的模型

    UniAnimate是一个用于人物图像动画的统一视频扩散模型框架。它通过将参考图像、姿势指导和噪声视频映射到一个共同的特征空间,以减少优化难度并确保时间上的连贯性。UniAnimate能够处理长序列,支持随机噪声输入和首帧条件输入,显著提高了生成长期视频的能力。此外,它还探索了基于状态空间模型的替代时间建模架构,以替代原始的计算密集型时间Transformer。UniAnimate在定量和定性评估中都取得了优于现有最先进技术的合成结果,并且能够通过迭代使用首帧条件策略生成高度一致的一分钟视频。

  • LVBench:长视频理解基准测试

    LVBench是一个专门设计用于长视频理解的基准测试,旨在推动多模态大型语言模型在理解数小时长视频方面的能力,这对于长期决策制定、深入电影评论和讨论、现场体育解说等实际应用至关重要。

  • Mo:通过卡片式学习,轻松掌握AI科技知识。

    Mo是一款结合超现实主义艺术和堂吉诃德理想主义精神的AI科技学习APP。它通过卡片形式,以图文、动画、视频、语音等多样化内容,使AI和科技知识的学习变得生动有趣。Mo不仅覆盖了AI的基础知识,还包含了元宇宙、大数据、大模型等前沿技术,适合各种背景的学习者,旨在打造一个个性化的学习体验。

  • 开搜AI搜索:面向大众的AI问答搜索引擎

    开搜AI问答搜索引擎是一款面向大众的、直达答案的AI问答搜索引擎,它能够帮助用户从海量的文献资料中筛选出有用的信息,提供直接、精准的答案,并且能够自动总结重点、生成大纲、思维导图并下载。

  • AI Math Notes:一个交互式绘图应用,用于数学方程的绘制和计算。

    AI Math Notes 是一个开源的交互式绘图应用程序,允许用户在画布上绘制数学方程。应用程序利用多模态大型语言模型(LLM)计算并显示结果。该应用程序使用Python开发,利用Tkinter库创建图形用户界面,使用PIL进行图像处理。灵感来源于Apple在2024年全球开发者大会(WWDC)上展示的'Math Notes'。

  • VideoTetris:文本到视频生成的创新框架

    VideoTetris是一个新颖的框架,它实现了文本到视频的生成,特别适用于处理包含多个对象或对象数量动态变化的复杂视频生成场景。该框架通过空间时间组合扩散技术,精确地遵循复杂的文本语义,并通过操作和组合去噪网络的空间和时间注意力图来实现。此外,它还引入了一种新的参考帧注意力机制,以提高自回归视频生成的一致性。VideoTetris在组合文本到视频生成方面取得了令人印象深刻的定性和定量结果。

  • Visual Sketchpad:多模态语言模型的视觉推理工具

    Visual Sketchpad 是一种为多模态大型语言模型(LLMs)提供视觉草图板和绘图工具的框架。它允许模型在进行规划和推理时,根据自己绘制的视觉工件进行操作。与以往使用文本作为推理步骤的方法不同,Visual Sketchpad 使模型能够使用线条、框、标记等更接近人类绘图方式的元素进行绘图,从而更好地促进推理。此外,它还可以在绘图过程中使用专家视觉模型,例如使用目标检测模型绘制边界框,或使用分割模型绘制掩码,以进一步提高视觉感知和推理能力。

  • GoMate:基于RAG框架的可靠输入和可信输出系统

    GoMate是一个基于Retrieval-Augmented Generation (RAG)框架的模型,专注于提供可靠输入和可信输出。它通过结合检索和生成技术,提高信息检索和文本生成的准确性和可靠性。GoMate适用于需要高效、准确信息处理的领域,如自然语言处理、知识问答等。

  • SD3-Controlnet-Canny:一种用于生成图像的深度学习模型。

    SD3-Controlnet-Canny 是一种基于深度学习的图像生成模型,它能够根据用户提供的文本提示生成具有特定风格的图像。该模型利用控制网络技术,可以更精确地控制生成图像的细节和风格,从而提高图像生成的质量和多样性。

  • Tencent EMMA:多模态文本到图像生成模型

    EMMA是一个基于最前沿的文本到图像扩散模型ELLA构建的新型图像生成模型,能够接受多模态提示,通过创新的多模态特征连接器设计,有效整合文本和补充模态信息。该模型通过冻结原始T2I扩散模型的所有参数,并仅调整一些额外层,揭示了预训练的T2I扩散模型可以秘密接受多模态提示的有趣特性。EMMA易于适应不同的现有框架,是生成个性化和上下文感知图像甚至视频的灵活有效工具。

今日大家都在搜的词:

热文

  • 3 天
  • 7天