首页 > 业界 > 关键词  > 代码最新资讯  > 正文

轻量级代码库分析工具ctoc开源

2023-10-08 11:11 · 稿源:站长之家

站长之家(ChinaZ.com)10月8日 消息:ctoc(Count Tokens of Code)是一个轻量级工具,用于分析代码库的令牌级别信息。它是基于gocloc的,具有极快的性能。这种工具允许开发者更深入地理解他们的代码,特别是在处理大型代码库时,它可以帮助开发者更有效地定位和解决问题。

在大型语言模型(LLM)的背景下,令牌计数在形成LLM的内存和对话历史时发挥着关键作用。它对于提示工程和令牌成本估算非常重要。各种提示工程策略(例如上下文过滤和重新排名)主要旨在通过对抗LLM的上下文大小限制来进行令牌压缩。ctoc可以以与cloc一致的方式使用,它包含了cloc的所有功能。

image.png

项目地址:https://github.com/yaohui-wyh/ctoc

核心功能:

1. 代码令牌计数:ctoc可以对代码库中的令牌进行计数,这对于了解代码库的复杂性和规模非常有用。它会提供有关文件、代码、注释、空白行和令牌数量的详细信息。

2. 多语言支持:支持多种编程语言,包括Go、XML、YAML、Markdown等。您可以轻松地查看不同语言在代码库中的令牌数量。

3. 高级用法:ctoc还提供了高级用法,例如按文件分别查看令牌数量,并按令牌数量对它们进行排序。这对于深入分析代码库非常有帮助。

4. 输出格式:支持多种输出格式,包括默认格式、JSON、CLOC-XML、SLOCCount等,以满足不同需求。

5. LLM模型支持:ctoc还支持多种LLM模型,包括cl100k_base、p50k_base、p50k_edit、r50k_base等,以及它们的令牌编码。这对于与不同模型的互操作性非常重要。

举报

  • 相关推荐
  • 微软CEO:公司多达 30% 的代码是由 AI 生成的!

    微软首席技术官凯文·斯科特(Kevin Scott)曾表示,预计到 2030 年,将有 95% 的代码是由 AI 生成的……

  • 理想自研车机系统“星环OS”公布开源代码

    理想汽车4月25日发布"理想星环OS技术白皮书",宣布启动车机操作系统开源计划。该项目将分三个阶段推进:4月23日已开源安全实时操作系统和通信总线模块;6月30日将开放完整智能车控系统及智能驾驶基础能力;7月后计划开源包含虚拟化引擎在内的完整智能驾驶系统。理想采用Apache License V2.0开源协议,已在Gitee平台创建开源组织。李想表示此次开源不设商业壁垒,预计可为汽车行业每年减少100-200亿元重复研发投入,推动行业技术共享与协作创新。

  • 理想自研星环OS正式开源!操作系统代码已开放下载

    理想汽车4月28日宣布自研"星环OS"操作系统正式开源,成为全球首个实现整车级操作系统全面开源的车企。该系统代码已通过Gitee平台开放下载,采用Apache License V2.0开源协议,覆盖智能车控、智能驾驶、通信中间件、信息安全四大核心模块。该系统不同于车载屏幕系统,而是整车全链路操作系统,包括车辆控制等核心功能。研发始于2021年,投入200名研发人员和10亿元人民币。系统采用资源集中与共享架构,支持英飞凌、地平线等主流车规芯片,芯片适配验证时间比传统闭源系统缩短80%。在性能方面,AI算力虚拟化损耗降低80%,传感器访问时延降低90%,存储资源占用减少30%,响应速度比AUTOSAR提升1倍。安全性能方面,120km/h高速状态下AEB刹停距离缩短7米。

  • AI日报:扣子空间开放测试;腾讯混元开源视频生成工具HunyuanCustom;阿里开源大模型搜索引擎ZeroSearch

    本文汇总了近期AI领域多项重要进展:1)扣子空间开放测试,无需邀请码即可体验AI协作平台;2)腾讯推出HunyuanCustom视频生成工具,实现音视频同步编辑;3)阿里巴巴ZeroSearch技术降低AI训练成本88%;4)OpenAI新增GitHub连接器,强化代码分析功能;5)联想发布天禧个人超级智能体,具备感知交互能力;6)OpenAI在亚洲推出数据驻留计划;7)Multiverse发布全球首款AI生成多人游戏;8)秘塔AI上线"讲题"功能辅助家长辅导;9)Genspark推出智能电子表格工具AI Sheets;10)Google Gemini API新增缓存功能可节省75%成本;11)PixVerse v4视频生成速度质量双提升;12)快手推出内容净化器KuaiMod;13)英伟达开源新一代OCR代码推理模型。这些创新覆盖AI应用、开发工具、成本优化等多个维度,展现了AI技术的快速发展和广泛应用。

  • 程序员危!微软CEO纳德拉:公司高达30%代码是AI写的

    微软CEO纳德拉在Meta的LlamaCon大会上透露,微软代码库中20%-30%的代码由AI生成,其中Python应用进展最快,C语言相对较慢。微软CTO凯文·斯科特预测到2030年,95%代码将由AI生成。谷歌CEO皮查伊也表示,谷歌超30%代码由AI生成。Meta CEO扎克伯格则未透露具体数据。由于缺乏统一的AI代码衡量标准,这些数据仅供参考。(140字)

  • 玄武云aPaaS低代码平台全面支持MCP协议

    玄武云aPaaS平台全面支持MCP协议,进一步强化了在低代码开发领域的优势。MCP是由Anthropic公司开源的AI"通用插座"协议,能实现大语言模型与外部数据源的无缝集成。该平台具备三大独特优势:原子化能力调用、非侵入式扩展能力、自主语义解析能力。接入MCP后,开发者无需处理多接口对接,一键发布即可被智能体调用,实现即开即用。该方案与现有平台完全兼容,仅需在IDE增加发布功能并搭配适配器即可使用,成本极低。未来将持续深化MCP应用场景,携手合作伙伴共创企业智慧增长。

  • AI日报:DeepSeek入选2025年度十大IP;快手推出AI作图工具 Poify;字节跳动开源代码模型Seed-Coder

    本文介绍了AI领域多项最新进展:1)快手推出电商AI作图工具Poify,提升商品展示效率;2)字节跳动开源8B参数代码模型Seed-Coder,展现强大编程能力;3)DeepSeek App入选2025全球十大IP;4)Claude AI新增网页搜索功能;5)苹果发布移动端视觉语言模型FastVLM;6)腾讯推出3D形状生成框架PrimitiveAnything;7)首个智能文档处理基准发布;8)谷歌Gemini2.5Pro实现6小时视频理解;9)研究显示简洁提问易致AI错误;10)首款AI智能浏览器Fellou发布;11)NVIDIA推出音频生成技术Audio-SDS;12)Kimi入驻小红书,转向内容深耕。这些创新展现了AI在电商、编程、多模态理解等领域的快速发展。

  • 一季度大赚345亿美元!谷歌CEO称内部超30%的代码由AI完成

    谷歌母公司Alphabet公布2025财年第一季度财报,营收902.3亿美元同比增长12%,净利润345.4亿美元大增46%,均超市场预期。核心广告和云业务保持强劲增长,YouTube订阅等业务也贡献稳定收入。CEO皮查伊特别强调AI领域突破,Gemini 2.5 Pro获开发者高度认可,AI工具用户数激增200%。公司内部AI辅助代码占比从25%提升至30%,正在研发更先进的AI代理工作流以优化开发效率。受亮眼业绩推动,盘后股价一度涨超5%。

  • 行业案例 | PCB 板多方案

    在传统的PCB生产流程中需要人工对各类元器件的标号进行检查、标记、追溯,而随着工业4. 0 时代的到来,大多企业会选择借助机器视觉技术或固定式读码器进行自动采集信息。在PCB生产过程中需要实现一次性读取PCB板上多个二维码,完成信息上传系统追溯,从而实现提高生产的效率,节约了劳动成本。读码挑战:1、生产过程中的打码质量不够高,导致对比度不足,从而影响�

  • OpenAI推出轻量版Deep Research,所有用户可用!

    OpenAI 称,由于很多用户喜欢使用 Deep Research 功能,所以将推出轻量版 Deep Research,且此版本面向所有用户开放……