logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Tokenizers:HuggingFace 开源的极速分词引擎

HuggingFace开源的Tokenizers项目是一个基于Rust实现的极速分词引擎,支持BPE、WordPiece和Unigram三种主流分词算法,覆盖GPT、BERT等主流模型的预处理需求。其核心优势在于超高性能(1GB文本20秒内处理完成)和易用API,支持训练自定义分词器只需几行代码。项目还提供对齐追踪、多语言绑定和预处理一站式功能,适用于NLP研究和生产环境。目前该项目已获得10,7

#人工智能#其他
Jupyter:交互式计算的开源基石

Jupyter是一款开源的交互式计算工具,在数据科学领域广受欢迎。它通过浏览器提供一体化编程环境,将代码编写、结果运行、图表展示和文档记录整合在同一个界面中,显著提升了数据分析效率。Jupyter项目家族包括Notebook、Lab、Hub和Book等多个组件,支持从个人开发到团队协作的不同场景。该项目采用Sphinx构建文档,支持实时预览。目前Jupyter已成为Python数据科学生态的基础设

#jupyter#ide#python +1
DGL:14k Star 的图深度学习框架

DGL(Deep Graph Library)是亚马逊和纽约大学联合开源的一款图深度学习框架,拥有14k+ Star。它支持PyTorch、TensorFlow和MXNet,提供GPU原生支持,简化图数据管理。内置高效消息传递原语和多种GNN模型实现,支持分布式训练,可处理十亿级节点图数据。提供分层学习资料和中文文档,安装便捷,适合从初学者到研究者的各类用户。DGL是OGB等标准评测平台的推荐框架

#深度学习#人工智能#其他
到底了