logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

文本分块的优化策略-语义完整性、控制长度、重叠切分、结合模型,考虑大模型输入限制

在文本切分过程中,应尽量避免将句子拆分。句子是表达完整语义的基本单位,拆分句子可能导致语义破碎,影响向量化表示的准确性和模型对文本的理解。例如,句子中包含的主谓宾结构或修饰关系在被截断后,会失去原有的含义,使得模型难以准确捕捉文本的核心内容。

#自然语言处理
RAG分块策略,固定大小、文档结构、语义理解、多模态文档

场景:适用于文档结构较为一致,内容长度相似的情况。通常按字数、标记数或字符数。描述:将文档等分为固定大小的块,简单直接。

#自然语言处理
nlp模型加速之-oonx, tensorrt

一、模型加速原理原始的训练框架(pytorch,TensorFlow)比较重,结合GPU计算能力没那么强,利用其它快速的框架,例如onnx(微软开源),tensorrt(NVIDIA推出);二、环境准备:机器:阿里云5号机,后面是有的目录均指改机器下的目录;显卡:必须V100(32G),16G的不确定是否兼容;cuda:必须10.2,不同cuda版本有diff,cuda10.2还要打两个补丁;on

#transformer#深度学习#人工智能
NLP复述模型

方案一:seq2seq端到端生成数据来源:相似句数据:https://github.com/zejunwang1/CSTS效果:2层transformer, 生成bleu=37.7, 缺点:语句不通顺示例:句子不通顺,句子片段不通:source: = 我跟您说的是这么一件事。target = 对了,我有话要跟您说。predict = 我您, 我说 什要跟您说。source: = 不,最好把这些东西

#python#nlp
文本分类相关经验tricks

数据方面1.14个类别+其他数据:14个类别总共占比15%,其他占比大问题:难以区分的类别集中在哪里?【查看混淆矩阵】【可视化】14个类别之间or每个类别与其他问题1:14个类别之间:问题2:每个类别与其他减少其他的数量2 数据工作:干净的数据或许能够得到更好的效果数据的配比,与真实分布近似效果更好领域内样本预训练finetune截断对数据要求不是很大数据质量恶化数据分布要求更高清洗数据badca

#分类#人工智能
大模型LLM相关面试题整理-PEFT

PEFT(Performance Estimation and Modeling for Fine-Tuning)是一种用于微调任务的性能估计和建模方法。它的目的是帮助研究人员和从业者在微调过程中更好地理解和预测模型的性能,并进行更有效的模型选择和调优。PEFT的主要思想是通过预测模型在微调任务上的性能,提供对不同模型和参数设置的性能估计。这样可以避免在大规模数据集上进行昂贵的微调实验,从而节省时

文章图片
#机器学习#深度学习#神经网络
多模态大模型--音频&文本

的目标是,通过减少音频文件的大小来节省存储空间或减轻网络传输的负担。理想的情况下,即使音频被压缩,我们听到的声音与原版也应该没有任何区别。Opus是一个多才多艺的音频编解码器,它适用于各种应用,从视频会议(比如 Google Meet)到在线视频流(比如 YouTube)。Opus支持的压缩比率非常灵活,从每秒6千比特到每秒510千比特都可以。EVS,是由3GPP标准化组织针对移动电话>)开发的最

文章图片
#音视频
大模型LLM相关面试题整理-位置编码-tokenizer-激活函数-layernorm

绝对位置编码是一种用于为序列数据中的每个位置添加绝对位置信息的技术。在自然语言处理中,绝对位置编码常用于处理文本序列,特别是在使用Transformer模型进行序列建模的任务中。在传统的Transformer模型中,位置编码使用了正弦和余弦函数的组合来表示相对位置信息,但它并没有提供绝对位置的信息。这意味着,如果将输入序列的位置进行重新排序或删除/添加元素,模型将无法正确地理解序列的新位置。为了解

文章图片
#easyui#前端#javascript
强化学习训练方法:超参设置技巧

4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦Polaris的成功的秘籍就是:训练数据及超参数设置都要围绕待训练的模型来进行设置。

#人工智能#python
    共 79 条
  • 1
  • 2
  • 3
  • 8
  • 请选择