logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Prompt Engineering 不完全设计宣言:关于如何让不确定的智能,运行在可负责的系统中

摘要: Prompt Engineering的核心并非“话术技巧”,而是通过系统性约束解决概率性大模型与确定性工程间的矛盾。其本质是设计可控、可审计、可容错的接口,而非追求模型“聪明”。关键原则包括:明确责任归属(设计者担责)、严格定义输入输出边界、限制自由度优先于增强能力、强制推理可审计、允许安全失败、多重校验推理、与系统协同设计、角色设定缩小概率空间,以及持续迭代优化。最终目标是构建即使模型不

文章图片
大模型中为什么 CoT 对分类有效?

摘要: CoT(Chain-of-Thought)在分类任务中的有效性并非源于“更聪明”,而是通过显式特征构造+逐步收敛的决策路径,显著降低模型决策自由度。传统分类是隐式、一次性的高熵判别,易受干扰且不可回溯;而CoT将问题重构为分步条件判别($H(label∣x,r_1,…,r_k)$),通过中间推理过滤噪声,动态构建线性可分特征空间。信息论视角下,CoT将不确定性前移,使模型在低熵空间做最终判

#分类#人工智能#数据挖掘
大模型框架xinference的本地安装注意事项

这时候你在浏览器打开http://host-ip:9997/应该可以看到xinference的界面了。根据系统选择官方编译后的whl下载进行离线安装。这样,下载源就换为阿里的源了,同时服务也开启了。

C++矩阵运算库推荐

Armadillo:C++下的Matlab替代品Eigen3:强大且只需头文件OpenCV:方便的计算机视觉计算库ViennaCL:并行矩阵计算PETSc:大规模并行科学计算其他的矩阵计算库和资料最近在几个地方都看到有人问C++下用什么矩阵运算库比较好,顺便做了个调查,做一些相关的推荐吧。主要针对稠密矩阵,有时间会再写一个稀疏矩阵的推荐。欢迎关注我的独立博客:http://cvn

python reportlab生成pdf

这里自定义了pagetemplate,使用BaseDocTemplate,但我感觉一般使用SimpleDocTemplate就可以。

文章图片
#python
neo4j-community-4.2.2 开启Neo4j图形数据科学(gds)功能

参考这个就可以:https://neo4j.com/docs/graph-data-science/current/installation/Download neo4j-graph-data-science-[version].jar from the Neo4j Download Center and copy it into the $NEO4J_HOME/plugins directory

#数据库#自然语言处理
开源:DeepSeek-R1 蒸馏数据集(110k)

开源:DeepSeek-R1 蒸馏数据集(110k)开源在了 Hugging Face 和 ModelScope 上,有直接SFT使用的版本,可直接下载本数据集为中文开源蒸馏满血R1的数据集,数据集中不仅包含math数据,还包括大量的通用类型数据,总数量为110K。该中文数据集中的数据分布如下:Math:共计36987个样本,Exam:共计2440个样本,STEM:共计12000个样本,Gener

#人工智能
图像的降采样与升采样笔记

采样下采样(subsampled)也称降采样(downsampled),即是采样点数减少。对于一幅N*M的图像来说,如果降采样系数为k,则即是在原图中 每行每列每隔k个点取一个点组成一幅图像。降采样很容易实现.升采样(downsampled)也称或图像插值(interpolation)。对于图像来说即是二维插值。如果升采样系数为k,即在原图n与n+1两点之间插入k-1个点,使其构成k分。

基于 Transformer RoBERTa的情感分类任务实践总结之二——R-Drop

性能提升:相比基础RoBERTa,改进后模型在测试集上的F1分数提升约1.2%,AUC提升约0.8%,过拟合现象明显缓解。核心价值:R-Drop通过强制模型输出一致性,有效增强了预测稳定性;标签平滑则降低了模型对硬标签的依赖,两者结合显著提升了泛化能力。适用场景:文本分类、情感分析等任务,尤其适合标注数据有限或需提升模型鲁棒性的场景。

文章图片
#transformer#分类
开源:DeepSeek-R1 蒸馏数据集(110k)

开源:DeepSeek-R1 蒸馏数据集(110k)开源在了 Hugging Face 和 ModelScope 上,有直接SFT使用的版本,可直接下载本数据集为中文开源蒸馏满血R1的数据集,数据集中不仅包含math数据,还包括大量的通用类型数据,总数量为110K。该中文数据集中的数据分布如下:Math:共计36987个样本,Exam:共计2440个样本,STEM:共计12000个样本,Gener

#人工智能
    共 26 条
  • 1
  • 2
  • 3
  • 请选择