
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
PU learning 算法笔记 -- 论文《Learning Classifiers from Only Positive and Unlabeled Data》中的方法。

论文《HIGH-DIMENSIONAL CONTINUOUS CONTROL USINGGENERALIZED ADVANTAGE ESTIMATION》是策略梯度算法中常用的优势估计算法GAE对应的论文

综述《Unifying Large Language Models and Knowledge Graphs: A Roadmap》统一大语言模型和知识图谱粗略笔记

大模型基础之位置向量RoPE

不需要参考模型的对齐方法ORPO和SimPO简介

针对领域问答来进行知识对齐方法KnowPAT,KnowPAT(Knowledgeable Preference AlignmenT) 出自2023年11月的论文《Knowledgeable Preference Alignment for LLMs in Domain-specific Question Answering》

大模型对齐方法DPO及其变种IPO、KTO、CPO原理

PET-SQL出自论文《[PET-SQL: A Prompt-enhanced Two-stage Text-to-SQL Framework with Cross-consistency](https://arxiv.org/abs/2403.09732)》,将基于大模型的Text2SQL分为两个阶段进行。

基于decoder-only LLM得到embedding的方法:LLM2Vec、Echo embeddings、PromptEOL、E5-mistral-7b-instruct、Sgpt、RepLLaMA 、cpt-text、UDEVER

强化学习论文《Deep Reinforcement Learning that Matters》笔记








