logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Agent的评估(《Demystifying evals for AI agents》中文解读)

评估智能体并非易事,但这是从“玩具 Demo”走向“生产级应用”的必经之路。核心建议总结尽早开始,不要追求完美。将失败案例转化为测试用例。混合使用代码评分和 LLM 评分。一定要阅读评估的详细日志。

#人工智能
大模型应用相关问题记录

3.GRPO是对每个回答的奖励除以回答中token的数量,然后再不同回答间做一个平均(按照文章的说法是按照样本级别计算目标函数值),而DAPO是对一个问题的所有回答的所有token的奖励求和,再除以总的token做一个平均,另外DAPO还加了一个条件,就是正确答案的数量大于0且小于G,如果G=32,也就是这32个回答不能没有正确答案,也不能全都是正确答案。2.另外clip的参数 的low和high

文章图片
#深度学习#人工智能#机器学习
摘要和查询改写的评测

考虑到上下文历史中,agent回复内容较多,需要对该部分进行摘要。所以摘要评估应该是业务导向的。Agent 上下文压缩摘要的评估应同时关注:(1)对 Agent 行为的业务价值(端到端层面)(2)摘要内容本身的质量(微观层面)

#人工智能#机器学习
自然基金项目爬虫测试(已失效)

一年前写的小爬虫,用的自动化测试。还是可以自动登录,但网站现在好像不向普通用户提供查询服务了。写了一次不容易,代码还是保存在这里。#coding='utf-8'from selenium import webdriverfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.common.by i

#爬虫#python#开发语言
大模型的超大激活值研究

大规模激活”是模型为实现“隐藏状态零更新”这一高效策略,被迫在数值上制造极端异常值的结果。这种策略虽然有效,却牺牲了数值稳定性,暴露了Transformer架构在优化目标与数值实现之间的深层矛盾。

#人工智能
milvus数据库索引管理

要删除多个索引,您可以多次调用 drop_index 方法,每次传递要删除的索引名称或索引类型。默认情况下,Milvus不会对小于1,024行的段进行索引。在建立完成后,就可以在搜索时使用。便于混合搜索时进行前置过滤。通过指定索引的向量字段名和索引参数。不需要复杂的参数,直接建立即可。1.删除一个集合的唯一索引。

文章图片
#milvus#数据库
力扣练习4.26

3.如果字符为运算符,说明当前数字已经确定了,根据当前数字的前面的运算符计算入栈的结果:加减简单,乘的话是要先弹出栈顶元素,当前数字和栈顶元素相乘,乘积入栈;除法,因为 Python 的 // 运算符在被除数为负数时会向下取整到更小的整数,而通常的数学操作是向零取整,所以要考虑栈顶元素的正负,是负数时需要用最原始的解法。假设我们有’{([])}‘,那么遍历字符串,对开放括号入栈,得到[’{', ‘

文章图片
#leetcode#python#算法
pytorch框架实现BI-LSTM模型进行情感分类

pytorch实现bi-lstm模型进行情感分析

#pytorch#lstm#分类 +1
pytorch框架实现BI-LSTM模型进行情感分类

pytorch实现bi-lstm模型进行情感分析

#pytorch#lstm#分类 +1
pytorch框架实现BI-LSTM模型进行情感分类

pytorch实现bi-lstm模型进行情感分析

#pytorch#lstm#分类 +1
    共 16 条
  • 1
  • 2
  • 请选择