
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
文本分类与词嵌入(Text Processing and Word Embedding)数据集(Dataset)本节课使用IMDb影评数据作为数据集。其包含有5万条影评文本,每段文本都有很明确的正向/负向情感(即为一个二分类问题)。其中2万5千条数据作为训练数据集,2万5千条数据作为测试数据集。文本到序列(Text to Sequence)我们首先需要把这段文本转换为序列。主要有以下几个步骤需要完
本研究探索了用于文本到SQL领域语义解析任务的各种提示设计方法。本文提出了一种利用示例的SQL语法结构来选择示例演示的方法,强调多样性和相似性作为采样目标。此外,本文发现大型语言模型(LLMs)从与数据库相关的知识增强中受益。未来的研究可以基于本文的发现来检验本文方法在其他领域的可转移性。通过持续改进LLMs在语义解析方面的能力,本文旨在为开发更准确、更稳健和更易理解的问答系统做出贡献。

问题描述昨天跟着一篇博客BERT 的 PyTorch 实现从头写了一下BERT的代码,因为原代码是在CPU上运行的,于是就想将模型和数据放到GPU上来跑,会快一点。结果,在将输入数据和模型都放到cuda上之后,仍然提示报错:"RuntimeError: Input, output and indices must be on the current device"原因与解决方法通过打印检查了很多次
阿里通义实验室提出WebDancer——一套从数据构建到训练策略的端到端信息检索智能体构建范式,支持多轮、多工具交互与长程推理。该系统在 GAIA与 WebWalkerQA 等复杂多跳信息检索任务中表现优异,验证其方法有效性与可扩展性。
WebSailor 是一套开源智能体训练方法,旨在提升其在复杂信息检索任务中的超人类推理能力。现有开源网页智能体在 BrowseComp-en/zh 等任务中几乎无法作答,其原因在于缺乏应对高不确定性、缺乏预定义路径任务的推理能力。WebSailor 通过高不确定性任务构造、RFT 冷启动、强化学习算法 DUPO 的集成流程,显著提升了模型在复杂搜索任务中的能力,性能首次与专有系统接近。
本文介绍了两个借助预训练语言模型BERT(MT-DNN)来表示schem和Question之间上下文关系表示的方法,通过预训练语言模型强大的表示能力,模型第一次在数据集上的表现超越了人类。足以见证当今NLP技术发展之迅速。

最近赶上618活动,将家里的RTX 4060显卡升级为了RTX 5060Ti 16GB版本,显存翻了一番,可以进行一些LLM微调实验了,本篇博客记录使用unsloth框架在RTX 5060Ti 16GB显卡上进行Qwen3-4B-Base模型的GRPO强化微调实验。
Codalab是一个用于复现深度学习研究的协作平台,由斯坦福大学和微软合作开发。其核心理念是在云端运行机器学习实验,像jupyter notebook一样在数字实验室中管理实验,同时可以发布实验的 worksheet 以便其他人可以复现实验结果。Colab官网展示的三个步骤为:上传文件:首先将代码和数据集文件上传至平台。进行实验:运行代码,进行训练或者测试。

Text2SQL是近年来NLP领域一个比较热门的研究方向,该任务历史悠久,应用和落地性很强。该任务是在已知数据库的表名、列名其从属关系(这些统称为数据库的Schema)的前提下,将人类的自然语言问句(Question)转化为对应的数据库查询SQL语句。

本文提出了一种叫做Query Plan Language (QPL)的语言,用来将复杂SQL语句分解为更加简单的子语句。QPL具有以下优势:1)可以转述为简单问题,从而创建了一个复杂问题,分解问题的数据集。在这个数据集上训练,获得了一个敏感于数据库模式的数据检索问题分解器。2)QPL对于非专家处理复杂查询更易于接近,使语义解析器的输出更易于理解。
