Hopeton.J 个人主页

@weixin_42426841

Hopeton.J

2023-02-28 16:14:18 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

聊聊 Claude Code v2.1.111：Opus 4.7，Auto 模式开放，新的思考等级 xhigh，以及“限免3次”的 ultrareview

聊聊 Opus 4.7，以及一些 Claude Code 新特性的使用

【Gemini API】RetryError: Timeout of 60.0s exceeded, last exception: 503 failed to connect to all addr

[Solved] RetryError: Timeout of 60.0s exceeded, last exception: 503 failed to connect to all addresses; last error: UNKNOWN: ipv4:142.250.204.74:443: tcp handshaker shutdown

#AI

BERT 论文精读【Pre-training of Deep Bidirectional Transformers for Language Understanding】

通过阅读本文将了解以下知识：1. 预训练任务 MLM 和 NSP 是什么？2. BERT 模型的输入和输出，以及一些与 Transformer 不同的地方。3. 以 $\text{BERT}_\text{BASE}$ 为例，计算模型的总参数量。...

#bert #人工智能 #深度学习 +2

Transformer 论文精读与完整代码复现【Attention Is All You Need】

Transformer论文精读和从零开始的完整代码复现（PyTorch），超长文预警！将介绍模型架构中的所有组件，并解答可能的困惑

#transformer #pytorch #深度学习

目前 Claude / GPT 的订阅建议与反代避坑

20,000 刀用量后的 Claude / GPT 订阅建议 & 模型配额 & 反代避坑分享

BERT 论文精读【Pre-training of Deep Bidirectional Transformers for Language Understanding】

#bert #人工智能 #深度学习 +2

尝试微调 LLM 大型语言模型，让它会写唐诗

展示如何去微调一个大型语言模型，增强解决特定任务的能力。

#语言模型 #人工智能 #自然语言处理 +1

2023李宏毅机器学习HW05样例代码中文注释版

#机器学习 #人工智能

为什么 LoRA 微调和没有微调的效果一样？在 PEFT ＜= 0.12.0 下错误使用 get_peft_model()

这存在于 peft

#机器学习 #人工智能 #LoRA

李宏毅2023机器学习作业HW02解析和代码分享

#机器学习 #深度学习

共 70 条

请选择