logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

LLM 的复杂符号推理极限在哪?AuraMate 八字命理大模型 Benchmark 与 Harness Engineering 实践

AuraMate 团队致力于将最前沿的 AI 技术与传统文化进行深度结合与工程化落地。构建这个 Benchmark 及 Harness 体系,不仅仅是为了“赛博算命”,更是希望为开源社区提供一个检验大模型在复杂规则下长程推理能力的全新试金石。

#人工智能
大模型“赛博算命”大考:DeepSeek、GPT-5、Gemini 谁才是真正的玄学宗师?(附 BaziQA 完整榜单)

我们推出的 “生命 K 线(Life K-line)” 和 “天赋地图(Talent Map)”,正是试图将这些复杂的概率数据,转化为用户可感知、可参考的人生工具。一个“庚金”在不同月令、不同坐支下的旺衰完全不同,这种极度的非线性、强约束网络对 Transformer 的空间表达能力提出了极大挑战。虽然在总榜表现一般,但它在处理事业、财富等世俗化、商业化的逻辑上,依然保留了极强的优势。我们发布 B

文章图片
大模型“赛博算命”大考:DeepSeek、GPT-5、Gemini 谁才是真正的玄学宗师?(附 BaziQA 完整榜单)

我们推出的 “生命 K 线(Life K-line)” 和 “天赋地图(Talent Map)”,正是试图将这些复杂的概率数据,转化为用户可感知、可参考的人生工具。一个“庚金”在不同月令、不同坐支下的旺衰完全不同,这种极度的非线性、强约束网络对 Transformer 的空间表达能力提出了极大挑战。虽然在总榜表现一般,但它在处理事业、财富等世俗化、商业化的逻辑上,依然保留了极强的优势。我们发布 B

文章图片
当大模型遇到“八字推理”:BaziQA-Benchmark 在测什么,为什么值得关注?

论文报告的五年宏平均准确率里,DeepSeek-Chat-V3 是 36.7%,DeepSeek-R1 是 34.1%,GPT-5.1-Chat 是 32.5%,Gemini-2.5-Flash 是 32.4%,Gemini-3-Pro 是 32.1%。这个角度,对研究大模型在复杂结构环境中的行为,其实很有启发性。这两年,大模型在数学、代码、通用问答上的表现已经很亮眼,但还有一类能力经常被忽略:模

#人工智能
【界面设计】针对应力强度模型使用Monte-Carlo进行可靠性仿真

要求:针对应力和强度服从正态、对数正态、指数、威布尔分布的任意组合,利用Monte-Carlo方法编制程序,进行可靠度仿真。代码:import randomimport tkinter as tkfrom turtle import positionclass window:def __init__(self):self.root = tk.Tk()self.root.title("Monte C

#python
到底了