logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

spring-statemachine状态机梳理

spring-statemachine状态机梳理

#java#后端#spring
java 代码查重(二)查重原理与技术

要么是天才,要么是AI写的。然后按照预设的阈值参数,比如最小相似文本字数、允许的最大连续差异字数等,来计算内容与其他文档之间的相似度。文本默认阈值是30字,即30字以上的相似内容判定为文本雷同,该部分内容将被标记为潜在的抄袭内容。它同样采用基于令牌的方法,并提供丰富的配置选项,如设置最小相似度阈值、过滤选项等。查重中的“阈值”是一个重要的参数,阈值的设置直接影响到查重的严格程度和判断标准。例如,如

#java
软件测试第4章 白盒测试方法(变异测试)

即:检查一组测试用例准备好不好,发现测试用例/测试数据的弱点。针对微小的程序变化,良好的测试用例/测试数据将能够检测到代码中的缺陷或错误。定义了从原有程序生成差别极小程序(即变体)的转换规则。1987年,奥佛特(Offutt)和金(King)针对FORTRAN77首次定义了22种变异算子。✔️ 若已有测试用例不能杀除所有非等价变异体,则需要额外设计新的测试用例,并添加到测试用例集中,以提高测试充分

文章图片
#测试#敏捷流程
软件测试第1章 软件缺陷、质量模型、测试的充分性

它不仅对软件质量做了定义,还涉及整个软件测试的一些规范流程和测试计划的撰定、制订以及测试用例的设计。通过软件测试可以查找并报告发现的软件故障,但是不能保证软件故障全部被找到,也无法报告隐藏的软件故障。艾兹格·迪杰斯特拉(E.W.Dijkstra)的一句名言对测试的不彻底性做了很好的注释:“软件测试只能证明故障的存在,但不能证明故障不存在”。所谓穷举输入测试,就是把所有可能的输入全部都用作测试输入。

文章图片
#测试#敏捷流程
java 代码查重(五)比较余弦算法、Jaccard相似度、欧式距离、编辑距离等在计算相似度的差异

为了实现更准确对比2个Java代码的相似度(用于Java课程作业查重场景), 可以将Java源码原封不动保存到.java文件中,可以得到更准确结果,且不同相似度算法下计算的相似度差异一致。比较源文件和目标文件都是标准的Java代码(.java代码),唯一区别在于目标文件含有注释,源文件没有注释。初步结论: 相同的Java代码复制到文本文件中(.txt文件),不同算法检查的相似度差异较大。比较源文件

#java#算法#开发语言
Java 代码查重(一)借助HanLP计算相似度

例如,动态添加前五千万条数据速度尚可,但后续添加速度明显下降,当添加量较大时,可能会耗费较长时间来完成词典的更新,这对于需要频繁更新和扩展词典的应用场景来说,会影响系统的整体性能和效率。例如,一些词语在不同的语境下可能有不同的含义和分词方式,但HanLP可能无法准确地根据上下文来确定最合适的分词结果,从而影响后续的文本分析和处理。- 专业领域知识覆盖不足:对于一些特定的专业领域,HanLP的训练数

#java
大数据系列——什么是Flink?Flink有什么用途?

Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算。支持高吞吐、低延迟(每秒处理百万个事件)、高性能的分布式处理框架。

文章图片
#flink#大数据
《实践论》笔记及当下反思(一)

你要知道梨子的滋味,你就得亲口吃一吃

    共 27 条
  • 1
  • 2
  • 3
  • 请选择