Skip to content

stage2-3k.json数据问题 #40

@yin-zhang

Description

@yin-zhang

发现stage2-3k.json里面有一些数据问题:

1)有117道题目是重复的(答案相同,题目的edit distance很小)。

下面这个文件给了重复问题的详细信息(ratio是重复度,新旧answer,新旧问题)

dup.txt

2)另外有18道题目在reasoning完了以后,被截断了,导致后面的solution部分不完整,并且不包括\boxed{}。在reasoning的时候似乎是完整的,并且有\boxed{}。

下面这个文件给了被截断问题的详细信息:

truncated.txt

这些需要滤掉吗?还是不影响结果?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions