之前爬了一些XX高考网站的一些高考数据,最近在处理数据的时候有一些小困惑,如图一这是我用爬虫爬下来的数据

重点是:我使用的是scrapy的 JsonLinesItemExporter 爬取的 就送一行是一个json 但是行与行之间没有“,”,也就是说整个文件来看不是一个json文件,整个文件来看不是一个json文件,整个文件来看不是一个json文件

但是就像如图所示 他是形如: {"region": "地区", "classify": "文科或是理科", "university": "XX大学", "national": {XXX}, "colplan": {}, "advance": {}, "first": {}, "second": {"2008": "470", "2009": "481", "2010": "453", "2011": "458", "2012": "494", "2013": "493", "2014": "------", "2016": "465", "2017": "473"}, "third": {}, "training": {}}

如"second": {"2008": "470"~~~~~就是指 2008年 XX大学(university的值)在XX地区(region的值)文科或者理科(classify的值)二本(这里指的是second,first等也是类似的意思)招人的最低分是470(2008所对应的键值)

大概就是这个意思 但是假如现在我有一个需求 如图二

就是希望将其合成一个大的json文件 ,而且满足如图所示的结构(当然不止河南这一个地区,我的那个“伪”json文件里面,还有很多地区),我也想了很久怎么处理才好 但是始终没有想到一个好的方法

我想到的就是先按行读取 然后在变成字典(eval)或者json(load),然后就得到 地区,大学,文理科分类,在写入另外一个文件 这样问题就来了 当获取到上述三个值的时候自然要判断,当有一个框架的时候就写入改写入的地方 当没有这个框架的时候就先创建框架 ,但是你要如何知道有没有框架呢 ———— 持续将上述“另外一个文件”load成 json文件 ? 但是这样的话 对于小的文件来说是没什么问题的 但是如果文件大了起来 需要怎么办?

从此肉弹冲击变成“肉蛋葱鸡”了,hhhhh

到最后就像问一下各位大佬 这个需求怎么实现最快捷 或者有工具可以处理没有这个问题 或者有没有哪位大佬能写个程序将这个问题解决。