解析facebook开源项目排名

2019-11-03 技术爬虫 10 评论字数统计: 519(字) 阅读时长: 3(分)

首页

index

分析页面元素

css1

针对标黄的标签进行解析即可

代码

def start(page):
    cache = {}
    mark = 'stargazers'
    i = 1
    while True:
        try:
            r = requests.get(page + str(i))
            r.raise_for_status()
            i += 1
            soup = BeautifulSoup(r.text, 'html5lib')
            target = soup.select("a.no-wrap.muted-link.mr-3")

            for elem in target:
                txt = str(elem)
                group = re.search(r'href="(.*?)"', txt)
                res = group.group(1)[1:]
                s_index = res.rindex("/") + 1
                if res[s_index:] != mark:
                    continue
                first_s_idx = res.index("/") + 1
                p_name = res[first_s_idx:res.rindex("/")]
                s = txt.index('</svg>')
                e = txt.rindex('</a>')
                star = txt[s + 7:e]
                p_star = re.sub('(\\s+)', '', star)
                p_star = re.sub(',', '', p_star)
                cache.update({p_name: int(p_star)})
        except:
            break
    return cache

if __name__ == '__main__':
    s_page = r'https://github.com/facebook?page='
    cache = start(s_page)
    print('total project ', len(cache))
    cache = sorted(cache.items(), key=lambda kv: (kv[1], kv[0]), reverse=True)
    top10 = cache[:10]
    for ele in top10:
        print(ele)

结果

res

rocksdb跌出前10，前端开源项目占绝大多数

只查后台开发语言

def start(page, langs):
    cache = {}
    mark = 'stargazers'
    for lang in langs:

        i = 1
        while True:
            try:
                url = (page + str(i)).format(lang)
                r = requests.get(url)
                r.raise_for_status()
                i += 1
                soup = BeautifulSoup(r.text, 'html5lib')
                target = soup.select("a.no-wrap.muted-link.mr-3")

                for elem in target:
                    txt = str(elem)
                    group = re.search(r'href="(.*?)"', txt)
                    res = group.group(1)[1:]
                    s_index = res.rindex("/") + 1
                    if res[s_index:] != mark:
                        continue
                    first_s_idx = res.index("/") + 1
                    p_name = res[first_s_idx:res.rindex("/")]
                    s = txt.index('</svg>')
                    e = txt.rindex('</a>')
                    star = txt[s + 7:e]
                    p_star = re.sub('(\\s+)', '', star)
                    p_star = re.sub(',', '', p_star)
                    cache.update({p_name: int(p_star)})
            except:
                break
    return cache


if __name__ == '__main__':
    s_page = r'https://github.com/facebook?language={}&page='
    lang = ["java", "Python", "c++"]
    cache = start(s_page, lang)
    print('total project ', len(cache))
    cache = sorted(cache.items(), key=lambda kv: (kv[1], kv[0]), reverse=True)
    top10 = cache[:10]
    for ele in top10:
        print(ele)

结果

res2

本文链接： https://blog.takfu.cf/2019/11/03/rank/

版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

无人访问之无聊博客 ++

解析facebook开源项目排名

首页

分析页面元素

代码

结果

只查后台开发语言

结果

无人访问之无聊博客 ++