gpt crawler:从URL爬取网站生成结构化知识,创建定制GPT
gpt crawler是一款强大的工具,能够将网站内容全面地爬取下来,并将其转换成结构化知识,为GPTs的学习提供了有力支持。
这个工具的应用场景广泛,比如,如果你想打造一个数字人分身,可以先将自己在社交媒体或个人博客上的内容抓取下来,然后提交给ChatGPT作为储备知识。这种方式不仅能够保存个人在网络上的言论和观点,还可以为ChatGPT提供更多的学习材料,使其更好地理解和模拟用户的语言风格和思维方式。
项目地址:https://github.com/BuilderIO/gpt-crawler
核心功能:
灵活配置爬虫: 用户可以通过编辑config.ts文件中的URL、选择器等属性,灵活配置爬虫以适应不同的网站结构和需求。
定制化知识文件生成: gpt-crawler通过爬取指定网站的内容,生成包含知识数据的文件(output.json),为用户提供定制GPT所需的基础知识。
轻松上传到OpenAI: 生成的知识文件可以方便地上传至OpenAI,支持用户在UI界面或通过API访问生成的知识,用于创建自定义GPT或助手。
支持Docker容器化执行: 通过容器化执行,用户可以获得output.json,使整个过程更加灵活和可扩展。
贡献和改进: 项目鼓励用户参与贡献,通过提出Pull Request等方式改进工具,使其更加强大和适应更多场景。
据了解,gpt crawler背后采用了先进的技术框架crawlee。Crawlee不仅是一个高效的网络爬虫工具,还是一款强大的浏览器自动化工具。在实现上,它提供了多项关键功能,包括DOM解析能力、无头浏览器模式、异常状态码处理、队列和存储等。这些功能的综合运用使得爬虫更加灵活和强大。此外,Crawlee还提供了大量的配置项,用户可以根据自己的需求进行灵活设置,从而更好地适应不同的爬取任务。
研究人员开发自动识别古代楔形文字片的AI软件
**划重点:**1.🧠利用3D模型而非照片,新AI软件能够解读难以辨认的楔形文字,结果比以往方法更可靠。2.🔍这使得能够通过比较多个片上的内容进行搜索,为全新的研究问题铺平道路。3.🌐研究团队采用包括近2000块楔形文字片在内的3D模型进行训练,为未来解读多种楔形文字和古老碑铭提供了可能性。站长网2023-11-24 11:07:230000微软创新项目Project Rumi:多模态AI项目助力理解人类意图
ProjectRumi是微软的一个项目,旨在通过解决大型语言模型(LLM)理解非语言线索和上下文细微差别的局限性,增强LLM的能力。站长网2023-08-07 09:57:510000二次元的钱,也开始难赚了
随着部分线下消费的降温,一度不被看好的二次元经济正在逆势增长。自2024年以来,互联网上有关二次元生意的消息层出不穷。从直播间的拆卡热潮到谷子店的迅速走红,不仅推动了相关行业发展,甚至催生了如毛娘、妆娘、coser委托等新兴职业。一时间,社交媒体上充斥着“二次元拯救线下生意”的声音。站长网2024-07-19 11:07:170002电视家宣布暂停服务 官方公布快速退款指引
近日,知名电视直播软件“电视家”突然宣布暂停服务,并承诺为已开通会员的用户进行退款。在公告中,“电视家”强调会妥善处理所有退款需求,并承诺“绝对不会跑路”。为了方便用户进行退款,“电视家”在官方微博“电视家助手”上发布了快速退款指引,用户可以通过微信官方公众号“电视团团”点击“申请退款”进行操作。由于人工客服需要进行一对一的核实操作,所以用户需要耐心等待退款。站长网2023-11-21 17:18:440000马斯克也爱 “天才少年”!14 岁神童,年薪百万,SpaceX 史上最年轻工程师
本月,马斯克的太空探索公司SpaceX,迎来了一位十分“特别”的新员工:KairanQuazi。跟许多14岁学生一样,今年1月份刚过14岁生日的KairanQuazi这个月也要毕业了——但不是中学毕业,而是从圣塔克拉拉大学(SantaClaraUniversity)毕业。站长网2023-06-13 14:24:230000