一架梯子,一头程序猿,仰望星空!
LangChain教程(Python版本) > 内容正文

LangChain 加载文本数据


文档加载器(Document Loader)

使用文档加载器,可以从各类数据源中加载数据,从数据源加载的数据,加载后的数据在langchain中使用Document对象存储,代表一个文档。Document对象包含一段文本和相关元数据。

文档加载器公开了一个“load”方法,用于从配置的数据源加载数据。它们还可选择实现“lazy load”,方便将数据延迟加载到内存中。

加载文本

最简单的加载器是将文件的文本数据,全部加载到到Document中。

from langchain_community.document_loaders import TextLoader

# 定义文本加载器,指定读取的文件路径
loader = TextLoader("./index.md")
loader.load()
# 返回的内容已经加载到Document对象中
[
    Document(page_content='---\\nsidebar_position: 0\\n---\\n# Document loaders\\n\\nUse document loaders to load data from a source as `Document`\\'s. A `Document` is a piece of text\\nand associated metadata. For example, there are document loaders for loading a simple `.txt` file, for loading the text\\ncontents of any web page, or even for loading a transcript of a YouTube video.\\n\\nEvery document loader exposes two methods:\\n1. "Load": load documents from the configured source\\n2. "Load and split": load documents from the configured source and split them using the passed in text splitter\\n\\nThey optionally implement:\\n\\n3. "Lazy load": load documents into memory lazily\\n', metadata={'source': '../docs/docs_skeleton/docs/modules/data_connection/document_loaders/index.md'})
]


关联主题