SentenceTransformersTokenTextSplitter

SentenceTransformersTokenTextSplitter(
  self,
  chunk_overlap: int = 50,
  model_name: str = 'sentence-transformers/all-mpnet-base-v2',
  tokens_per_chunk:

Bases

TextSplitter

Constructors

Attributes

Methods

Inherited fromTextSplitter

Methods

Mcreate_documents

—

Create a list of Document objects from a list of texts.

Msplit_documents

—

Split documents.

Mfrom_huggingface_tokenizer

—

Text splitter that uses Hugging Face tokenizer to count length.

View source on GitHub

Parameters

Name	Type	Description
`chunk_overlap`	`int`	Default:`50` The number of tokens to overlap between chunks.
`model_name`	`str`	Default:`'sentence-transformers/all-mpnet-base-v2'` The name of the sentence transformer model to use.
`tokens_per_chunk`	`int \| None`	Default:`None`
`model_kwargs`	`dict[str, Any] \| None`	Default:`None`

LangChain Assistant

Menu

SentenceTransformersTokenTextSplitter

Bases

Constructors

Attributes

Methods

Inherited fromTextSplitter

Methods

Inherited fromBaseDocumentTransformer(langchain_core)

Methods

Parameters

Name	Type
chunk_overlap	int
model_name	str
tokens_per_chunk	int \| None
model_kwargs	dict[str, Any] \| None

Menu

SentenceTransformersTokenTextSplitter

Bases

Used in Docs

Constructors

Attributes

Methods

Inherited fromTextSplitter

Methods

Inherited fromBaseDocumentTransformer(langchain_core)

Methods

Parameters