discourse-ai/lib/shared/tokenizer/tokenizer.rb

# frozen_string_literal: true

module DiscourseAi
  module Tokenizer
    class BasicTokenizer
      def self.tokenizer
        raise NotImplementedError
      end

      def self.tokenize(text)
        tokenizer.encode(text).tokens
      end
      def self.size(text)
        tokenize(text).size
      end
      def self.truncate(text, max_length)
        # Fast track the common case where the text is already short enough.
        return text if text.size < max_length

        tokenizer.decode(tokenizer.encode(text).ids.take(max_length))
      end
    end

    class BertTokenizer < BasicTokenizer
      def self.tokenizer
        @@tokenizer ||=
          Tokenizers.from_file("./plugins/discourse-ai/tokenizers/bert-base-uncased.json")
      end
    end

    class AnthropicTokenizer < BasicTokenizer
      def self.tokenizer
        @@tokenizer ||=
          Tokenizers.from_file("./plugins/discourse-ai/tokenizers/claude-v1-tokenization.json")
      end
    end

    class OpenAiTokenizer < BasicTokenizer
      def self.tokenizer
        @@tokenizer ||= Tiktoken.get_encoding("cl100k_base")
      end

      def self.tokenize(text)
        tokenizer.encode(text)
      end

      def self.truncate(text, max_length)
        # Fast track the common case where the text is already short enough.
        return text if text.size < max_length

        tokenizer.decode(tokenize(text).take(max_length))
      end
    end
  end
end
FEATURE: Add a basic tokenizer API (#37) * FEATURE: Add a basic tokenizer API * Add tests * lint 2023-04-19 10:55:59 -04:00			`# frozen_string_literal: true`

			`module DiscourseAi`
Refinements to embeddings and tokenizers (#61) * Refinements to embeddings and tokenizers * lint * Truncate with tokenizers for summary * fix 2023-05-15 14:10:42 -04:00			`module Tokenizer`
			`class BasicTokenizer`
			`def self.tokenizer`
			`raise NotImplementedError`
			`end`

			`def self.tokenize(text)`
			`tokenizer.encode(text).tokens`
			`end`
			`def self.size(text)`
			`tokenize(text).size`
			`end`
			`def self.truncate(text, max_length)`
Fixes for embeddings and truncate (#67) 2023-05-17 19:21:28 -04:00			`# Fast track the common case where the text is already short enough.`
			`return text if text.size < max_length`

Refinements to embeddings and tokenizers (#61) * Refinements to embeddings and tokenizers * lint * Truncate with tokenizers for summary * fix 2023-05-15 14:10:42 -04:00			`tokenizer.decode(tokenizer.encode(text).ids.take(max_length))`
			`end`
			`end`

			`class BertTokenizer < BasicTokenizer`
			`def self.tokenizer`
			`@@tokenizer \|\|=`
			`Tokenizers.from_file("./plugins/discourse-ai/tokenizers/bert-base-uncased.json")`
			`end`
FEATURE: Add a basic tokenizer API (#37) * FEATURE: Add a basic tokenizer API * Add tests * lint 2023-04-19 10:55:59 -04:00			`end`

Refinements to embeddings and tokenizers (#61) * Refinements to embeddings and tokenizers * lint * Truncate with tokenizers for summary * fix 2023-05-15 14:10:42 -04:00			`class AnthropicTokenizer < BasicTokenizer`
			`def self.tokenizer`
			`@@tokenizer \|\|=`
			`Tokenizers.from_file("./plugins/discourse-ai/tokenizers/claude-v1-tokenization.json")`
			`end`
fixes (#53) * Minor... use username suggester in case username already exists * FIX: ensure we truncate long prompts Previously we 1. Used raw length instead of token counts for counting length 2. We totally dropped a prompt if it was too long New implementation will truncate "raw" if it gets too long maintaining meaning. 2023-05-06 06:31:53 -04:00			`end`
Refinements to embeddings and tokenizers (#61) * Refinements to embeddings and tokenizers * lint * Truncate with tokenizers for summary * fix 2023-05-15 14:10:42 -04:00
			`class OpenAiTokenizer < BasicTokenizer`
			`def self.tokenizer`
			`@@tokenizer \|\|= Tiktoken.get_encoding("cl100k_base")`
			`end`

			`def self.tokenize(text)`
			`tokenizer.encode(text)`
			`end`

			`def self.truncate(text, max_length)`
Fixes for embeddings and truncate (#67) 2023-05-17 19:21:28 -04:00			`# Fast track the common case where the text is already short enough.`
			`return text if text.size < max_length`

Refinements to embeddings and tokenizers (#61) * Refinements to embeddings and tokenizers * lint * Truncate with tokenizers for summary * fix 2023-05-15 14:10:42 -04:00			`tokenizer.decode(tokenize(text).take(max_length))`
			`end`
FEATURE: Add a basic tokenizer API (#37) * FEATURE: Add a basic tokenizer API * Add tests * lint 2023-04-19 10:55:59 -04:00			`end`
			`end`
			`end`