FEATURE: Llama2 for summarization (#116)

2023-07-27 13:55:32 -03:00 · 2023-07-27 13:55:32 -03:00 · b25daed60b
parent 4b0c077ce5
commit b25daed60b
11 changed files with 93669 additions and 1 deletions
--- a/app/models/ai_api_audit_log.rb
+++ b/app/models/ai_api_audit_log.rb
@ -4,6 +4,7 @@ class AiApiAuditLog < ActiveRecord::Base
  module Provider
    OpenAI = 1
    Anthropic = 2
    HuggingFaceTextGeneration = 3
  end
 end
--- a/config/locales/server.en.yml
+++ b/config/locales/server.en.yml
@ -36,6 +36,7 @@ en:
    ai_openai_embeddings_url: "Custom URL used for the OpenAI embeddings API. (in the case of Azure it can be: https://COMPANY.openai.azure.com/openai/deployments/DEPLOYMENT/embeddings?api-version=2023-05-15)"
    ai_openai_api_key: "API key for OpenAI API"
    ai_anthropic_api_key: "API key for Anthropic API"
    ai_hugging_face_api_url: "Custom URL used for OpenSource LLM inference. Compatible with https://github.com/huggingface/text-generation-inference"
    composer_ai_helper_enabled: "Enable the Composer's AI helper."
    ai_helper_allowed_groups: "Users on these groups will see the AI helper button in the composer."
--- a/config/settings.yml
+++ b/config/settings.yml
@ -108,6 +108,9 @@ plugins:
    choices:
      - "stable-diffusion-xl-beta-v2-2-2"
      - "stable-diffusion-v1-5"
  ai_hugging_face_api_url:
    default: ""
  ai_google_custom_search_api_key:
    default: ""
--- a/lib/modules/summarization/entry_point.rb
+++ b/lib/modules/summarization/entry_point.rb
@ -8,6 +8,7 @@ module DiscourseAi
        require_relative "models/anthropic"
        require_relative "models/discourse"
        require_relative "models/open_ai"
        require_relative "models/llama2"
        require_relative "strategies/fold_content"
        require_relative "strategies/truncate_content"
@ -21,6 +22,7 @@ module DiscourseAi
          Models::OpenAi.new("gpt-3.5-turbo-16k", max_tokens: 16_384),
          Models::Discourse.new("long-t5-tglobal-base-16384-book-summary", max_tokens: 16_384),
          Models::Anthropic.new("claude-2", max_tokens: 100_000),
          Models::Llama2.new("Llama-2-7b-chat-hf", max_tokens: 4096),
        ]
        foldable_models.each do |model|
--- a/lib/modules/summarization/models/llama2.rb
+++ b/lib/modules/summarization/models/llama2.rb
@ -0,0 +1,104 @@
 # frozen_string_literal: true
 module DiscourseAi
  module Summarization
    module Models
      class Llama2 < Base
        def display_name
          "Llama2's #{model}"
        end
        def correctly_configured?
          SiteSetting.ai_hugging_face_api_url.present?
        end
        def configuration_hint
          I18n.t(
            "discourse_ai.summarization.configuration_hint",
            count: 1,
            setting: "ai_hugging_face_api_url",
          )
        end
        def concatenate_summaries(summaries)
          completion(<<~TEXT)
            [INST] <<SYS>>
            You are a helpful bot
            <</SYS>>
            Concatenate these disjoint summaries, creating a cohesive narrative:
            #{summaries.join("\n")} [/INST]
          TEXT
        end
        def summarize_with_truncation(contents, opts)
          text_to_summarize = contents.map { |c| format_content_item(c) }.join
          truncated_content = tokenizer.truncate(text_to_summarize, available_tokens)
          completion(<<~TEXT)
            [INST] <<SYS>>
            #{build_base_prompt(opts)}
            <</SYS>>
            Summarize the following in up to 400 words:
            #{truncated_content} [/INST]
          TEXT
        end
        def summarize_single(chunk_text, opts)
          summarize_chunk(chunk_text, opts.merge(single_chunk: true))
        end
        private
        def summarize_chunk(chunk_text, opts)
          summary_instruction =
            if opts[:single_chunk]
              "Summarize the following forum discussion, creating a cohesive narrative:"
            else
              "Summarize the following in up to 400 words:"
            end
          completion(<<~TEXT)
            [INST] <<SYS>>
            #{build_base_prompt(opts)}
            <</SYS>>
            #{summary_instruction}
            #{chunk_text} [/INST]
          TEXT
        end
        def build_base_prompt(opts)
          base_prompt = <<~TEXT
            You are a summarization bot.
            You effectively summarise any text and reply ONLY with ONLY the summarized text.
            You condense it into a shorter version.
            You understand and generate Discourse forum Markdown.
          TEXT
          if opts[:resource_path]
            base_prompt +=
              "Try generating links as well the format is #{opts[:resource_path]}. eg: [ref](#{opts[:resource_path]}/77)\n"
          end
          base_prompt += "The discussion title is: #{opts[:content_title]}.\n" if opts[
            :content_title
          ]
          base_prompt
        end
        def completion(prompt)
          ::DiscourseAi::Inference::HuggingFaceTextGeneration.perform!(prompt, model).dig(
            :generated_text,
          )
        end
        def tokenizer
          DiscourseAi::Tokenizer::Llama2Tokenizer
        end
      end
    end
  end
 end
--- a/lib/shared/inference/hugging_face_text_generation.rb
+++ b/lib/shared/inference/hugging_face_text_generation.rb
@ -0,0 +1,137 @@
 # frozen_string_literal: true
 module ::DiscourseAi
  module Inference
    class HuggingFaceTextGeneration
      CompletionFailed = Class.new(StandardError)
      TIMEOUT = 60
      def self.perform!(
        prompt,
        model,
        temperature: 0.7,
        top_p: nil,
        top_k: nil,
        typical_p: nil,
        max_tokens: 2000,
        repetition_penalty: 1.1,
        user_id: nil
      )
        raise CompletionFailed if model.blank?
        url = URI(SiteSetting.ai_hugging_face_api_url)
        if block_given?
          url.path = "/generate_stream"
        else
          url.path = "/generate"
        end
        headers = { "Content-Type" => "application/json" }
        parameters = {}
        payload = { inputs: prompt, parameters: parameters }
        parameters[:top_p] = top_p if top_p
        parameters[:top_k] = top_k if top_k
        parameters[:typical_p] = typical_p if typical_p
        parameters[:max_new_tokens] = max_tokens if max_tokens
        parameters[:temperature] = temperature if temperature
        parameters[:repetition_penalty] = repetition_penalty if repetition_penalty
        Net::HTTP.start(
          url.host,
          url.port,
          use_ssl: url.scheme == "https",
          read_timeout: TIMEOUT,
          open_timeout: TIMEOUT,
          write_timeout: TIMEOUT,
        ) do |http|
          request = Net::HTTP::Post.new(url, headers)
          request_body = payload.to_json
          request.body = request_body
          http.request(request) do |response|
            if response.code.to_i != 200
              Rails.logger.error(
                "HuggingFaceTextGeneration: status: #{response.code.to_i} - body: #{response.body}",
              )
              raise CompletionFailed
            end
            log =
              AiApiAuditLog.create!(
                provider_id: AiApiAuditLog::Provider::HuggingFaceTextGeneration,
                raw_request_payload: request_body,
                user_id: user_id,
              )
            if !block_given?
              response_body = response.read_body
              parsed_response = JSON.parse(response_body, symbolize_names: true)
              log.update!(
                raw_response_payload: response_body,
                request_tokens: DiscourseAi::Tokenizer::Llama2Tokenizer.size(prompt),
                response_tokens:
                  DiscourseAi::Tokenizer::Llama2Tokenizer.size(parsed_response[:generated_text]),
              )
              return parsed_response
            end
            begin
              cancelled = false
              cancel = lambda { cancelled = true }
              response_data = +""
              response_raw = +""
              response.read_body do |chunk|
                if cancelled
                  http.finish
                  return
                end
                response_raw << chunk
                chunk
                  .split("\n")
                  .each do |line|
                    data = line.split("data: ", 2)[1]
                    next if !data || data.squish == "[DONE]"
                    if !cancelled
                      begin
                        # partial contains the entire payload till now
                        partial = JSON.parse(data, symbolize_names: true)
                        # this is the last chunk and contains the full response
                        next if partial[:token][:special] == true
                        response_data = partial[:token][:text].to_s
                        yield partial, cancel
                      rescue JSON::ParserError
                        nil
                      end
                    end
                  end
              rescue IOError
                raise if !cancelled
              ensure
                log.update!(
                  raw_response_payload: response_raw,
                  request_tokens: DiscourseAi::Tokenizer::Llama2Tokenizer.size(prompt),
                  response_tokens: DiscourseAi::Tokenizer::Llama2Tokenizer.size(response_data),
                )
              end
            end
          end
        end
        def self.try_parse(data)
          JSON.parse(data, symbolize_names: true)
        rescue JSON::ParserError
          nil
        end
      end
    end
  end
 end
--- a/lib/shared/tokenizer/tokenizer.rb
+++ b/lib/shared/tokenizer/tokenizer.rb
@ -52,6 +52,13 @@ module DiscourseAi
      end
    end
    class Llama2Tokenizer < BasicTokenizer
      def self.tokenizer
        @@tokenizer ||=
          Tokenizers.from_file("./plugins/discourse-ai/tokenizers/llama-2-70b-chat-hf.json")
      end
    end
    class OpenAiTokenizer < BasicTokenizer
      class << self
        def tokenizer
--- a/plugin.rb
+++ b/plugin.rb
@ -7,7 +7,7 @@
 # url: https://meta.discourse.org/t/discourse-ai/259214
 # required_version: 2.7.0
-gem "tokenizers", "0.3.2"
+gem "tokenizers", "0.3.3"
 gem "tiktoken_ruby", "0.0.5"
 enabled_site_setting :discourse_ai_enabled
@ -31,6 +31,7 @@ after_initialize do
  require_relative "lib/shared/inference/openai_embeddings"
  require_relative "lib/shared/inference/anthropic_completions"
  require_relative "lib/shared/inference/stability_generator"
  require_relative "lib/shared/inference/hugging_face_text_generation"
  require_relative "lib/shared/classificator"
  require_relative "lib/shared/post_classificator"
--- a/spec/shared/tokenizer_spec.rb
+++ b/spec/shared/tokenizer_spec.rb
@ -100,3 +100,20 @@ describe DiscourseAi::Tokenizer::AllMpnetBaseV2Tokenizer do
    end
  end
 end
 describe DiscourseAi::Tokenizer::Llama2Tokenizer do
  describe "#size" do
    describe "returns a token count" do
      it "for a sentence with punctuation and capitalization and numbers" do
        expect(described_class.size("Hello, World! 123")).to eq(9)
      end
    end
  end
  describe "#truncate" do
    it "truncates a sentence" do
      sentence = "foo bar baz qux quux corge grault garply waldo fred plugh xyzzy thud"
      expect(described_class.truncate(sentence, 3)).to eq("foo bar")
    end
  end
 end
--- a/tokenizers/README.md
+++ b/tokenizers/README.md
@ -9,3 +9,7 @@ Licensed under MIT License
 ## all-mpnet-base-v2.json
 Licensed under Apache License
 ## llama-2-70b-chat-hf
 Licensed under LLAMA 2 COMMUNITY LICENSE AGREEMENT
--- a/tokenizers/llama-2-70b-chat-hf.json
+++ b/tokenizers/llama-2-70b-chat-hf.json