5 months ago · 128efc3193
--- a/api/configs/feature/__init__.py
+++ b/api/configs/feature/__init__.py
@@ -616,6 +616,11 @@ class DataSetConfig(BaseSettings):
 
															         default=False,
														
 
															     )
														
 
															+    PLAN_SANDBOX_CLEAN_MESSAGE_DAY_SETTING: PositiveInt = Field(
														
 
															+        description="Interval in days for message cleanup operations - plan: sandbox",
														
 
															+        default=30,
														
 
															+    )
														
 
															+
														
 
															 class WorkspaceConfig(BaseSettings):
														
 
															     """
														
--- a/api/extensions/ext_celery.py
+++ b/api/extensions/ext_celery.py
@@ -68,6 +68,7 @@ def init_app(app: Flask) -> Celery:
 
															         "schedule.clean_unused_datasets_task",
														
 
															         "schedule.create_tidb_serverless_task",
														
 
															         "schedule.update_tidb_serverless_status_task",
														
 
															+        "schedule.clean_messages",
														
 
															     ]
														
 
															     day = dify_config.CELERY_BEAT_SCHEDULER_TIME
														
 
															     beat_schedule = {
														
@@ -87,6 +88,10 @@ def init_app(app: Flask) -> Celery:
 
															             "task": "schedule.update_tidb_serverless_status_task.update_tidb_serverless_status_task",
														
 
															             "schedule": crontab(minute="30", hour="*"),
														
 
															         },
														
 
															+        "clean_messages": {
														
 
															+            "task": "schedule.clean_messages.clean_messages",
														
 
															+            "schedule": timedelta(days=day),
														
 
															+        },
														
 
															     }
														
 
															     celery_app.conf.update(beat_schedule=beat_schedule, imports=imports)
														
--- a/api/migrations/versions/2024_11_12_0925-01d6889832f7_add_created_at_index_for_messages.py
+++ b/api/migrations/versions/2024_11_12_0925-01d6889832f7_add_created_at_index_for_messages.py
@@ -0,0 +1,31 @@
 
															+"""add_created_at_index_for_messages
														
 
															+
														
 
															+Revision ID: 01d6889832f7
														
 
															+Revises: 09a8d1878d9b
														
 
															+Create Date: 2024-11-12 09:25:05.527827
														
 
															+
														
 
															+"""
														
 
															+from alembic import op
														
 
															+import models as models
														
 
															+import sqlalchemy as sa
														
 
															+
														
 
															+
														
 
															+# revision identifiers, used by Alembic.
														
 
															+revision = '01d6889832f7'
														
 
															+down_revision = '09a8d1878d9b'
														
 
															+branch_labels = None
														
 
															+depends_on = None
														
 
															+
														
 
															+
														
 
															+def upgrade():
														
 
															+    # ### commands auto generated by Alembic - please adjust! ###
														
 
															+    with op.batch_alter_table('messages', schema=None) as batch_op:
														
 
															+        batch_op.create_index('message_created_at_idx', ['created_at'], unique=False)
														
 
															+    # ### end Alembic commands ###
														
 
															+
														
 
															+
														
 
															+def downgrade():
														
 
															+    # ### commands auto generated by Alembic - please adjust! ###
														
 
															+    with op.batch_alter_table('messages', schema=None) as batch_op:
														
 
															+        batch_op.drop_index('message_created_at_idx')
														
 
															+    # ### end Alembic commands ###
														
--- a/api/models/model.py
+++ b/api/models/model.py
@@ -719,6 +719,7 @@ class Message(db.Model):
 
															         db.Index("message_end_user_idx", "app_id", "from_source", "from_end_user_id"),
														
 
															         db.Index("message_account_idx", "app_id", "from_source", "from_account_id"),
														
 
															         db.Index("message_workflow_run_id_idx", "conversation_id", "workflow_run_id"),
														
 
															+        db.Index("message_created_at_idx", "created_at"),
														
 
															     )
														
 
															     id = db.Column(StringUUID, server_default=db.text("uuid_generate_v4()"))
														
--- a/api/schedule/clean_messages.py
+++ b/api/schedule/clean_messages.py
@@ -0,0 +1,79 @@
 
															+import datetime
														
 
															+import time
														
 
															+
														
 
															+import click
														
 
															+from werkzeug.exceptions import NotFound
														
 
															+
														
 
															+import app
														
 
															+from configs import dify_config
														
 
															+from extensions.ext_database import db
														
 
															+from extensions.ext_redis import redis_client
														
 
															+from models.model import (
														
 
															+    App,
														
 
															+    Message,
														
 
															+    MessageAgentThought,
														
 
															+    MessageAnnotation,
														
 
															+    MessageChain,
														
 
															+    MessageFeedback,
														
 
															+    MessageFile,
														
 
															+)
														
 
															+from models.web import SavedMessage
														
 
															+from services.feature_service import FeatureService
														
 
															+
														
 
															+
														
 
															+@app.celery.task(queue="dataset")
														
 
															+def clean_messages():
														
 
															+    click.echo(click.style("Start clean messages.", fg="green"))
														
 
															+    start_at = time.perf_counter()
														
 
															+    plan_sandbox_clean_message_day = datetime.datetime.now() - datetime.timedelta(
														
 
															+        days=dify_config.PLAN_SANDBOX_CLEAN_MESSAGE_DAY_SETTING
														
 
															+    )
														
 
															+    page = 1
														
 
															+    while True:
														
 
															+        try:
														
 
															+            # Main query with join and filter
														
 
															+            messages = (
														
 
															+                db.session.query(Message)
														
 
															+                .filter(Message.created_at < plan_sandbox_clean_message_day)
														
 
															+                .order_by(Message.created_at.desc())
														
 
															+                .paginate(page=page, per_page=100)
														
 
															+            )
														
 
															+
														
 
															+        except NotFound:
														
 
															+            break
														
 
															+        if messages.items is None or len(messages.items) == 0:
														
 
															+            break
														
 
															+        for message in messages.items:
														
 
															+            app = App.query.filter_by(id=message.app_id).first()
														
 
															+            features_cache_key = f"features:{app.tenant_id}"
														
 
															+            plan_cache = redis_client.get(features_cache_key)
														
 
															+            if plan_cache is None:
														
 
															+                features = FeatureService.get_features(app.tenant_id)
														
 
															+                redis_client.setex(features_cache_key, 600, features.billing.subscription.plan)
														
 
															+                plan = features.billing.subscription.plan
														
 
															+            else:
														
 
															+                plan = plan_cache.decode()
														
 
															+            if plan == "sandbox":
														
 
															+                # clean related message
														
 
															+                db.session.query(MessageFeedback).filter(MessageFeedback.message_id == message.id).delete(
														
 
															+                    synchronize_session=False
														
 
															+                )
														
 
															+                db.session.query(MessageAnnotation).filter(MessageAnnotation.message_id == message.id).delete(
														
 
															+                    synchronize_session=False
														
 
															+                )
														
 
															+                db.session.query(MessageChain).filter(MessageChain.message_id == message.id).delete(
														
 
															+                    synchronize_session=False
														
 
															+                )
														
 
															+                db.session.query(MessageAgentThought).filter(MessageAgentThought.message_id == message.id).delete(
														
 
															+                    synchronize_session=False
														
 
															+                )
														
 
															+                db.session.query(MessageFile).filter(MessageFile.message_id == message.id).delete(
														
 
															+                    synchronize_session=False
														
 
															+                )
														
 
															+                db.session.query(SavedMessage).filter(SavedMessage.message_id == message.id).delete(
														
 
															+                    synchronize_session=False
														
 
															+                )
														
 
															+                db.session.query(Message).filter(Message.id == message.id).delete()
														
 
															+                db.session.commit()
														
 
															+    end_at = time.perf_counter()
														
 
															+    click.echo(click.style("Cleaned unused dataset from db success latency: {}".format(end_at - start_at), fg="green"))
														
--- a/api/schedule/clean_unused_datasets_task.py
+++ b/api/schedule/clean_unused_datasets_task.py
@@ -22,7 +22,6 @@ def clean_unused_datasets_task():
 
															     start_at = time.perf_counter()
														
 
															     plan_sandbox_clean_day = datetime.datetime.now() - datetime.timedelta(days=plan_sandbox_clean_day_setting)
														
 
															     plan_pro_clean_day = datetime.datetime.now() - datetime.timedelta(days=plan_pro_clean_day_setting)
														
 
															-    page = 1
														
 
															     while True:
														
 
															         try:
														
 
															             # Subquery for counting new documents
														
@@ -62,14 +61,13 @@ def clean_unused_datasets_task():
 
															                     func.coalesce(document_subquery_old.c.document_count, 0) > 0,
														
 
															                 )
														
 
															                 .order_by(Dataset.created_at.desc())
														
 
															-                .paginate(page=page, per_page=50)
														
 
															+                .paginate(page=1, per_page=50)
														
 
															             )
														
 
															         except NotFound:
														
 
															             break
														
 
															         if datasets.items is None or len(datasets.items) == 0:
														
 
															             break
														
 
															-        page += 1
														
 
															         for dataset in datasets:
														
 
															             dataset_query = (
														
 
															                 db.session.query(DatasetQuery)
														
@@ -92,7 +90,6 @@ def clean_unused_datasets_task():
 
															                     click.echo(
														
 
															                         click.style("clean dataset index error: {} {}".format(e.__class__.__name__, str(e)), fg="red")
														
 
															                     )
														
 
															-    page = 1
														
 
															     while True:
														
 
															         try:
														
 
															             # Subquery for counting new documents
														
@@ -132,14 +129,13 @@ def clean_unused_datasets_task():
 
															                     func.coalesce(document_subquery_old.c.document_count, 0) > 0,
														
 
															                 )
														
 
															                 .order_by(Dataset.created_at.desc())
														
 
															-                .paginate(page=page, per_page=50)
														
 
															+                .paginate(page=1, per_page=50)
														
 
															             )
														
 
															         except NotFound:
														
 
															             break
														
 
															         if datasets.items is None or len(datasets.items) == 0:
														
 
															             break
														
 
															-        page += 1
														
 
															         for dataset in datasets:
														
 
															             dataset_query = (
														
 
															                 db.session.query(DatasetQuery)
														
@@ -149,11 +145,13 @@ def clean_unused_datasets_task():
 
															             if not dataset_query or len(dataset_query) == 0:
														
 
															                 try:
														
 
															                     features_cache_key = f"features:{dataset.tenant_id}"
														
 
															-                    plan = redis_client.get(features_cache_key)
														
 
															-                    if plan is None:
														
 
															+                    plan_cache = redis_client.get(features_cache_key)
														
 
															+                    if plan_cache is None:
														
 
															                         features = FeatureService.get_features(dataset.tenant_id)
														
 
															                         redis_client.setex(features_cache_key, 600, features.billing.subscription.plan)
														
 
															                         plan = features.billing.subscription.plan
														
 
															+                    else:
														
 
															+                        plan = plan_cache.decode()
														
 
															                     if plan == "sandbox":
														
 
															                         # remove index
														
 
															                         index_processor = IndexProcessorFactory(dataset.doc_form).init_index_processor()