feat: dedup semántico antes del scoring — hash MD5 + similitud Jaccard

2026-05-05 08:58:53 +00:00
parent 53cf7a04a8
commit c2bb301103
1 changed files with 52 additions and 0 deletions
@@ -129,6 +129,8 @@ class ContentProcessor:
        scraped = [s for s in sources if s["status"] == "scraped"]

        logger.info("Processing sources", total=len(scraped))
+        scraped = await self._dedup_sources(session_id, scraped)
+        logger.info("After dedup", unique=len(scraped))
        total_chunks = 0
        total_words = 0

@@ -161,6 +163,56 @@ class ContentProcessor:

        return {"total_chunks": total_chunks, "total_words": total_words}

+    async def _dedup_sources(self, session_id: int,
+                              scraped: list[dict]) -> list[dict]:
+        try:
+            import hashlib
+            seen_hashes: set = set()
+            seen_prefixes: list = []
+            unique: list = []
+            duplicates = 0
+
+            for source in scraped:
+                content = await self.db.get_source_content(source["id"])
+                if not content:
+                    unique.append(source)
+                    continue
+
+                content_hash = hashlib.md5(content[:2000].encode()).hexdigest()
+                if content_hash in seen_hashes:
+                    duplicates += 1
+                    await self.db.update_source(source["id"], status="skipped")
+                    continue
+                seen_hashes.add(content_hash)
+
+                prefix = content[:300].strip().lower()
+                prefix_words = set(prefix.split())
+                is_dup = False
+                if len(prefix_words) >= 10:
+                    for seen_prefix_words in seen_prefixes:
+                        intersection = len(prefix_words & seen_prefix_words)
+                        union = len(prefix_words | seen_prefix_words)
+                        if intersection / max(union, 1) > 0.85:
+                            is_dup = True
+                            break
+
+                if is_dup:
+                    duplicates += 1
+                    await self.db.update_source(source["id"], status="skipped")
+                    continue
+
+                seen_prefixes.append(prefix_words)
+                unique.append(source)
+
+            if duplicates > 0:
+                logger.info("Dedup complete", session_id=session_id,
+                            original=len(scraped), duplicates=duplicates,
+                            unique=len(unique))
+            return unique
+        except Exception as e:
+            logger.warning("Dedup failed, processing all sources", error=str(e))
+            return scraped
+
    async def _process_source(self, session_id: int, topic: str, source: dict) -> int:
        """Chunk, score, embed and store a single source. Returns chunk count."""
        source_id = source["id"]