Research - Datapro Consultancy Services

TRAFILATURA: A WEB SCRAPING LIBRARY AND COMMAND-LINE TOOL FOR TEXT DISCOVERY AND EXTRACTION

THE TOOL PERFORMS SIGNIFICANTLY BETTER THAN OTHER OPEN-SOURCE SOLUTIONS IN THIS EVALUATION AND IN EXTERNAL BENCHMARKS.

3D-VISTA: PRE-TRAINED TRANSFORMER FOR 3D VISION AND TEXT ALIGNMENT

3D VISION-LANGUAGE GROUNDING (3D-VL) IS AN EMERGING FIELD THAT AIMS TO CONNECT THE 3D PHYSICAL WORLD WITH NATURAL LANGUAGE, WHICH IS CRUCIAL FOR ACHIEVING EMBODIED INTELLIGENCE.

CoDeF: CONTENT DEFORMATION FIELDS FOR TEMPORALLY CONSISTENT VIDEO PROCESSING

WE PRESENT THE CONTENT DEFORMATION FIELD F AS A NEW TYPE OF VIDEO REPRESENTATION, WHICH CONSISTS OF A CANONICAL CONTENT FIELD AGGREGATING THE STATIC CONTENTS IN THE ENTIRE VIDEO AND A TEMPORAL DEFORMATION FIELD RECORDING THE TRANSFORMATIONS FROM THE CANONICAL IMAGE (I. E., RENDERED FROM THE CANONICAL CONTENT FIELD) TO EACH INDIVIDUAL FRAME ALONG THE TIME AXIS. GIVEN A TARGET VIDEO, THESE TWO FIELDS ARE JOINTLY OPTIMIZED TO RECONSTRUCT IT THROUGH A CAREFULLY TAILORED RENDERING PIPELINE. WE ADVISEDLY INTRODUCE SOME REGULARIZATIONS INTO THE OPTIMIZATION PROCESS, URGING THE CANONICAL CONTENT FIELD TO INHERIT SEMANTICS (E. G., THE OBJECT SHAPE) FROM THE VIDEO. WITH SUCH A DESIGN, F NATURALLY SUPPORTS LIFTING IMAGE ALGORITHMS FOR VIDEO PROCESSING, IN THE SENSE THAT ONE CAN APPLY AN IMAGE ALGORITHM TO THE CANONICAL IMAGE AND EFFORTLESSLY PROPAGATE THE OUTCOMES TO THE ENTIRE VIDEO WITH THE AID OF THE TEMPORAL DEFORMATION FIELD. WE EXPERIMENTALLY SHOW THAT F IS ABLE TO LIFT IMAGE-TO-IMAGE TRANSLATION TO VIDEO-TO-VIDEO TRANSLATION AND LIFT KEYPOINT DETECTION TO KEYPOINT TRACKING WITHOUT ANY TRAINING. MORE IMPORTANTLY, THANKS TO OUR LIFTING STRATEGY THAT DEPLOYS THE ALGORITHMS ON ONLY ONE IMAGE, WE ACHIEVE SUPERIOR CROSS-FRAME CONSISTENCY IN PROCESSED VIDEOS COMPARED TO EXISTING VIDEO-TO-VIDEO TRANSLATION APPROACHES, AND EVEN MANAGE TO TRACK NON-RIGID OBJECTS LIKE WATER AND SMOG. PROJECT PAGE CAN BE FOUND AT IMAGE-TO-IMAGE TRANSLATION KEYPOINT DETECTION +1

SEGPROMPT: BOOSTING OPEN-WORLD SEGMENTATION VIA CATEGORY-LEVEL PROMPT LEARNING

IN THIS WORK, WE PROPOSE A NOVEL TRAINING MECHANISM TERMED SEGPROMPT THAT USES CATEGORY INFORMATION TO IMPROVE THE MODEL'S CLASS-AGNOSTIC SEGMENTATION ABILITY FOR BOTH KNOWN AND UNKNOWN CATEGORIES.

COLOR-NEUS: RECONSTRUCTING NEURAL IMPLICIT SURFACES WITH COLOR

MESH IS EXTRACTED FROM THE SIGNED DISTANCE FUNCTION (SDF) NETWORK FOR THE SURFACE, AND COLOR FOR EACH SURFACE VERTEX IS DRAWN FROM THE GLOBAL COLOR NETWORK.

MUAVIC: A MULTILINGUAL AUDIO-VISUAL CORPUS FOR ROBUST SPEECH RECOGNITION AND ROBUST SPEECH-TO-TEXT TRANSLATION

WE INTRODUCE MUAVIC, A MULTILINGUAL AUDIO-VISUAL CORPUS FOR ROBUST SPEECH RECOGNITION AND ROBUST SPEECH-TO-TEXT TRANSLATION PROVIDING 1200 S OF AUDIO-VISUAL SPEECH IN 9 LANGUAGES.

EFFICIENT GUIDED GENERATION FOR LARGE LANGUAGE MODELS

IN THIS ARTICLE WE SHOW HOW THE PROBLEM OF NEURAL TEXT GENERATION CAN BE CONSTRUCTIVELY REFORMULATED IN TERMS OF TRANSITIONS BETWEEN THE STATES OF A FINITE-STATE MACHINE.

FASTVIT: A FAST HYBRID VISION TRANSFORMER USING STRUCTURAL REPARAMETERIZATION

TO THIS END, WE INTRODUCE A NOVEL TOKEN MIXING OPERATOR, REPMIXER, A BUILDING BLOCK OF FASTVIT, THAT USES STRUCTURAL REPARAMETERIZATION TO LOWER THE MEMORY ACCESS COST BY REMOVING SKIP-CONNECTIONS IN THE NETWORK.

GENERATIVE AGENTS: INTERACTIVE SIMULACRA OF HUMAN BEHAVIOR

BELIEVABLE PROXIES OF HUMAN BEHAVIOR CAN EMPOWER INTERACTIVE APPLICATIONS RANGING FROM IMMERSIVE ENVIRONMENTS TO REHEARSAL SPACES FOR INTERPERSONAL COMMUNICATION TO PROTOTYPING TOOLS.

OCTOPACK: INSTRUCTION TUNING LARGE LANGUAGE MODELS

WE BENCHMARK COMMITPACK AGAINST OTHER NATURAL AND SYNTHETIC INSTRUCTIONS (XP3X, SELF-INSTRUCT, OASST) ON THE 16B PARAMETER STARR MODEL, AND ACHIEVE STATE-OF-THE-ART PERFORMANCE AMONG MODELS NOT TRAINED ON OPENAI OUTPUTS, ON THE HUMANEVAL PYTHON BENCHMARK (46. 2% PASS@1).

IMAGE CAPTIONING GENERATOR USING CNN AND LSTM

click here to download project abstract /base paper ABSTRACT Embark on an exciting journey at the crossroads of computer vision and natural language processing with our innovative project, "Image Captioning…