Teaching AI How to Forget

The podcast explores the challenges enterprises face in deploying AI models due to inherent risks like bias, hallucinations, and vulnerabilities, which often hinder ROI. Ben Lorica, CEO of HIRONDO, introduces machine unlearning as a solution to make AI trustworthy by enabling models to "forget" undesired data and behaviors. He details how current methods like context engineering, fine-tuning, and guardrails are insufficient because they focus on external solutions rather than addressing the core of the model's knowledge. HIRONDO's approach involves "neurosurgery" on the model's internal representations, identifying and removing problematic behaviors and information like PII, vulnerabilities to prompt injections, and biases. The discussion also covers the distinction between behavioral and data unlearning, emphasizing the importance of benchmarks to measure the effectiveness of unlearning.

Outlines

Part 1: Problem, Context, Origins

Part 2: Current Solutions vs. Machine Unlearning

Part 3: Security, Jailbreaking, Multimodality

Part 4: Technical Implementation, Open vs. Closed Models

Part 5: Future Applications, Agents, Programming

Part 6: Trust, Transparency, Visualization

Sign in to continue reading, translating and more.

Open full episode in Podwise

The Data Exchange with Ben Lorica

Part 1: Problem, Context, Origins

The Core Problem: AI's Inability to Forget Hinders Enterprise Deployment

HIRONDO's Origins: Addressing the Core Issues of AI Model Behavior

Part 2: Current Solutions vs. Machine Unlearning

Current AI Solutions: Limitations of Context Engineering, Fine-Tuning, and Guardrails

Unlearning Defined: Neurosurgery on AI Models to Remove Undesired Behaviors

Behavioral vs. Data Unlearning: Strategies and Applications

Unlearning PII: Performance Advantages and Measurement Metrics

Behavioral vs. Data Unlearning: Enterprise Applications and Risk Mitigation

Unlearning as a Superpower: Post-Training Alignment and Risk Elimination

Part 3: Security, Jailbreaking, Multimodality

Reasoning Models: Vulnerabilities and Control Mechanisms

Jailbreaking and Prompt Injection: A Top Concern for Enterprises

HIRONDO's Success: Prompt Injection and Multimodality

Part 4: Technical Implementation, Open vs. Closed Models

The Unlearning Process: Customization and Data Input

Open Weight Models: Chinese Models and U.S. Corporate Environments

Open vs. Closed Models: Data and Behavior Unlearning

Part 5: Future Applications, Agents, Programming

AI Agents: Criticality and Error Reduction

AI for Programming: IP Protection and Malicious Code

Model Agnosticism: Adapting to New Architectures

Part 6: Trust, Transparency, Visualization

Transparency and Trust: Explainability and Evaluation

Visualization and User-Friendliness

Teaching AI How to Forget

The Data Exchange with Ben Lorica

Part 1: Problem, Context, Origins

00:00The Core Problem: AI's Inability to Forget Hinders Enterprise Deployment

The Core Problem: AI's Inability to Forget Hinders Enterprise Deployment

01:39HIRONDO's Origins: Addressing the Core Issues of AI Model Behavior

HIRONDO's Origins: Addressing the Core Issues of AI Model Behavior

Part 2: Current Solutions vs. Machine Unlearning

04:37Current AI Solutions: Limitations of Context Engineering, Fine-Tuning, and Guardrails

Current AI Solutions: Limitations of Context Engineering, Fine-Tuning, and Guardrails

07:17Unlearning Defined: Neurosurgery on AI Models to Remove Undesired Behaviors

Unlearning Defined: Neurosurgery on AI Models to Remove Undesired Behaviors

11:17Behavioral vs. Data Unlearning: Strategies and Applications

Behavioral vs. Data Unlearning: Strategies and Applications

13:34Unlearning PII: Performance Advantages and Measurement Metrics

Unlearning PII: Performance Advantages and Measurement Metrics

16:31Behavioral vs. Data Unlearning: Enterprise Applications and Risk Mitigation

Behavioral vs. Data Unlearning: Enterprise Applications and Risk Mitigation

18:43Unlearning as a Superpower: Post-Training Alignment and Risk Elimination

Unlearning as a Superpower: Post-Training Alignment and Risk Elimination

Part 3: Security, Jailbreaking, Multimodality

20:31Reasoning Models: Vulnerabilities and Control Mechanisms

Reasoning Models: Vulnerabilities and Control Mechanisms

22:32Jailbreaking and Prompt Injection: A Top Concern for Enterprises

Jailbreaking and Prompt Injection: A Top Concern for Enterprises

24:44HIRONDO's Success: Prompt Injection and Multimodality

HIRONDO's Success: Prompt Injection and Multimodality

Part 4: Technical Implementation, Open vs. Closed Models

27:10The Unlearning Process: Customization and Data Input

The Unlearning Process: Customization and Data Input

29:25Open Weight Models: Chinese Models and U.S. Corporate Environments

Open Weight Models: Chinese Models and U.S. Corporate Environments

31:32Open vs. Closed Models: Data and Behavior Unlearning

Open vs. Closed Models: Data and Behavior Unlearning

Part 5: Future Applications, Agents, Programming

33:31AI Agents: Criticality and Error Reduction

AI Agents: Criticality and Error Reduction

35:30AI for Programming: IP Protection and Malicious Code

AI for Programming: IP Protection and Malicious Code

37:35Model Agnosticism: Adapting to New Architectures

Model Agnosticism: Adapting to New Architectures

Part 6: Trust, Transparency, Visualization

39:11Transparency and Trust: Explainability and Evaluation

Transparency and Trust: Explainability and Evaluation

42:55Visualization and User-Friendliness

Visualization and User-Friendliness